Un recente esperimento ha dimostrato che il modello Qwen3.5-35B-A3B, un modello MoE con soli 3 miliardi di parametri attivi, puรฒ raggiungere performance notevoli nel benchmark SWE-bench Verified Hard adottando una strategia di verifica continua.
Dettagli dell'esperimento
L'esperimento ha utilizzato un harness minimale con strumenti come file_read, file_edit, bash, grep e glob. Sono state testate diverse strategie di verifica, tra cui:
- Baseline (nessuna auto-verifica): 22.2% di successo
- Verifica finale (test prima di dichiarare la fine): 33.3% di successo
- Verifica ad ogni modifica (test dopo ogni
file_edit): 37.8% di successo
La strategia "verifica ad ogni modifica" consiste nell'iniettare un messaggio all'agente dopo ogni modifica al file, chiedendogli di verificare la correttezza della modifica tramite un breve script python o uno script di test.
Risultati
La strategia "verifica ad ogni modifica" ha permesso al modello di raggiungere il 37.8% di successo nel benchmark SWE-bench Verified Hard, avvicinandosi al 40% di Claude Opus 4.6. Sul benchmark completo (500 task), il modello ha raggiunto il 67.0%, paragonabile a sistemi molto piรน grandi.
Considerazioni
Questi risultati evidenziano l'importanza di strategie di verifica efficaci per migliorare le performance dei modelli linguistici, anche di quelli piรน piccoli. Per chi valuta deployment on-premise, esistono trade-off da considerare, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!