Un recente esperimento ha dimostrato che il modello Qwen3.5-35B-A3B, un modello MoE con soli 3 miliardi di parametri attivi, puรฒ raggiungere performance notevoli nel benchmark SWE-bench Verified Hard adottando una strategia di verifica continua.

Dettagli dell'esperimento

L'esperimento ha utilizzato un harness minimale con strumenti come file_read, file_edit, bash, grep e glob. Sono state testate diverse strategie di verifica, tra cui:

  • Baseline (nessuna auto-verifica): 22.2% di successo
  • Verifica finale (test prima di dichiarare la fine): 33.3% di successo
  • Verifica ad ogni modifica (test dopo ogni file_edit): 37.8% di successo

La strategia "verifica ad ogni modifica" consiste nell'iniettare un messaggio all'agente dopo ogni modifica al file, chiedendogli di verificare la correttezza della modifica tramite un breve script python o uno script di test.

Risultati

La strategia "verifica ad ogni modifica" ha permesso al modello di raggiungere il 37.8% di successo nel benchmark SWE-bench Verified Hard, avvicinandosi al 40% di Claude Opus 4.6. Sul benchmark completo (500 task), il modello ha raggiunto il 67.0%, paragonabile a sistemi molto piรน grandi.

Considerazioni

Questi risultati evidenziano l'importanza di strategie di verifica efficaci per migliorare le performance dei modelli linguistici, anche di quelli piรน piccoli. Per chi valuta deployment on-premise, esistono trade-off da considerare, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.