Confronto tra Qwen3.5 27B e Devstral Small 2

Un utente ha effettuato un confronto tra due modelli linguistici di grandi dimensioni (LLM), Qwen3.5 27B e Devstral Small 2, valutandone le capacità in contesti di sviluppo pratici. L'obiettivo era determinare quale modello fosse più adatto per attività di sviluppo che coinvolgono Next.js e Solidity.

Setup e Metodologia di Test

I test sono stati eseguiti su una workstation dotata di:

  • Processore Ryzen 9 9950X
  • 96GB di RAM DDR5 a 6000 MHz
  • GPU RTX 5090
  • Sistema operativo Fedora 43

È stato utilizzato llama.cpp (build b8149) in un container Docker con CUDA 13.1.0. I modelli sono stati quantizzati a Q6_K (Qwen3.5 27B) e IQ4_XS (Devstral Small 2).

I test consistevano in 78 task agentici (39 Next.js e 39 Hardhat). Ogni task è stato eseguito come una nuova sessione per evitare problemi di compressione del contesto.

Il sistema di punteggio valutava:

  • Correttezza (60 punti): il patch risolve completamente il task.
  • Compatibilità (20 punti): il patch preserva le integrazioni richieste.
  • Disciplina dello Scope (20 punti): il modello modifica solo i file rilevanti.

Risultati

  • Qwen3.5-27B.i1-Q6_K.gguf:
    • Punteggio totale: 4134
    • Punteggio medio per task: 53.00
    • Task superati: 48/78 (61.54%)
    • Velocità di elaborazione del prompt: 1326.80 tok/s (media), 1596.20 tok/s (token-weighted)
    • Velocità di generazione dei token: 45.24 tok/s (media), 45.03 tok/s (token-weighted)
  • Devstral-Small-2-24B-Instruct-2512-IQ4_XS-4.04bpw.gguf:
    • Punteggio totale: 3158
    • Punteggio medio per task: 40.49
    • Task superati: 33/78 (42.31%)
    • Velocità di elaborazione del prompt: 2777.02 tok/s (media), 4200.64 tok/s (token-weighted)
    • Velocità di generazione dei token: 90.49 tok/s (media), 89.31 tok/s (token-weighted)

Qwen3.5 27B ha ottenuto risultati migliori nei task relativi a Hardhat/Solidity, mentre Devstral Small 2 ha mostrato performance superiori nei task Next.js. Devstral Small 2 ha dimostrato una maggiore velocità di elaborazione e generazione dei token.