Confronto tra Qwen3.5 27B e Devstral Small 2
Un utente ha effettuato un confronto tra due modelli linguistici di grandi dimensioni (LLM), Qwen3.5 27B e Devstral Small 2, valutandone le capacità in contesti di sviluppo pratici. L'obiettivo era determinare quale modello fosse più adatto per attività di sviluppo che coinvolgono Next.js e Solidity.
Setup e Metodologia di Test
I test sono stati eseguiti su una workstation dotata di:
- Processore Ryzen 9 9950X
- 96GB di RAM DDR5 a 6000 MHz
- GPU RTX 5090
- Sistema operativo Fedora 43
È stato utilizzato llama.cpp (build b8149) in un container Docker con CUDA 13.1.0. I modelli sono stati quantizzati a Q6_K (Qwen3.5 27B) e IQ4_XS (Devstral Small 2).
I test consistevano in 78 task agentici (39 Next.js e 39 Hardhat). Ogni task è stato eseguito come una nuova sessione per evitare problemi di compressione del contesto.
Il sistema di punteggio valutava:
- Correttezza (60 punti): il patch risolve completamente il task.
- Compatibilità (20 punti): il patch preserva le integrazioni richieste.
- Disciplina dello Scope (20 punti): il modello modifica solo i file rilevanti.
Risultati
- Qwen3.5-27B.i1-Q6_K.gguf:
- Punteggio totale: 4134
- Punteggio medio per task: 53.00
- Task superati: 48/78 (61.54%)
- Velocità di elaborazione del prompt: 1326.80 tok/s (media), 1596.20 tok/s (token-weighted)
- Velocità di generazione dei token: 45.24 tok/s (media), 45.03 tok/s (token-weighted)
- Devstral-Small-2-24B-Instruct-2512-IQ4_XS-4.04bpw.gguf:
- Punteggio totale: 3158
- Punteggio medio per task: 40.49
- Task superati: 33/78 (42.31%)
- Velocità di elaborazione del prompt: 2777.02 tok/s (media), 4200.64 tok/s (token-weighted)
- Velocità di generazione dei token: 90.49 tok/s (media), 89.31 tok/s (token-weighted)
Qwen3.5 27B ha ottenuto risultati migliori nei task relativi a Hardhat/Solidity, mentre Devstral Small 2 ha mostrato performance superiori nei task Next.js. Devstral Small 2 ha dimostrato una maggiore velocità di elaborazione e generazione dei token.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!