Qwen3.5 27B vs Devstral Small 2: Test su Next.js e Solidity

Confronto tra Qwen3.5 27B e Devstral Small 2

Un utente ha effettuato un confronto tra due modelli linguistici di grandi dimensioni (LLM), Qwen3.5 27B e Devstral Small 2, valutandone le capacità in contesti di sviluppo pratici. L'obiettivo era determinare quale modello fosse più adatto per attività di sviluppo che coinvolgono Next.js e Solidity.

Setup e Metodologia di Test

I test sono stati eseguiti su una workstation dotata di:

Processore Ryzen 9 9950X
96GB di RAM DDR5 a 6000 MHz
GPU RTX 5090
Sistema operativo Fedora 43

È stato utilizzato llama.cpp (build b8149) in un container Docker con CUDA 13.1.0. I modelli sono stati quantizzati a Q6_K (Qwen3.5 27B) e IQ4_XS (Devstral Small 2).

I test consistevano in 78 task agentici (39 Next.js e 39 Hardhat). Ogni task è stato eseguito come una nuova sessione per evitare problemi di compressione del contesto.

Il sistema di punteggio valutava:

Correttezza (60 punti): il patch risolve completamente il task.
Compatibilità (20 punti): il patch preserva le integrazioni richieste.
Disciplina dello Scope (20 punti): il modello modifica solo i file rilevanti.

Risultati

Qwen3.5-27B.i1-Q6_K.gguf:
- Punteggio totale: 4134
- Punteggio medio per task: 53.00
- Task superati: 48/78 (61.54%)
- Velocità di elaborazione del prompt: 1326.80 tok/s (media), 1596.20 tok/s (token-weighted)
- Velocità di generazione dei token: 45.24 tok/s (media), 45.03 tok/s (token-weighted)
Devstral-Small-2-24B-Instruct-2512-IQ4_XS-4.04bpw.gguf:
- Punteggio totale: 3158
- Punteggio medio per task: 40.49
- Task superati: 33/78 (42.31%)
- Velocità di elaborazione del prompt: 2777.02 tok/s (media), 4200.64 tok/s (token-weighted)
- Velocità di generazione dei token: 90.49 tok/s (media), 89.31 tok/s (token-weighted)

Qwen3.5 27B ha ottenuto risultati migliori nei task relativi a Hardhat/Solidity, mentre Devstral Small 2 ha mostrato performance superiori nei task Next.js. Devstral Small 2 ha dimostrato una maggiore velocità di elaborazione e generazione dei token.

Qwen3.5 27B vs Devstral Small 2: Test su Next.js e Solidity

Confronto tra Qwen3.5 27B e Devstral Small 2

Setup e Metodologia di Test

Risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Inferenza LLM: 8 GPU AMD MI50 per prestazioni e convenienza

Gemma: la community invoca il ritorno dei modelli Google

Ministral-3-3B: un modello compatto per inference locale

👥 Unisciti a 160+ appassionati di AI