Un accademico con risorse limitate ha condiviso la propria esperienza nell'utilizzo di diversi modelli linguistici di grandi dimensioni (LLM) per l'assistenza allo sviluppo su una GPU GeForce RTX 4060 Ti da 16GB.

Valutazione di LLM per compiti specifici

L'utente ha testato vari LLM, tra cui GLM 4.7, Qwen3 coder 30B, a3b oss 20B, Qwen3.5 (27B e 9B) e Qwen2.5 coder 14B, con finestre di contesto variabili tra 20.000 e 48.000 token. L'obiettivo era valutare la capacità dei modelli di comprendere ed estendere codice esistente, in particolare un'implementazione di reinforcement learning per un compito di inference transitiva.

Devstral Small 2: una sorpresa inaspettata

Contrariamente alle aspettative basate su precedenti valutazioni online, Devstral Small 2 (24B) si è distinto come il modello più efficace. Pur non fornendo risposte perfette, è stato l'unico in grado di produrre risultati parzialmente corretti e utilizzabili come punto di partenza. Altri modelli, incluso GLM 4.7, hanno prodotto output di qualità inferiore, anche con tempi di elaborazione più lunghi.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.