Un accademico con risorse limitate ha condiviso la propria esperienza nell'utilizzo di diversi modelli linguistici di grandi dimensioni (LLM) per l'assistenza allo sviluppo su una GPU GeForce RTX 4060 Ti da 16GB.

Valutazione di LLM per compiti specifici

L'utente ha testato vari LLM, tra cui GLM 4.7, Qwen3 coder 30B, a3b oss 20B, Qwen3.5 (27B e 9B) e Qwen2.5 coder 14B, con finestre di contesto variabili tra 20.000 e 48.000 token. L'obiettivo era valutare la capacitร  dei modelli di comprendere ed estendere codice esistente, in particolare un'implementazione di reinforcement learning per un compito di inference transitiva.

Devstral Small 2: una sorpresa inaspettata

Contrariamente alle aspettative basate su precedenti valutazioni online, Devstral Small 2 (24B) si รจ distinto come il modello piรน efficace. Pur non fornendo risposte perfette, รจ stato l'unico in grado di produrre risultati parzialmente corretti e utilizzabili come punto di partenza. Altri modelli, incluso GLM 4.7, hanno prodotto output di qualitร  inferiore, anche con tempi di elaborazione piรน lunghi.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.