Confronto di LLM su hardware datato
Un utente ha testato le performance di due modelli LLM, DeepSeek-V2-Lite e GPT-OSS-20B, su un laptop HP ProBook del 2018 dotato di processore Intel i3-8145U e grafica integrata UHD 620, senza GPU dedicata. L'obiettivo era valutare l'usabilità dei modelli su hardware limitato, sfruttando il backend OpenVINO per l'inference.
Metodologia di test
Sono state poste a entrambi i modelli le stesse 10 domande, riguardanti logica, salute, storia, programmazione, scrittura creativa, biografie, matematica, spiegazioni tecniche, etica e scienza alimentare. Ogni modello è stato testato tre volte, eseguendo le domande prima sulla CPU e poi sulla iGPU con un layer scaricato. Sono state mantenute condizioni identiche per contesto (4096), output massimo (256 token), temperatura (0.2) e top_p (0.9).
Risultati di performance
DeepSeek-V2-Lite ha mostrato performance significativamente superiori, con una velocità quasi doppia rispetto a GPT-OSS-20B.
- DeepSeek-V2-Lite su CPU: 7.93 token/s (TTFT 2.36s)
- DeepSeek-V2-Lite su iGPU: 8.08 token/s (TTFT 1.86s)
- GPT-OSS-20B su CPU: 4.20 token/s (TTFT 3.13s)
- GPT-OSS-20B su iGPU: 4.36 token/s (TTFT 3.07s)
L'iGPU ha migliorato maggiormente le performance di DeepSeek-V2-Lite rispetto a GPT-OSS-20B.
Qualità delle risposte
DeepSeek-V2-Lite ha ottenuto un punteggio di 7.5 su 10, mostrando risposte consistenti e ben strutturate in diverse aree. Tuttavia, ha fallito in un test di logica e non ha completato l'implementazione di codice richiesta. GPT-OSS-20B ha ottenuto un punteggio di 2 su 10, mostrando lampi di intelligenza ma con frequenti errori, ripetizioni e allucinazioni. In molti casi, GPT-OSS-20B non è riuscito a fornire risposte complete entro il limite di 256 token, esaurendo il budget di token nella fase di ragionamento.
Conclusioni
DeepSeek-V2-Lite si è dimostrato più adatto per l'esecuzione su hardware con risorse limitate, offrendo un miglior equilibrio tra velocità, coerenza e affidabilità. GPT-OSS-20B, pur mostrando potenziale, ha evidenziato problemi di usabilità a causa della sua tendenza a generare errori e ripetizioni con le impostazioni di test utilizzate. Potrebbe beneficiare di un aumento del numero massimo di token e di una quantization più elevata.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!