Confronto di LLM su hardware datato

Un utente ha testato le performance di due modelli LLM, DeepSeek-V2-Lite e GPT-OSS-20B, su un laptop HP ProBook del 2018 dotato di processore Intel i3-8145U e grafica integrata UHD 620, senza GPU dedicata. L'obiettivo era valutare l'usabilità dei modelli su hardware limitato, sfruttando il backend OpenVINO per l'inference.

Metodologia di test

Sono state poste a entrambi i modelli le stesse 10 domande, riguardanti logica, salute, storia, programmazione, scrittura creativa, biografie, matematica, spiegazioni tecniche, etica e scienza alimentare. Ogni modello è stato testato tre volte, eseguendo le domande prima sulla CPU e poi sulla iGPU con un layer scaricato. Sono state mantenute condizioni identiche per contesto (4096), output massimo (256 token), temperatura (0.2) e top_p (0.9).

Risultati di performance

DeepSeek-V2-Lite ha mostrato performance significativamente superiori, con una velocità quasi doppia rispetto a GPT-OSS-20B.

  • DeepSeek-V2-Lite su CPU: 7.93 token/s (TTFT 2.36s)
  • DeepSeek-V2-Lite su iGPU: 8.08 token/s (TTFT 1.86s)
  • GPT-OSS-20B su CPU: 4.20 token/s (TTFT 3.13s)
  • GPT-OSS-20B su iGPU: 4.36 token/s (TTFT 3.07s)

L'iGPU ha migliorato maggiormente le performance di DeepSeek-V2-Lite rispetto a GPT-OSS-20B.

Qualità delle risposte

DeepSeek-V2-Lite ha ottenuto un punteggio di 7.5 su 10, mostrando risposte consistenti e ben strutturate in diverse aree. Tuttavia, ha fallito in un test di logica e non ha completato l'implementazione di codice richiesta. GPT-OSS-20B ha ottenuto un punteggio di 2 su 10, mostrando lampi di intelligenza ma con frequenti errori, ripetizioni e allucinazioni. In molti casi, GPT-OSS-20B non è riuscito a fornire risposte complete entro il limite di 256 token, esaurendo il budget di token nella fase di ragionamento.

Conclusioni

DeepSeek-V2-Lite si è dimostrato più adatto per l'esecuzione su hardware con risorse limitate, offrendo un miglior equilibrio tra velocità, coerenza e affidabilità. GPT-OSS-20B, pur mostrando potenziale, ha evidenziato problemi di usabilità a causa della sua tendenza a generare errori e ripetizioni con le impostazioni di test utilizzate. Potrebbe beneficiare di un aumento del numero massimo di token e di una quantization più elevata.