Valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM) in scenari reali richiede metriche che riflettano l'esperienza dell'utente finale. Un utente della comunitร  LocalLLaMA ha evidenziato i limiti dei tradizionali benchmark basati sui token al secondo (pp/tg), proponendo un approccio alternativo focalizzato sul tempo totale di attesa.

Il problema con i benchmark tradizionali

I benchmark che misurano i token al secondo (o per token) possono risultare fuorvianti, poichรฉ non sempre si traducono in una percezione di velocitร  da parte dell'utente. Una configurazione che appare performante sulla carta potrebbe rivelarsi lenta nell'uso quotidiano, specialmente quando si elaborano contesti di grandi dimensioni.

Un nuovo approccio: tempo totale di attesa

L'utente ha quindi sviluppato un benchmark che misura il tempo necessario per elaborare contesti di dimensioni variabili (da 1.000 a 64.000 token) e generare una risposta di 500 token. Questo approccio mira a simulare scenari d'uso realistici, fornendo una stima piรน precisa del tempo che l'utente deve attendere per ottenere una risposta dal modello.

I risultati di questo benchmark sono stati pubblicati su un sito web, offrendo una panoramica delle prestazioni di diverse configurazioni hardware, inclusa una Strix Halo con 128 GB di memoria.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.