Llama 3 8B: performance di un 70B con tecniche di prompting

Un recente studio ha evidenziato come un modello linguistico di dimensioni ridotte, Llama 3 8B, possa raggiungere performance comparabili a quelle di un modello molto più grande, Llama 3 70B, in compiti di question answering che richiedono ragionamento su più passaggi (multi-hop QA).

Dettagli dell'esperimento

I ricercatori hanno utilizzato Graph RAG (KET-RAG) e LightRAG per valutare le capacità dei modelli. Hanno scoperto che il recupero delle informazioni (retrieval) non è più il principale ostacolo, dato che la risposta è presente nel contesto tra il 77% e il 91% delle volte. Il vero collo di bottiglia è invece il ragionamento: tra il 73% e l'84% delle risposte errate derivano dall'incapacità del modello di collegare le informazioni corrette.

Tecniche utilizzate

Per migliorare le performance del modello più piccolo, sono state implementate due tecniche durante l'inference:

Structured chain of thought: Scomposizione delle domande in pattern di query grafiche prima di fornire la risposta.
Compressione del contesto recuperato: Riduzione del contesto di circa il 60% tramite graph traversal, senza ulteriori chiamate all'LLM.

Risultati

L'utilizzo di queste tecniche ha permesso a Llama 3 8B di eguagliare o superare le performance di Llama 3 70B su tre benchmark comuni: HotpotQA, MuSiQue e 2WikiMultiHopQA (500 domande per ciascuno). Il tutto, con un costo inferiore di circa 12 volte (Groq).

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Llama 3 8B: performance di un 70B con tecniche di prompting

Dettagli dell'esperimento

Tecniche utilizzate

Risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Rendere ragione sui graph del tempo con modelli di linguaggio grandi

Qwen 3.5-35B-A3B: un modello sorprendente per task di sviluppo

LLM e richieste inattese: quando l'AI risponde fuori dagli schemi

👥 Unisciti a 160+ appassionati di AI