Un recente studio ha evidenziato come un modello linguistico di dimensioni ridotte, Llama 3 8B, possa raggiungere performance comparabili a quelle di un modello molto più grande, Llama 3 70B, in compiti di question answering che richiedono ragionamento su più passaggi (multi-hop QA).
Dettagli dell'esperimento
I ricercatori hanno utilizzato Graph RAG (KET-RAG) e LightRAG per valutare le capacità dei modelli. Hanno scoperto che il recupero delle informazioni (retrieval) non è più il principale ostacolo, dato che la risposta è presente nel contesto tra il 77% e il 91% delle volte. Il vero collo di bottiglia è invece il ragionamento: tra il 73% e l'84% delle risposte errate derivano dall'incapacità del modello di collegare le informazioni corrette.
Tecniche utilizzate
Per migliorare le performance del modello più piccolo, sono state implementate due tecniche durante l'inference:
- Structured chain of thought: Scomposizione delle domande in pattern di query grafiche prima di fornire la risposta.
- Compressione del contesto recuperato: Riduzione del contesto di circa il 60% tramite graph traversal, senza ulteriori chiamate all'LLM.
Risultati
L'utilizzo di queste tecniche ha permesso a Llama 3 8B di eguagliare o superare le performance di Llama 3 70B su tre benchmark comuni: HotpotQA, MuSiQue e 2WikiMultiHopQA (500 domande per ciascuno). Il tutto, con un costo inferiore di circa 12 volte (Groq).
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!