Classificazione rapida di informazioni umanitarie con LLM leggeri

La classificazione tempestiva di informazioni umanitarie provenienti dai social media รจ fondamentale per una risposta efficace ai disastri. Questo articolo presenta un framework leggero ed economico per la classificazione di tweet relativi a disastri, utilizzando il fine-tuning efficiente.

Dettagli dell'implementazione

Il framework รจ stato valutato su un corpus unificato basato sul dataset HumAID (76.484 tweet relativi a 19 eventi disastrosi). L'approccio si basa sul fine-tuning di Llama 3.1 8B tramite LoRA (Low-Rank Adaptation). I risultati mostrano che LoRA raggiunge un'accuratezza del 79.62% nella classificazione umanitaria, con un training di solo il 2% dei parametri. L'utilizzo di QLoRA permette di ridurre ulteriormente i costi di memoria, mantenendo il 99.4% delle prestazioni di LoRA.

RAG e rumore nelle etichette

Contrariamente a quanto si potrebbe pensare, le strategie di RAG (Retrieval-Augmented Generation) peggiorano le prestazioni del modello fine-tuned a causa del rumore presente nelle etichette degli esempi recuperati. Questo studio stabilisce una pipeline pratica e riproducibile per la creazione di sistemi di crisis intelligence affidabili con risorse computazionali limitate. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.