Classificazione efficiente di tabelle con LLM
Un recente studio pubblicato su arXiv indaga l'utilizzo di modelli linguistici di grandi dimensioni (LLM) giร esistenti per la classificazione di dati tabellari presenti sul web. L'obiettivo รจ evitare lo sviluppo di modelli specializzati o costosi retraining.
L'approccio proposto, denominato TaRL (Table Representation with Language Model), sfrutta le semantic embeddings delle singole righe delle tabelle. Inizialmente, l'applicazione diretta di queste embeddings si รจ dimostrata meno efficace rispetto a modelli tabellari dedicati. Tuttavia, i ricercatori hanno scoperto che, rimuovendo la componente comune dalle embeddings e calibrando la temperatura della softmax, รจ possibile sbloccarne il potenziale.
Un meta-learner addestrato su feature artigianali รจ in grado di prevedere una temperatura appropriata. Questo metodo raggiunge prestazioni paragonabili allo stato dell'arte in regimi di low-data (k โค 32) per tabelle semanticamente ricche. I risultati dimostrano la fattibilitร del riutilizzo dell'infrastruttura LLM esistente per la comprensione delle tabelle web. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza su /llm-onpremise.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!