LLM per classificare tabelle web con poche consegne

Classificazione efficiente di tabelle con LLM

Un recente studio pubblicato su arXiv indaga l'utilizzo di modelli linguistici di grandi dimensioni (LLM) già esistenti per la classificazione di dati tabellari presenti sul web. L'obiettivo è evitare lo sviluppo di modelli specializzati o costosi retraining.

L'approccio proposto, denominato TaRL (Table Representation with Language Model), sfrutta le semantic embeddings delle singole righe delle tabelle. Inizialmente, l'applicazione diretta di queste embeddings si è dimostrata meno efficace rispetto a modelli tabellari dedicati. Tuttavia, i ricercatori hanno scoperto che, rimuovendo la componente comune dalle embeddings e calibrando la temperatura della softmax, è possibile sbloccarne il potenziale.

Un meta-learner addestrato su feature artigianali è in grado di prevedere una temperatura appropriata. Questo metodo raggiunge prestazioni paragonabili allo stato dell'arte in regimi di low-data (k ≤ 32) per tabelle semanticamente ricche. I risultati dimostrano la fattibilità del riutilizzo dell'infrastruttura LLM esistente per la comprensione delle tabelle web. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza su /llm-onpremise.

LLM per classificare tabelle web con poche consegne

Classificazione efficiente di tabelle con LLM

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

LLM per comprendere meglio le transazioni finanziarie

Valutazione di LLM per il greco: il benchmark DemosQA

LLM e Scritture: l'Astrazione Semantica Oltre i Token

👥 Unisciti a 160+ appassionati di AI