Google Research ha presentato TabFM, un foundation model pensato per operare direttamente su dati tabulari in modalità zero-shot. Non si tratta del solito classificatore che richiede addestramento su ogni nuovo dataset: TabFM accetta gli esempi di training come contesto all’interno di un singolo passaggio e produce previsioni – sia di classificazione che di regressione – su colonne miste, numeriche e categoriche, senza alcun fine-tuning e senza ricerca di iperparametri.

L’idea di applicare l’architettura dei foundation model ai dati strutturati arriva in un momento in cui le imprese, specialmente nei settori finance, sanitario e manifatturiero, gestiscono volumi crescenti di tabelle che spesso contengono informazioni sensibili. Addestrare modelli tradizionali su questi dati richiede pipeline complesse, tuning manuale e, sempre più spesso, il trasferimento dei dati su piattaforme cloud per sfruttare potenza di calcolo. TabFM ribalta questo schema: con un modello capace di generalizzare senza training per task specifici, le organizzazioni possono mantenere l’inference interamente on-premise, sui propri server, riducendo al minimo la superficie di esposizione dei dati.

Il funzionamento è semplice nella sua eleganza. Il modello, pre-addestrato su una vasta varietà di dataset tabulari, impara a rappresentare le relazioni tra righe e colonne. Quando deve affrontare un nuovo compito, l’utente fornisce alcuni esempi etichettati direttamente nel prompt, insieme alle righe da classificare o regredire. TabFM processa l’intero blocco in un’unica esecuzione e restituisce le predizioni. Nessuna fase di training aggiuntiva, nessun aggiustamento dei pesi.

Questa caratteristica ha implicazioni notevoli per i deployment on-premise. Mentre i modelli linguistici di grandi dimensioni richiedono GPU con VRAM abbondante e spesso cluster dedicati, un foundation model tabulare zero-shot potrebbe essere eseguito su hardware meno esigente, dal momento che l’inference è l’unica operazione necessaria. Naturalmente, il consumo di risorse dipende dalla dimensione del modello e dalla lunghezza del contesto, ma l’assenza di cicli di addestramento elimina un collo di bottiglia tradizionale. Per le aziende che valutano il Total Cost of Ownership (TCO) di una infrastruttura AI locale, TabFM introduce un tassello leggero accanto ai più pesanti carichi di lavoro LLM.

Un altro aspetto rilevante è la sovranità dei dati. Regolamenti come il GDPR impongono restrizioni stringenti sul trasferimento di dati personali. I dataset tabulari in ambito sanitario o finanziario contengono spesso identificativi diretti o quasi-identificatori. Poter eseguire inference senza inviare i dati a servizi cloud esterni non è solo una comodità tecnica, ma un requisito di compliance. Modelli come TabFM, se resi disponibili con pesi aperti, potrebbero essere integrati in architetture air-gapped, dove l’analisi predittiva avviene interamente all’interno del perimetro aziendale.

AI-RADAR segue con attenzione questo tipo di sviluppi perché l’adozione di modelli fondazionali per dati strutturati potrebbe ridisegnare i confini tra machine learning tradizionale e intelligenza artificiale generativa nel panorama enterprise. Per chi sta già pianificando o gestendo deployment on-premise di LLM, l’arrivo di strumenti tabulari zero-shot apre la possibilità di consolidare più workload sullo stesso stack hardware, massimizzando l’utilizzo degli investimenti in server e GPU. Tuttavia, restano aperte domande sulla robustezza predittiva di TabFM rispetto a modelli addestrati su misura – un trade-off che ogni organizzazione dovrà pesare in base ai propri vincoli di accuratezza, latenza e budget.