HyperJoin: Un Nuovo Approccio per l'Individuazione di Tabelle Collegabili

La gestione efficace dei data lake richiede l'individuazione precisa di tabelle che possono essere unite per ottenere informazioni piรน complete. Un nuovo studio introduce HyperJoin, un framework innovativo che utilizza modelli linguistici avanzati (LLM) e una rappresentazione a grafo iperconnesso per affrontare questa sfida.

HyperJoin supera i limiti degli approcci esistenti modellando le tabelle come ipergrafi, catturando le interazioni strutturali sia all'interno delle tabelle stesse che tra tabelle diverse. Questo approccio permette di formulare il problema dell'individuazione di tabelle collegabili come un problema di predizione di link all'interno del grafo.

Architettura e Funzionamento

Il framework HyperJoin si basa su una rete di interazione gerarchica (HIN) che apprende rappresentazioni espressive delle colonne attraverso uno scambio bidirezionale di messaggi tra colonne e iperarchi. Per migliorare la coerenza dei risultati, il sistema adotta un modulo di ri-ranking che sfrutta un algoritmo di spanning tree massimo per eliminare connessioni spurie e massimizzare la coerenza complessiva.

I risultati sperimentali dimostrano la superioritร  di HyperJoin rispetto alle soluzioni di riferimento, con miglioramenti medi del 21,4% nella precisione e del 17,2% nel richiamo.