La startup di Miami Subquadratic ha fatto un annuncio che sa di svolta: aver risolto un problema matematico considerato il principale freno alle prestazioni dei Large Language Models (LLM) da quasi un decennio. La storia richiama alla mente promesse esagerate del passato, ma questa volta l’azienda porta con sé qualcosa di concreto: test indipendenti che, almeno in parte, confermano la validità del suo approccio. La notizia, diffusa da The Next Web, segnala un possibile cambio di passo nell’evoluzione dei transformer.

La barriera quadratica

Per capire la portata della rivendicazione bisogna osservare il funzionamento dell’attenzione, il meccanismo che consente ai modelli di pesare le relazioni tra token in una sequenza. Nei transformer tradizionali, questo processo ha una complessità O(n²): all’aumentare della lunghezza del contesto, il costo computazionale e la memoria richiesta crescono in modo quadratico. In pratica, raddoppiare la finestra di contesto quadruplica il carico su GPU e VRAM, limitando la dimensione dei modelli che possono essere serviti in inference senza ricorrere a costosi cluster cloud.

Subquadratic promette di aggirare questo collo di bottiglia con un algoritmo che ridurrebbe la complessità a livelli subquadratici – da qui il nome – senza sacrificare la qualità delle predizioni. I dettagli tecnici sono ancora scarsi, ma l’esistenza di benchmark indipendenti che ne avvalorano le affermazioni sposta la vicenda dal piano delle speculazioni a quello dell’ingegneria verificabile.

Perché interessa a chi adotta soluzioni on-premise

La posta in gioco è alta per le organizzazioni che valutano deployment on-premise di LLM per ragioni di sovranità dei dati, controllo dei costi o latenza. Abbattere la complessità quadratica significa poter gestire contesti più lunghi con la stessa dotazione hardware, oppure ottenere throughput superiori a parità di GPU. Per carichi di lavoro che oggi richiedono schede con decine di gigabyte di VRAM, un guadagno di efficienza potrebbe rendere praticabile l’uso di acceleratori più contenuti, riducendo il Total Cost of Ownership e il consumo energetico complessivo.

Non si tratta solo di potenza bruta. Ridurre il footprint computazionale dei modelli favorisce anche scenari in cui l’inference viene eseguita su edge device o in ambienti con vincoli di dissipazione. Naturalmente, ogni nuova tecnica introduce trade-off: spesso le varianti subquadratiche dell’attenzione devono essere validate su molteplici architetture e dataset, e il passaggio dalla ricerca al deployment in produzione richiede framework maturi e supporto della community.

Cautela e prospettive

Il parallelo con Theranos, citato dalla stessa redazione, invita alla prudenza. La storia dell’AI è disseminata di annunci roboanti seguiti da delusioni. Subquadratic dovrà dimostrare non solo che il suo algoritmo funziona a scala, ma anche che può essere integrato senza stravolgere le pipeline esistenti di training e serving. Per ora la startup ha prodotto dei “receipts”, delle ricevute, che per la prima volta danno sostanza numerica alla proposta. Se le conferme arriveranno da più laboratori indipendenti, ci troveremo di fronte a un tassello decisivo per rendere l’AI self-hosted più accessibile e sostenibile.