Ora Computing chiude round da 3,5 milioni per comprimere i modelli AI fino all'80%

La pressione economica e tecnica dell’inference su larga scala ha trovato un nuovo protagonista. Ora Computing, startup che sviluppa algoritmi di compressione per modelli fondazionali, ha appena chiuso un round seed da 3,5 milioni di euro guidato da Constructor Capital e Greencode Ventures, con la partecipazione di XISTA Science Ventures. Il capitale finanzierà l’espansione del team, lo sviluppo di capacità di compressione per i modelli di frontiera più grandi e il lancio di un prodotto commerciale pensato per i provider di inference cloud e per chi fa deployment AI sull’edge.

Compressione senza compromessi hardware

Il cuore della tecnicia sta in un software capace di comprimere un modello fino all’80% delle sue dimensioni originali, facendolo girare fino a quattro volte più veloce con una perdita di accuratezza compresa tra lo 0 e il 5%. Non si tratta di un ennesimo tool di quantization o potatura: l’approccio di Ora Computing opera su piattaforme hardware diverse, si integra direttamente nei framework di inference standard e non richiede strati software personalizzati, modifiche infrastrutturali o costosi riaddestramenti. Gli algoritmi mappano in modo continuo il trade-off tra dimensione del modello e accuratezza, consentendo alle aziende di ottimizzare ogni deployment in base a vincoli di hardware, performance e costo.

Perché conta per il deployment locale

Negli scenari reali, la corsa a modelli sempre più grandi si scontra con l’impossibilità di farli girare su dispositivi come veicoli, macchinari industriali o hardware di edge computing. La promessa di Ora è di sbloccare un’adozione diffusa dell’AI su apparati self-hosted e on-premise, dove la sovranità dei dati e la latenza contano più di ogni altra cosa. La strada è chiara: modelli compatti, ottimizzati per compiti specifici, possono diventare l’alternativa pratica ai colossi general-purpose ospitati in cloud. Per chi sta valutando il passaggio da API centralizzate a un’infrastruttura locale, esistono trade-off tra costo energetico, manutenzione e grado di controllo che vanno analizzati nel dettaglio – e su AI-RADAR offriamo framework analitici per valutare l’intero TCO di uno stack on-premise.

Impatto ambientale e benchmark concreti

Ora Computing non parla solo di costi computazionali: la compressione riduce il consumo energetico e le emissioni di CO₂ associate all’inference. L’azienda stima che anche solo l’1% di penetrazione di mercato possa tradursi in un risparmio annuo superiore a 50.000 tonnellate di anidride carbonica. Sul fronte tecnico, i numeri sono altrettanto solidi: un modello da 70 miliardi di parametri è stato compresso nel giro di poche ore con un costo computazionale inferiore ai mille dollari, contro benchmark di settore che spesso raggiungono centinaia di migliaia di dollari per operazioni analoghe.

Il mercato si prepara al cambio di paradigma

Il CEO e cofondatore Stefan Sack ha sottolineato come l’onda successiva dell’adozione AI sarà guidata da modelli altamente efficienti e specializzati, non da versioni sempre più mastodontiche. Il posizionamento di Ora Computing intercetta due direttrici destinate a incrociarsi: da un lato i fornitori di inference cloud che vogliono abbattere i costi operativi, dall’altro le organizzazioni che spostano i carichi di lavoro su infrastrutture locali o edge. Con il nuovo finanziamento, la startup si prepara a portare il suo software su scala commerciale, puntando a trasformare in prodotto ciò che oggi è una promessa: rendere l’AI efficiente, economica e davvero distribuita.