QUEST-35B: 32 H100 per un agente Deep Research open-source che guarda da vicino i modelli chiusi

Non servono infrastrutture da big tech per costruire un agente di ricerca profonda che tenga testa ai sistemi chiusi. Il team di Natural Language Processing dell’Ohio State University ha appena rilasciato QUEST-35B, un LLM da 35 miliardi di parametri addestrato con poco più di 30 GPU H100 e un dataset di appena 8.000 esempi sintetici. Il risultato è un agente capace di svolgere compiti complessi di ricerca, decomposizione di domande e sintesi di informazioni, oggi aperto in ogni sua componente.

Meno di 40 GPU e un dataset tascabile

Dietro QUEST-35B c’è una ricetta di training che fa riflettere: circa 32 NVIDIA H100, un quantitativo di calcolo significativo ma non esorbitante – parliamo di un cluster che molte università o aziende mid-size possono permettersi in modalità bare metal o affittando per qualche giorno su cloud. I dati di addestramento sono interamente sintetici: 8.000 campioni generati per insegnare all’agente a navigare fonti, ragionare su più passaggi e produrre risposte strutturate.

Il team ha scelto la via dell’apertura totale. Pesi, codice, configurazione del training e dataset sono pubblici. Questo significa che chiunque può replicare l’esperimento, adattare il modello a domini specifici o integrarlo in pipeline self-hosted senza dipendere da API di terze parti. Una scelta che sposta il baricentro del controllo verso chi utilizza il modello, aspetto cruciale per settori regolamentati o con dati sensibili.

Il costo del training conta, ma l’inference lo è di più

Per chi valuta un deployment on-premise, il fascicolo tecnico di QUEST-35B offre una lezione importante: il grosso della spesa è concentrato nella fase di training. Una volta addestrato, un modello da 35 miliardi di parametri può girare in inference su hardware molto più contenuto, specie se si applicano tecniche di quantization. In uno scenario aziendale, questo si traduce nella possibilità di eseguire l’agente interamente nei propri datacenter, con latenze accettabili, abbattendo il TCO operativo rispetto a soluzioni cloud pay-per-token.

L’impiego di dati sintetici solleva poi un altro tema caro ad AI-RADAR: la sovranità del dato. Non serve accumulare enormi dataset proprietari per ottenere comportamenti emergenti complessi. Un’organizzazione può generare internamente i propri esempi, mantenendo la proprietà intellettuale al riparo e rispettando vincoli normativi come il GDPR. QUEST-35B dimostra che la barriera d’ingresso per agenti di ricerca avanzati si sta abbassando drasticamente.

Il divario aperto-chiuso: dov’è il confine ora?

I benchmark riportati pongono QUEST-35B in competizione diretta con diversi sistemi Deep Research di frontiera a codice chiuso. Il gap in termini di qualità delle risposte sembra ridursi, ma restano aperti interrogativi sull’infrastruttura di serving e sulla robustezza in produzione. I modelli chiusi possono contare su pipeline di inference ottimizzate, reti di CDN globali e integrazioni con ecosistemi di tool verticali. Per gli agenti open-source, la sfida si sposta sul piano dell’ingegnerizzazione: orchestratori efficienti, retrieval su knowledge base aziendali, scalabilità orizzontale.

È proprio qui che il lavoro dell’Ohio State assume valore sistemico. Fornendo tutti i mattoni, permette alla comunità di concentrarsi sul miglioramento dell’affidabilità e sulla costruzione di un ecosistema di tool interoperabili. La prossima frontiera per il self-hosting di agenti di ricerca sarà probabilmente la riduzione della latenza end-to-end e l’integrazione trasparente con le fonti dati interne, senza sacrificare la qualità che oggi vediamo solo nei sistemi chiusi.

QUEST-35B non è solo un nuovo modello. È un segnale che l’on-premise può essere il terreno di gioco per la prossima generazione di agenti AI, dove la trasparenza del codice e il controllo del dato diventano leve competitive. Per i decisori IT, questa release offre un punto di partenza concreto per valutare se, e quanto velocemente, integrare un agente di ricerca autocontenuto nella propria architettura.