QUEST-35B: l'agente Deep Research open nato da 32 H100 e un team universitario

Meno di trentadue GPU NVIDIA H100 e circa 8.000 esempi sintetici sono bastati al team NLP dell'Ohio State University per addestrare QUEST-35B, un agente di ricerca autonoma che compete con alcuni sistemi "deep research" di frontiera, oggi rilasciato interamente in open source. Non solo il modello, ma anche la ricetta di training, il codice e i dataset sono pubblicamente disponibili. Una mossa che ridisegna il perimetro di ciò che si può costruire on-premise, senza dipendere da API cloud o modelli proprietari.

L'architettura e i costi nascosti

QUEST-35B è un Large Language Model da 35 miliardi di parametri, dimensioni che lo rendono eseguibile su hardware che molte organizzazioni già possiedono o possono noleggiare. L'uso di sole ~32 H100 per l'addestramento – un numero relativamente contenuto – e di dati sintetici anziché annotazioni umane riduce il TCO e semplifica la riproducibilità. Il team ha documentato ogni passaggio, dal fine-tuning al controllo dei flussi di ricerca, rendendo l'intera pipeline adattabile a scenari di dominio specifico.

Sovranità dei dati e controllo

Per le aziende che operano in settori regolamentati, la possibilità di eseguire un agente di ricerca avanzato interamente self-hosted significa tenere sotto chiave documenti interni, log e query sensibili. Non ci sono chiamate a endpoint esterni, e la conformità a normative come il GDPR diventa gestibile direttamente sull'infrastruttura locale. Questo modello, con la sua licenza aperta, permette audit di sicurezza e personalizzazione senza vincoli di vendor lock-in.

La sfida ancora aperta

Nonostante i risultati competitivi nei benchmark, resta un divario con i sistemi chiusi di ricerca profonda: la capacità di attingere a knowledge base fresche, la gestione di conversazioni multi-turno complesse e, soprattutto, la scalabilità su set di strumenti eterogenei. Tuttavia, la trasparenza di QUEST-35B offre alla comunità un banco di prova per colmare queste distanze, sperimentando con retrieval-augmented generation, ottimizzazione della memoria e orchestrazione locale.

Verso un deployment enterprise

Chi valuta deployment on-premise sa che il trade-off non è solo tecnico. C'è il TCO: investimento iniziale in GPU contro costi ricorrenti di API. Ma ci sono anche il controllo, la latenza e la possibilità di fare fine-tuning con dati proprietari. QUEST-35B dimostra che con un cluster contenuto e una ricetta aperta, un laboratorio universitario ha già fatto il primo passo. Il prossimo tocca ai team aziendali.