Orthrus porta la testa a diffusione su Qwen 3.5/3.6 e Gemma 4: codice open source in arrivo

Il team dietro i modelli Orthrus ha annunciato a sorpresa il completamento dei test e l’avvio della pipeline di rilascio per Qwen 3.5, Qwen 3.6 e Gemma 4 in versione con testa a diffusione. Non un semplice checkpoint: insieme ai pesi verrà aperta l’intera codebase di training e valutazione, un gesto che sposta l’ago della bilancia verso un ecosistema on‑premise davvero replicabile.

La notizia è comparsa su Hugging Face con un post stringato ma denso di implicazioni: «We are finalized with our testing and are preparing the release pipeline. – scrive il gruppo – We will be releasing support for the Qwen3.5, Qwen3.6, and Gemma4 very soon. Alongside the model checkpoints, we will be open-sourcing our complete end-to-end training and evaluation code.» E mentre in Rete si discute se arriverà presto il supporto in llama.cpp, il punto centrale è un altro: avere il codice di addestramento e valutazione significa poter riprodurre, modificare e controllare ogni passaggio su hardware proprio.

Perché una testa a diffusione

I modelli linguistici autoregressivi producono token uno dopo l’altro. L’aggiunta di un diffusion head introduce un approccio diverso, mutuato dai modelli generativi basati su diffusione che già dominano la sintesi di immagini. Invece di generare il testo in modo sequenziale, il processo può agire su una rappresentazione “rumorosa” e raffinarla iterativamente. Per un LLM significa potenzialmente sbloccare capacità di pianificazione più articolate, generazione non autoregressiva o integrazione con dati multimodali. Non si sa ancora se, e di quanto, Orthrus migliorerà le metriche di inference o ridurrà il consumo di memoria; quel che è certo è che il rilascio aperto permette a team interni di testare in prima persona se un head di questo tipo conviene nel proprio carico di lavoro.

L’impatto sul self‑hosting

Per le organizzazioni che valutano deployment on‑premise, la disponibilità del codice end‑to‑end è un segnale forte. Oggi molti modelli sono aperti “a metà”: pesi pubblicati, ma script di allenamento parziali o assenti, il che rende difficile un fine‑tuning realmente autonomo. Orthrus ribalta lo schema: pipeline di training ed evaluation open source significano che un’azienda può riaddestrare il modello su dati proprietari senza dipendere da API di terze parti e con la certezza di poter documentare ogni fase per audit interni o conformità GDPR.

Il tutto si inserisce in un framework più ampio. Il confine tra chi consuma intelligenza artificiale e chi può costruirsela in casa si sta spostando. Con framework maturi per il serving e l’orchestrazione, avere modelli con codice riproducibile rappresenta l’ultimo tassello per un controllo effettivo. Certo, i trade-off restano: l’addestramento di un LLM su hardware proprio richiede investimenti in compute non indifferenti e competenze di ML Ops che non tutte le realtà hanno internalizzato. Ma proprio per questo la comunità di AI‑RADAR sta monitorando le mosse in arrivo: verrà offerta anche una versione quantizzata? Il team non ha ancora dato dettagli sulle dimensioni dei checkpoint o sul layout VRAM necessario. Chi segue lo spazio on‑prem sa che questi dettagli fanno la differenza nel calcolo del TCO.

La questione llama.cpp e i prossimi passi

Un commento al post originale segnala che nessuno starebbe lavorando al supporto in llama.cpp per Orthrus. È un dettaglio che conta: la conversione in formati come GGUF è spesso il collo di bottiglia che separa un modello “aperto sulla carta” da uno davvero eseguibile su CPU, macchine consumer o edge server. Se la comunità o gli autori stessi colmeranno il gap rapidamente, Orthrus potrà entrare nei toolkit di chi usa ollama, LM Studio e servizi analoghi. In caso contrario, il modello rischia di restare confinato a chi possiede GPU di fascia alta.

Al momento il repository punta a Hugging Face e il teaser promette aggiornamenti imminenti. L’arrivo contemporaneo su tre famiglie – le due evoluzioni di Qwen 3 e i modelli Gemma 4 – suggerisce che il metodo è pensato per scalare su architetture diverse. Per i team che valutano serie alternative a modelli commerciali, Orthrus porta sul tavolo una nuova variabile: non solo un modello fine‑tuned, ma la possibilità di comprenderne fino in fondo la ricetta addestrativa e, se necessario, replicarla sotto il proprio controllo. In un momento in cui la sovranità dei dati e la trasparenza stanno diventando requisiti di procurement, queste non sono semplici promesse.