Come addestrare un LLM da 500M parametri con 800 dollari: il progetto HobbyLM e la via locale all'IA

Se pensate che l’addestramento di un modello linguistico di grandi dimensioni sia roba da laboratori con budget milionari, il progetto HobbyLM vi farà ricredere. Un unico sviluppatore, sotto il nickname Altruistic-Tea-5612, ha pre-addestrato e messo a punto un LLM da 500 milioni di parametri e un generatore di immagini da 330 milioni, il tutto con una spesa di appena 800 dollari. Numeri che, al netto delle dimensioni contenute del modello, ridefiniscono le soglie d’ingresso per chiunque valuti strade on-premise o self-hosted per l’intelligenza artificiale.

L’intero percorso formativo è documentato e aperto: i pesi sono disponibili su Hugging Face, sia nel formato originale sia in GGUF, pronti per l’inference locale senza dipendere da API di terze parti. Il codice di training e inference è pubblico su GitHub. HobbyLM non è solo un esercizio tecnico: è un segnale concreto di come l’ecosistema open e la maturità dei tool stiano spostando l’asticella verso soluzioni gestibili interamente sotto il proprio controllo.

L’architettura e la ricetta dell’addestramento

Il cuore del progetto è un LLM custom con architettura messa a punto attraverso studi di ablazione guidati da un harness agentivo basato su Claude SDK. L’agente ha esplorato diverse configurazioni, annotando e confrontando varianti per individuare quella più adatta al budget. Il pre-training è stato condotto su circa 40 miliardi di token provenienti dal dataset FineWeb, un corpus pubblico di testi web filtrati. Successivamente, un post-training ha esteso la finestra di contesto, aumentando la capacità di gestire input lunghi senza frammentazioni.

Sul fronte multimodale, il modello integra un encoder di immagini SIGLIP per costruire un sistema omni-modale capace di comprendere input visivi. Per la generazione di immagini, l’autore si è ispirato all’architettura DreamLite di ByteDance, addestrando il generatore su una miscela di dataset distillati provenienti da Midjourney, Flux e dal dataset CCW3 di Google. Il punto di forza è l’orchestrazione: l’intero workflow – dalla preparazione dei dati al lancio dei job – è stato gestito da codice agentico, con l’harness Claude che ha supervisionato la pipeline, riducendo la necessità di interventi manuali.

Le GPU in cloud e la lezione sul TCO

L’addestramento ha sfruttato 8 GPU NVIDIA H200 sulla piattaforma modal.com, un servizio cloud che fattura in base al consumo. Il costo finale di 800 dollari, per un training da zero di due modelli, è sorprendentemente contenuto. È vero che parliamo di modelli da “soli” 500 milioni di parametri, lontani dalle decine di miliardi dei grandi LLM commerciali, ma il risultato mostra come un’attenta pianificazione e l’uso di dataset pubblici possano abbattere il TCO (TCO) della fase di addestramento.

Per chi opera in ambito on-premise, la cifra solleva domande interessanti. Non si tratta di replicare necessariamente il training in casa – le H200 sono GPU di fascia altissima, spesso non disponibili in ambienti aziendali standard – ma di rendersi conto che modelli di dimensioni ridotte, addestrati una tantum e poi ottimizzati con quantization, possono eseguire inference su hardware modesto, come CPU o GPU consumer, mantenendo piena sovranità sui dati. Il formato GGUF, rilasciato insieme ai pesi originali, è pensato proprio per questo: esecuzione locale tramite tool come llama.cpp, senza mai inviare prompt a server esterni.

Implicazioni per il deployment self-hosted

Per team e organizzazioni che valutano il self-hosting di LLM, HobbyLM offre più di una semplice curiosità. Primo, dimostra che è possibile creare un modello linguistico e un generatore di immagini con un’infrastruttura cloud a consumo, mantenendo poi l’intero ciclo di vita dell’inference sotto il proprio tetto. Secondo, il rilascio completo dei pesi e del codice abbassa la barriera per il fine-tuning su domini specifici, adattando il modello a vocabolari settoriali, documentazione interna o knowledge base proprietarie, senza condividere dati sensibili con provider esterni.

Su AI-RADAR ci occupiamo spesso delle decisioni che le aziende devono prendere quando spostano l’IA dall’esperimento alla produzione. Il trade-off qui è tra lo sforzo iniziale di training (o l’acquisto di un modello pre-addestrato) e il risparmio operativo e la privacy che derivano dall’esecuzione on-premise. HobbyLM suggerisce che per molti use case – assistenti interni, analisi documentale, generazione controllata di immagini – una via ibrida (training in cloud, inference locale) è tecnicamente matura e finanziariamente accessibile.

Verso il modello da 1 miliardo di parametri

L’autore non si ferma: è già al lavoro sul pre-training di un modello da 1 miliardo di parametri, che promette di portare ulteriori benefici in termini di qualità e finestra di contesto. L’intero progetto ribadisce che la democratizzazione degli LLM passa anche dalla possibilità di sperimentare su scala ridotta, imparando e tarando le proprie esigenze prima di investire in infrastrutture più pesanti. Per chi segue con interesse il deployment on-premise, tenere d’occhio questi progetti open source significa poter anticipare scenari in cui modelli compatti ma sufficientemente espressivi girano interamente dentro il perimetro aziendale, con costi di esercizio minimi e pieno controllo sui dati.