SupraVL-Nano-900k: il VLM tascabile che smonta la scatola nera

La notizia arriva dalla comunità di LocalLLaMA: SupraLabs ha rilasciato SupraVL-Nano-900k, un Vision-Language Model (VLM) da appena 900mila parametri, costruito interamente da zero. Non aspettatevi un modello da competizione: il suo scopo è puramente didattico. È un «blueprint» completamente trasparente, un notebook Jupyter che racchiude l’intera architettura, reso disponibile sotto licenza Apache 2.0.

Cosa c’è sotto il cofano

Il VLM è composto da tre blocchi principali: un encoder visivo basato su CNN, un decoder transformer in stile GPT-2 e un tokenizer BPE addestrato direttamente sul dataset Flickr8k. L’encoder visivo usa tre strati convoluzionali con batch normalization e ReLU, seguiti da un pooling adattivo che riduce l’immagine a una griglia di 4×4 patch, producendo 16 token spaziali. Questi token vengono proiettati a 128 dimensioni e concatenati in testa alla sequenza testuale, in quella che il team definisce una strategia di fusione per «concatenazione di prefisso».

Il decoder è un mini-transformer a 3 strati con 4 teste di attenzione e un feed-forward da 256 unità. Il contesto totale è di sole 64 posizioni: 16 per i token visivi e 48 per quelli testuali. Il modello lega i pesi tra embedding e lm_head, una scelta tipica per ridurre i parametri. Il vocabolario BPE conta 2048 token, sufficienti per descrivere le didascalie del dataset Flickr8k.

L’addestramento, completato in meno di un’ora su una GPU T4 (disponibile su Kaggle o Google Colab), ha seguito uno schema semplice: 15 epoche con ottimizzatore AdamW, learning rate con decadimento coseno, batch size 64 e precisione mista. Il risultato è un modello che genera didascalie brevi e generiche, ma che mostra in modo cristallino come un VLM reale elabora un’immagine.

Perché la trasparenza conta

La scelta di costruire ogni componente da zero e di distribuirlo come codice leggibile non è banale. La maggior parte dei VLM, da LLaVA ai modelli basati su CLIP, sono «scatole nere» difficili da ispezionare. Qui, ogni linea di codice è commentata e il flusso dei dati è esplicito: dai pixel in ingresso fino alla generazione del token successivo. Questo approccio risponde a una domanda concreta di chi lavora con modelli: come funzionano realmente, senza strati di astrazione?

Per l’ecosistema LocalLLaMA, abituato a sperimentare con modelli auto-ospitati, un simile artefatto è oro. Permette di studiare i meccanismi di attenzione visiva, la fusione delle modalità e l’impatto delle scelte architetturali (ad esempio, la griglia 4×4 anziché un singolo token globale) su un modello che consuma poche risorse. La possibilità di eseguirlo su una GPU modesta come la T4, con i suoi 16 GB di VRAM, abbassa la barriera d’ingresso per chiunque voglia capire prima di distribuire.

Uno sguardo on-premise

AI-RADAR segue con interesse queste iniziative perché, nel framework del deployment on-premise, la comprensione degli interni è un fattore di controllo tanto quanto la sovranità dei dati. Un team che valuta l’adozione di VLM su infrastruttura propria deve stimare con precisione i consumi di memoria, i colli di bottiglia dell’inference e le possibilità di ottimizzazione. Modelli trasparenti come SupraVL-Nano-900k, pur non essendo pensati per la produzione, offrono un ambiente di test ideale per familiarizzare con i trade-off tra encoder, decoder e strategie di fusione.

Certo, i limiti sono evidenti: il dataset Flickr8k è minuscolo, le didascalie sono corte, e il modello non segue istruzioni. Ma il team di SupraLabs è onesto al riguardo: «Non compete con LLaVA. Compete con il nulla, è un artefatto educativo». La roadmap prevede di sostituire la CNN con un piccolo ViT, aggiungere strati di cross-attenzione in stile Flamingo e scalare il decoder, fino ad addestrare su dataset più grandi come CC3M o LAION-400M. Passi che richiederanno più potenza di calcolo, ma che potranno essere replicati su macchine on-premise con GPU consumer.

Il valore di un notebook

In fondo, SupraVL-Nano-900k ricorda che la complessità dei Large Language Models può essere sezionata e resa accessibile. Prima di investire in infrastrutture costose o in servizi cloud blindati, avere tra le mani un modello smontabile aiuta a porre le domande giuste. Il codice è lì, pronto su Hugging Face: basta un pip install e poche righe per vederlo funzionare. Un invito, insomma, a sporcarsi le mani con i mattoni che compongono i VLM di domani.