SupraLabs inaugura la famiglia Any2Any: un Transformer da 30 milioni di parametri fonde testo e immagini in un flusso unico di token

Un Transformer da circa 30 milioni di parametri, autocostruito attorno a un vocabolario comune di 50.520 token e in grado di generare testo, ricostruire immagini o produrre rudimentali bozzetti visivi da descrizioni testuali. Non è un prodotto finito, ma SupraLabs con Supra-A2A-Nano-Exp firma un esperimento concettuale che affascina: ogni modalità – testo, immagine, video – diventa una sequenza di token, e tutto il resto è semplice predizione del token successivo.

La chiave sta nell’architettura. Non esiste un encoder visivo separato, nessun modello di diffusione, nessun modulo di cross-attenzione tra flussi eterogenei. Le immagini vengono scomposte in patch da un VQ-VAE a 256 codici, generando griglie di 8×8 token per un input 64×64 pixel. I video sono sequenze di fotogrammi trattate allo stesso modo. Il lato testo adotta un tokenizzatore BPE in stile GPT-2 con 50.264 token, a cui si aggiungono i 256 codici visivi per un vocabolario unificato. Speciali marcatori (<TEXT>, <IMAGE>, <VIDEO>, <FRAME>) delimitano le modalità, ma per il modello è tutta la stessa lingua.

Il backbone è un Transformer GPT-like a 4 strati, embedding size 256, contesto massimo di 384 token, probabilmente 4 teste di attenzione e un MLP con espansione 4×. I pesi sono distribuiti in formato safetensors a precisione FP32. L’intero collaudo avviene con poche righe di Python: import torch, transformers, safetensors, Pillow, numpy. La modalità “text2image” produce un’immagine a partire da un prompt testuale inserito nel flusso, ad esempio “<TEXT>a red square</TEXT><IMAGE>”.

Al di là della curiosità tecnica, questo progetto accende una luce sui trade-off che chiunque valuti un deployment on-premise dovrebbe tenere a mente. L’idea di sostituire pipeline multimodali complesse – encoder, decoder, moduli di diffusione, orchestrazione tra componenti – con un singolo Transformer addestrato a prevedere il token successivo su un vocabolario allargato abbatte la complessità architetturale. Per i carichi di lavoro locali, ciò si traduce in meno dipendenze software, minori requisiti di memoria per mantenere modelli separati, e la possibilità di eseguire inference su hardware modesto. La rete da ~30M parametri in FP32 può girare su CPU o su GPU con VRAM contenuta, rendendo concreta l’elaborazione completamente self-hosted anche in assenza di acceleratori di fascia alta.

Certo, ci sono limiti evidenti. Il modello è piccolo, la risoluzione visiva è bassa e astratta, manca qualsiasi forma di allineamento RLHF o tuning per istruzioni, e il contesto di 384 token è risicato. È un prototipo da ricerca, non una soluzione di produzione. Eppure rappresenta una direzione che chi progetta stack on-premise dovrebbe osservare: la multimodalità non deve per forza essere un assemblaggio di mattoni specializzati. L’approccio “tutto è token” semplifica radicalmente l’inference, riduce i punti di integrazione e può contenere il Total Cost of Ownership (TCO) nel lungo periodo.

Più in generale, il modello ricorda che l’ipertrofia delle architetture correnti non è l’unica strada. Mentre i grandi laboratori spingono su sistemi a centinaia di miliardi di parametri con orchestratori complessi, Supra-A2A-Nano-Exp fa da pungolo: riporta l’attenzione sulla semplicità concettuale e sulla praticità di deployment. Per un’azienda che deve mandare in produzione modelli locali al riparo da cloud e API esterne, la domanda non è solo “quale modello è più accurato?”, ma anche “quanta infrastruttura è davvero necessaria?”. L’esperimento SupraLabs non dà risposte pronte, ma pone la domanda nel modo più pulito possibile.

La famiglia Any2Any, appena inaugurata, è un cantiere aperto. Il repository offre un modello nano e gli strumenti per eseguire generazione di testo, chat, ricostruzione di immagini e text-to-image. La comunità è invitata a sperimentare, ma il valore più immediato sta forse nell’innesco di una riflessione: se le modalità sono davvero riducibili a token, allora il deployment on-premise può diventare molto più snello. E l’adozione di Large Language Models in contesti con vincoli di sovranità dei dati e controllo operativo potrebbe accelerare proprio dove la semplicità paga.

SupraLabs inaugura la famiglia Any2Any: un Transformer da 30 milioni di parametri fonde testo e immagini in un flusso unico di token

💻 Hai bisogno di infrastruttura GPU cloud?

Resta aggiornato — segnali AI nella tua inbox

💬 Commenti (0)

🔍 Continua a esplorare

Altri articoli in LLM

👥 Unisciti a 160+ appassionati di AI