L’annuncio è arrivato via social, confermato dal team di ModelScope: i pesi di longcat 2.0, un Large Language Model con 1,6 trilioni di parametri e circa 48 miliardi di parametri attivi per token, sono stati rilasciati con licenza MIT. Un passaggio che sposta l’ago della bilancia per chi costruisce stack di inference on-premise e non vuole dipendere da API proprietarie o clausole restrittive.
Non si tratta di un modello qualsiasi. L’architettura dichiarata – un gigante da 1.6T con soli 48B attivi – punta dritto verso un Mixture of Experts (MoE), schema che consente di contenere il costo computazionale per singola predizione moltiplicando il numero totale di parametri senza far esplodere i FLOP. In pratica, per ogni token il modello instrada il calcolo solo su una frazione degli esperti disponibili, mantenendo la latenza compatibile con quella di un modello denso molto più piccolo.
Dal punto di vista del deployment, il rovescio della medaglia è la memoria. Con 1,6T parametri da tenere in VRAM, l’inference in FP16 richiederebbe oltre 3 TB di memoria GPU – un valore che impone soluzioni distribuite, con più nodi e interconnessioni veloci. La licenza MIT, però, elimina ogni barriera legale alla sperimentazione: si può quantizzare aggressivamente (INT8, INT4) senza chiedere permessi, e nulla vieta di adattare il modello a contesti aziendali regolati, anche air-gapped. Per chi ha accesso a cluster multi-GPU – otto A100 da 80 GB offrono 640 GB, un punto di partenza dopo compressione spinta – longcat 2.0 diventa un candidato concreto per carichi che vanno dalla generazione di codice all’analisi documentale in settori dove i dati non possono uscire dai confini aziendali.
Il team di sviluppo, come raccontato nel blog tecnico pubblicato a fine giugno, ha lavorato per bilanciare capacità e accessibilità, e la scelta di adottare l’MIT – una delle licenze più permissive – suggerisce una strategia di diffusione che guarda al mondo enterprise senza escludere la comunità di ricerca. In un panorama in cui molti modelli di fascia alta restano bloccati dietro interfacce SaaS o licenze custom, un rilascio del genere alimenta il dibattito su quali modelli possano davvero essere gestiti in casa, a quali costi e con quali garanzie di aggiornamento nel tempo.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!