Un nuovo micro-benchmark valuta i Large Language Model nella scrittura di datafile per Surface Evolver, strumento del 1992 per interfacce solido-liquido. Con 8 round di debugging autonomo, il test offre una metrica oggettiva e sfida i modelli su compiti scientifici con dati di addestramento scarsi, un angolo utile per chi sceglie LLM in contesti on-premise.
📁 LLM
Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.
GLM 5.2 e l'irriverenza culturale dei modelli che dicono no
Alcuni utenti segnalano che GLM 5.2 si distingue per un atteggiamento schietto e senza fronzoli, che evitano il compiacimento tipico dei modelli USA. Una differenza che potrebbe derivare dai dati di addestramento culturalmente connotati, con possibili implicazioni per chi sceglie LLM on-premise in base alla sintonia con i valori aziendali.
70 anni di AI: cosa significa per chi valuta il self-hosted
Dalla proposta del 1955 al boom dei LLM, l'intelligenza artificiale ha alternato inverni e primavere. Oggi la diffusione dei modelli generativi riporta al centro il controllo dei dati e la sovranità tecnicica, spingendo molte organizzazioni a valutare il deployment on-premise.
Codex-maxxing: preservare il contesto nei lavori a lungo termine
Jason Liu sfrutta Codex per mantenere il contesto in progetti complessi e far proseguire il lavoro oltre un singolo prompt. Una strategia che solleva interrogativi sulla continuità operativa con gli LLM e sulle alternative on-premise per chi cerca controllo, sovranità e TCO prevedibile.
OpenAI annuncia una versione potenziata del modello GPT-5.5-Cyber per la sicurezza informatica e l’iniziativa “Patch the Plant” per correggere bug nell’open source. Una mossa che sposta il confronto con Anthropic sul terreno operativo, con implicazioni dirette per chi gestisce stack locali e valuta il controllo del software.
TMax, la ricetta aperta per agenti terminale che insidia Claude e Kimi
AllenAI presenta TMax, un dataset di ambienti RL e una ricetta di addestramento aperti che producono agenti terminale compatti, fino a 27B parametri. Il modello da 9B batte tutti gli open sotto i 10B su Terminal Bench 2.0 e si avvicina a sistemi chiusi come Claude Haiku. Un passo verso la sovranità dei dati nell'automazione da riga di comando.
Patch the Planet: l’IA di OpenAI a caccia di vulnerabilità nell'open source
OpenAI lancia Patch the Planet, un’iniziativa Daybreak che combina intelligenza artificiale e revisione esperta per aiutare i manutentori open source a trovare, validare e correggere falle di sicurezza. Un passo promettente che solleva interrogativi per chi vuole replicare l’approccio su codice proprietario in ambienti on-premise.
Ling-2.6: dall’immenso al fulmineo, l’on-premise trova la sua strada
Il nuovo report tecnico svela modelli fino a 1 trilione di parametri, ma è l’eredità di Ling-mini a far brillare gli occhi a chi punta su hardware ridotto. 160 token al secondo su 8 GB di VRAM diventano un caso di studio per il self-hosting.
Come addestrare un LLM da 500M parametri con 800 dollari: il progetto HobbyLM e la via locale all'IA
Un singolo sviluppatore ha creato da zero un modello linguistico da 500 milioni di parametri e un generatore di immagini da 330 milioni, spendendo solo 800 dollari in calcolo cloud. Il progetto HobbyLM dimostra come la pre-formazione su dataset pubblici e l’uso di GPU di fascia alta in cloud rendano accessibile la creazione di modelli piccoli ma funzionali. Il rilascio dei pesi in formato GGUF apre la strada al deployment on-premise, con implicazioni per la sovranità dei dati e il Total Cost of Ownership.
TikTok, il 60% dei contenuti per nuovi utenti è spazzatura generata dall’AI
Un’analisi della piattaforma di editing video Kapwing mostra che quasi sei clip su dieci nel feed “For You” di account freschi sono slop prodotti da AI. Il dato solleva interrogativi sulla moderazione e spinge a ripensare le strategie di rilevamento, anche in chiave on-premise, dove il controllo sui dati e la latenza fanno la differenza.
Capre di Age of Empires II usate per una rete neurale: l'ironico esperimento sulla coscienza AI
Un ricercatore Microsoft ha costruito una rete neurale utilizzando i capri del videogioco Age of Empires II come elementi base. L’obiettivo? Dimostrare in modo assurdo che attribuire coscienza ai chatbot è fuorviante quanto pensare che un gregge di capre virtuali stia davvero elaborando pensieri. Una riflessione che interpella anche le aziende che valutano il deployment on-premise di LLM.
Prompt engineering: i 28 consigli che trasformano ChatGPT in un alleato strategico
Sfruttare appieno un LLM richiede più di una semplice richiesta: serve ingegneria. Dai 28 suggerimenti per ChatGPT emerge un principio chiaro: prompt ben progettati riducono il divario tra modelli cloud e on-premise, abbassano i costi di inference e massimizzano l'efficienza anche su hardware limitato.
AutoRound: il metodo di quantization che tutti ignorano (ma perché?)
Sperimentando con un modello Qwen3.6 da 27 miliardi di parametri su hardware AMD, un utente ha notato che AutoRound conserva perplexity e accuratezza a bassa precisione molto meglio di AWQ o RTN. Eppure su Hugging Face quasi nessuno lo usa. Il motivo non è tecnico, ma di percezione: il logo Intel allontana chi crede sia legato a Gaudi. Ora che esporta nativamente in GGUF, è un’occasione persa per chi fa deployment on-premise.
SupraLabs inaugura la famiglia Any2Any: un Transformer da 30 milioni di parametri fonde testo e immagini in un flusso unico di token
Supra-A2A-Nano-Exp è un prototipo da ~30M parametri che tratta testo, immagini e video come una singola sequenza di token, senza encoder visivi o moduli di diffusione. Un esperimento di radicale semplificazione che interroga gli stack on-premise sull’effettiva necessità di pipeline complesse. Open-source, con pesi in FP32 e contesto da 384 token, mostra come la multimodalità possa ridursi a puro language modeling.
GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto
Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di grandi dimensioni on-premise, tra quantization estrema e costi hardware.
Gemma 4 26B: il modello che parla scienza mentre gli altri scrivono codice
Un confronto tra piccoli modelli MOE ribalta le priorità: per apprendimento linguistico e query scientifiche, Gemma 4 26B MoE si distingue da Qwen. Una finestra su come l’inference locale guadagna terreno anche al di fuori del coding, con implicazioni concrete per chi valuta deployment on-premise e sovranità dei dati.
z.AI elogia il modello open source numero uno: segnale per l'on-premise
Quando il concorrente numero due celebra il leader open source, il messaggio va oltre la cortesia. L'elogio di z.AI innesca una riflessione su maturità degli LLM aperti, strategie di self-hosting e il ruolo che modelli come questi giocano nel ridefinire sovranità dati e TCO per le imprese.
Siri AI: conversazionale, onnipresente e finalmente utile
La nuova Siri AI promette un assistente vocale capace di conversazioni naturali e assistenza proattiva, integrandosi in ogni aspetto del dispositivo. Dietro l’esperienza utente si cela una sfida tecnica: bilanciare potenza di calcolo e privacy, spingendo l’elaborazione locale ai limiti. Un segnale per chi valuta AI on-premise.
DeepMind mappa le quattro strade dall'AGI all'ASI: un campanello per le infrastrutture on-premise
Dall'intelligenza artificiale generale a quella super: Google DeepMind identifica quattro traiettorie possibili. Per chi lavora a modelli avanzati in casa, si apre una riflessione su sovranità, hardware e controllo dei dati.
IEEE lancia un corso virtuale per dominare gli LLM
Il nuovo programma 'Large Language Models Demystified' vuole colmare il divario tra chi usa l’AI e chi la ingegnerizza, con moduli su architetture transformer, fine-tuning efficiente, quantization e RAG. Un’occasione per chi deve portare gli LLM in produzione, anche on-premise.