Il team cinese svela DSpark, un nuovo metodo che supera in velocità la predizione multi-token (MTP). Se i numeri saranno confermati, potrebbe accelerare l’inference nei deployment on-premise, riducendo la latenza senza hardware aggiuntivo. Un’analisi delle implicazioni.
Mark Zuckerberg ha comunicato ai dipendenti che lo sviluppo degli agenti AI di Meta sta procedendo più lentamente del previsto, nonostante la riorganizzazione di quattro mesi fa. La notizia solleva interrogativi sulle sfide tecniche dell'AI agentica e sulle implicazioni per chi gestisce carichi di lavoro LLM on-premise.
Con GLM-5.2, Z.ai intensifica la competizione globale nell'AI generativa, puntando ai big occidentali. L'annuncio accende i riflettori sulle capacità cinesi di sviluppare LLM competitivi e sul ruolo della sovranità dei dati nelle scelte di deployment on-premise.
Uno strumento interattivo espone metriche a livello di token, meccanismi di attenzione e percorsi alternativi per capire come i modelli linguistici producono codice. Per chi sviluppa in ambienti on-premise, questa trasparenza potrebbe diventare un tassello critico per audit e controllo qualità.
In un incontro interno, Zuckerberg ha riferito che lo sviluppo degli agenti IA procede più lentamente del previsto. Una frenata che costringe a ricalibrare le scelte di hardware e modelli in contesti on‑premise, dove maturità applicativa, controllo del dato e TCO restano nodi centrali.
Un pioniere dell'AI in Nvidia boccia l'AGI e paragona i modelli chiusi di OpenAI e Anthropic ai walled garden di AOL e Prodigy. La scommessa è su LLM aperti e customizzati, con implicazioni profonde per chi gestisce dati sensibili in-house.
Un fine-tuning mirato trasforma Gemma 4 31B in una macchina per testi pubblicitari. Il modello ottiene 1657 punti Elo, vince l'80% dei confronti e abbandona i fraseggi generici. Pesa 31 miliardi di parametri e si integra con vLLM.
Moonshot AI porta il suo LLM nella piattaforma Microsoft, ampliando il parco modelli per sviluppatori. L'integrazione accende il dibattito su dove risiedano davvero i dati e se abbia senso restare in locale per chi non vuole condividere codice sorgente con servizi cloud.
Z.ai ha rilasciato GLM-5.2, quarto nella classifica dei modelli più performanti, con capacità in coding e agentica vicine ai leader di mercato. Il costo è una frazione di quello di Anthropic o OpenAI, sollevando interrogativi su come questo cambierà le scelte di deployment, soprattutto per chi punta a soluzioni on-premise e alla sovranità dei dati.
Il nuovo SenseNova-U1-8b-MoT-Infographic-V2 eccelle nella generazione e modifica di infografiche. Rilasciato con licenza Apache 2.0, supera l’unico rivale Ideogram 4 grazie alla libertà di deployment. Richiede fino a 36 GB di VRAM, ma versioni quantizzate scendono a 16 GB.
L’entropia, da concetto teorico a parametro pratico, sta guidando nuove strategie per potenziare la creatività dei Large Language Models. L’approccio non è solo accademico: per chi gestisce modelli in locale, offre un controllo più fine e un allineamento migliore ai casi d’uso aziendali senza esporre dati.
Nuova ricerca mostra che i cosiddetti 'persona vector' negli LLM non sono coerenti tra diverse modalità di induzione: prompt, fine-tuning e steering in fase di inference. Gli esperimenti sui modelli Qwen3-4B-Instruct e Mistral-7B-Instruct-v0.2 rivelano quattro asimmetrie che minano l'assunto di equivalenza, con ricadute concrete per chi gestisce modelli on-premise e cerca comportamenti prevedibili.
Un gruppo di ricerca propone la Bounded Morality, estensione della razionalità limitata di Simon al dominio morale. Il trade-off tra ampiezza e profondità del ragionamento definisce cosa è computazionalmente possibile per un agente finito, con implicazioni dirette sull’allineamento dei sistemi di intelligenza artificiale.
Quando Claude batte i rivali aperti nei benchmark, molti attribuiscono il merito ad architetture superiori. Ma dietro l’API potrebbero nascondersi RAG, prompt preprocessing e altri componenti non dichiarati che gonfiano le performance del prodotto finale, rendendo il confronto fuorviante.
Il mese dei modelli aperti vede meno uscite ma grande qualità: NVIDIA, AMD e Intel rilasciano formati di quantization avanzati come NVFP4, MXFP4 e AutoRound. Dalla community arrivano fine-tune specializzati mentre DeepSeek presenta DeepSpec. Ecco perché queste innovazioni contano per chi vuole eseguire LLM su hardware locale.
Brain2Qwerty 2 ricostruisce frasi dai segnali cerebrali durante la digitazione, senza intervento chirurgico. Il limite? Impara da chi sa già scrivere, escludendo proprio i pazienti a cui è destinata. Uno sguardo su progressi, vincoli e risvolti per l’infrastruttura AI sovrana.
La classifica SWE-rebench si aggiorna con nuovi modelli, tra cui spiccano i local LLM Qwen3.6-27B (36,5%, 1,88M token) e Gemma 4 31B (16,5%). L'efficienza in token diventa un fattore chiave per chi valuta il deployment on-premise di assistenti al codice.
Un modello MoE da 92 miliardi di parametri totali e solo 6 miliardi attivi, con finestra di contesto di 512k token. Addestrato su hardware Ascend, introduce attenzione ibrida DSA/SWA, predizione multi-token e ottimizzatore Muon per abbattere i costi dell’inference on-premise.
La notizia, rilanciata da AFP, suggerisce una svolta potenzialmente epocale per l'adozione aziendale dei LLM, in particolare per chi vuole gestirli in proprio, riducendo il Total Cost of Ownership.
L'uso quotidiano di lingue mescolate alla scrittura latina è un banco di prova severo per i Large Language Models. Il nuovo benchmark Indi-RomCoM mostra che persino i modelli più potenti perdono colpi quando le istruzioni intrecciano inglese e lingue indiane, con un crollo delle performance all'aumentare della densità del code-mixing. Un campanello d'allarme per chi immagina assistenti AI davvero multilingue.