Presentati Raon-Speech e Raon-SpeechChat, due modelli di linguaggio vocale (SpeechLM) da 9 miliardi di parametri. Raon-Speech eccelle nella comprensione e generazione vocale in inglese e coreano, mantenendo solide capacità testuali. Raon-SpeechChat estende queste funzionalità alla conversazione full-duplex in tempo reale. Entrambi i modelli, insieme alle pipeline di training e inference, sono stati rilasciati come open source, offrendo nuove opportunità per deployment on-premise e la gestione autonoma dei dati.
Un nuovo studio rivela che i Large Language Models (LLM) mostrano una calibrazione della fiducia complessa: tendono a essere eccessivamente fiduciosi su compiti difficili e, sorprendentemente, sotto-fiduciosi su quelli facili. La ricerca introduce LifeEval, un nuovo test per valutare la calibrazione dei modelli attraverso diversi livelli di difficoltà, evidenziando l'importanza di comprendere queste dinamiche per deployment enterprise affidabili e self-hosted.
Un nuovo studio esplora la capacità dei Large Vision-Language Models (VLM) di generare forme nuove e significative, replicando il sistema Picbreeder. Sostituendo gli utenti umani con i VLM, i ricercatori hanno osservato differenze qualitative nei risultati. L'analisi si concentra su fattori come il rumore esplorativo, la diversità comportamentale e la memoria delle azioni passate, offrendo spunti cruciali per lo sviluppo di agenti AI capaci di scoperta autonoma e illimitata.
Qwen3.6 35B A3B sta emergendo come una soluzione di riferimento per l'uso agentivo in ambienti locali. Gli utenti ne evidenziano la stabilità e l'efficacia rispetto a modelli come Gemma4 e GLM 4.7 Flash REAP, che mostrano criticità come chiamate a tool errate o loop. La discussione si concentra sui modelli quantizzati e sulla ricerca di alternative MoE per deployment self-hosted, sottolineando l'importanza della performance e dell'affidabilità in contesti on-premise.
Chris Olah, co-fondatore di Anthropic, ha commentato l'enciclica "Magnifica humanitas" di Papa Leone XIV. L'evento sottolinea l'intersezione tra lo sviluppo dei Large Language Models e le riflessioni etiche e umanistiche, un tema di crescente rilevanza per l'industria tech. Sebbene i dettagli specifici delle sue osservazioni non siano stati divulgati, l'attenzione di una figura chiave del settore su tali argomenti evidenzia la necessità di un dialogo più ampio sul ruolo dell'AI nella società.
Reallusion, azienda specializzata in software di animazione 3D, ha presentato AI Studio. Questa piattaforma integra la creazione di scene 3D tradizionali con modelli di intelligenza artificiale generativa per la produzione video, sfruttando l'integrazione diretta con Seedance 2.0 di ByteDance, un modello AI video di punta. L'obiettivo è permettere agli artisti 3D di guidare l'AI, superando i limiti dei prompt testuali nel filmmaking professionale.
OpenAI ha annunciato una partnership strategica con i giganti mediatici brasiliani Grupo Folha e Grupo UOL. L'intesa mira a integrare giornalismo affidabile e trasparente in ChatGPT, migliorando l'accesso alle notizie con attribuzione chiara. Questo accordo sottolinea l'importanza della provenienza dei dati per i Large Language Models e le sfide di gestione dei contenuti esterni.
MiniCPM5-1B emerge come un nuovo Large Language Model da 5.1 miliardi di parametri, progettato per l'efficienza e l'esecuzione su hardware meno potente. La sua natura Open Source e le dimensioni contenute lo rendono particolarmente interessante per scenari di deployment on-premise, edge computing e ambienti con stringenti requisiti di sovranità dei dati, offrendo un equilibrio tra capacità e risorse necessarie.
Un recente articolo del Financial Times ha messo in luce Heretic, uno strumento disponibile su GitHub che consente di rimuovere rapidamente i filtri di sicurezza (guardrail) dal modello Llama 3.3 di Meta. L'operazione, che non richiede hardware specialistico, ha già portato alla creazione di migliaia di modelli modificati, evidenziando la crescente domanda di controllo e flessibilità nei deployment di Large Language Models on-premise.
OSCAR RotationZoo introduce una tecnica di quantization a 2-bit per il KV Cache degli LLM, riducendo l'impronta di memoria fino a sette volte con un impatto minimo sull'accuratezza. Questa innovazione è cruciale per il deployment di modelli di grandi dimensioni su hardware con VRAM limitata, come le configurazioni on-premise, migliorando l'efficienza e l'accessibilità.
Microsoft ha autorizzato migliaia di dipendenti, inclusi ingegneri e product manager, all'utilizzo di Claude Code, l'agente di codifica da riga di comando di Anthropic. L'iniziativa, avviata a dicembre, ha visto lo strumento diffondersi rapidamente anche a ruoli non tecnici entro la primavera, evidenziando la crescente integrazione degli LLM nelle operazioni aziendali e sollevando questioni su deployment e sovranità dei dati.
xAI ha annunciato l'arrivo, previsto per il prossimo anno, di un nuovo modello Grok da 0.5 Trillion di parametri. Parallelamente, Grok-3 ha aderito a un'iniziativa per il rilascio Open Source. Questo sviluppo solleva importanti considerazioni per le aziende che valutano il deployment di LLM on-premise, bilanciando le immense esigenze hardware di un modello così grande con i benefici di controllo e sovranità dei dati offerti dalle soluzioni Open Source.
È stato rilasciato MiMo-V2.5-coder, un nuovo Large Language Model ottimizzato per attività di coding e tool calling. Richiede 128 GB di VRAM, posizionandosi come un'alternativa per deployment self-hosted. Il modello, disponibile con quantization Q2, promette prestazioni elevate e affidabilità, rivolgendosi a chi cerca soluzioni on-premise per carichi di lavoro intensivi.
Una nuova ricerca introduce Query-Adaptive Semantic Chunking (QASC), una strategia dinamica per il chunking dei documenti nei sistemi Retrieval-Augmented Generation (RAG). Integrando le query utente nella fase di segmentazione, QASC migliora significativamente la pertinenza e la coerenza dei contesti recuperati. I benchmark mostrano un incremento delle performance fino al 27% rispetto ai metodi tradizionali, offrendo un approccio più efficace per l'ottimizzazione dei Large Language Models in contesti aziendali.
Una recente indagine ha catalogato le risorse testuali e vocali pubblicamente disponibili per Hausa e Fongbe, due lingue dell'Africa occidentale. Lo studio evidenzia una maggiore diversità di risorse testuali per Hausa, mentre Fongbe beneficia di recenti iniziative per la raccolta di dati vocali. Entrambe le lingue sono presenti nei benchmark Masakhane. L'analisi identifica lacune critiche, come la necessità di testi Fongbe più diversificati per dominio e corpora vocali dedicati per Hausa, fattori essenziali per lo sviluppo di LLM efficaci.
Un recente studio propone un metodo innovativo per quantificare l'incertezza nei Large Language Models (LLM), superando i limiti della probabilità softmax. Analizzando le traiettorie interne degli LLM attraverso undici caratteristiche geometriche e una sonda lineare sparsa, la ricerca offre una calibrazione più accurata dell'incertezza. Questo approccio non solo migliora le prestazioni fino a 21 punti AURC, ma fornisce anche dettagli cruciali su come e dove gli errori si formano all'interno del modello, un aspetto fondamentale per i deployment aziendali.
Una nuova ricerca introduce Latent Cache Flow (LCF), un approccio innovativo per la comunicazione tra Large Language Models (LLM) che supera le inefficienze del testo. LCF consente lo scambio di informazioni tra modelli senza la necessità di decodifica e codifica autoregressiva, riducendo drasticamente la latenza e la perdita di dati. Con adapter significativamente più piccoli e una maggiore accuratezza, LCF offre una soluzione efficiente e flessibile, particolarmente vantaggiosa per deployment on-premise e scenari con contesti LLM differenti.
Research Math Agents (RMA) è un nuovo framework agente che affronta problemi matematici complessi a livello di ricerca. Distinguendosi dai sistemi precedenti, RMA utilizza un'architettura modulare e un workflow iterativo per generare e verificare prove. Ha superato baselines come GPT-5.2R sul benchmark First Proof, risolvendo otto problemi su dieci e producendo dimostrazioni più logiche e leggibili.
I World Models rappresentano una frontiera chiave nell'AI incarnata, consentendo agli agenti autonomi di costruire una comprensione interna del loro ambiente. Questo approccio riduce la necessità di esplorazione fisica e accelera l'apprendimento. L'articolo esplora i fondamenti tecnici e le significative implicazioni di deployment, evidenziando i requisiti computazionali e la crescente rilevanza delle soluzioni on-premise per la sovranità dei dati e il TCO.
McKinsey ha introdotto ad aprile uno strumento basato su intelligenza artificiale, disponibile gratuitamente a livello globale, per supportare i candidati ai ruoli entry-level di business analyst e associate. La piattaforma offre tentativi illimitati per i case study quantitativi, con l'obiettivo di democratizzare l'accesso a risorse di preparazione di alta qualità, riducendo la dipendenza da costosi coach esterni.