Un recente test dimostra come sia possibile ottenere prestazioni significative per l'inference di Large Language Models (LLM) su hardware consumer. Utilizzando il modello Qwen3.6 35B A3B e il framework llama.cpp con Multi-Token Prediction (MTP), un utente ha raggiunto oltre 80 token/secondo con una finestra di contesto di 128K, impiegando una GPU NVIDIA RTX 4070 Super dotata di soli 12GB di VRAM. Questo evidenzia il potenziale dell'ottimizzazione software per i deployment on-premise.
Un utente di Reddit ha riscoperto una poesia di Shel Silverstein del 1981, trovandovi un'inaspettata premonizione sui Large Language Models (LLM) e il loro noto fenomeno delle "allucinazioni". L'osservazione, seppur umoristica, solleva interrogativi sulla natura dell'intelligenza artificiale e le sfide che le aziende affrontano nel garantire l'affidabilità dei sistemi AI in ambienti critici.
È stato rilasciato Qwen3.6-35B-A3B, un Large Language Model da 35 miliardi di parametri caratterizzato da una configurazione "uncensored" e dalla piena preservazione dei suoi 19 MTP. Disponibile in formati ottimizzati come Safetensors, GGUF, NVFP4 e GPTQ-Int4, questo LLM si propone come una soluzione interessante per le aziende che cercano controllo, sovranità dei dati e flessibilità nei deployment on-premise, riducendo la dipendenza da infrastrutture cloud esterne.
AI2 ha rilasciato EMO, un nuovo Large Language Model basato su architettura Mixture of Experts. Addestrato su un trilione di token, EMO presenta 1 miliardo di parametri attivi su un totale di 14 miliardi. La sua innovazione risiede nel routing a livello di documento, che consente agli esperti di specializzarsi in domini specifici come salute o notizie, ottimizzando l'elaborazione delle informazioni.
L'iniziativa "The Small Brief" vede quattro icone del settore pubblicitario collaborare per supportare le piccole imprese locali. Utilizzando l'intelligenza artificiale per creare campagne, il progetto esplora il potenziale dell'AI nel generare contenuti pubblicitari innovativi, evidenziando al contempo le sfide e le opportunità legate al deployment di tali tecnicie, dalla sovranità dei dati ai costi infrastrutturali e alla necessità di un'attenta valutazione del TCO per le soluzioni self-hosted.
Il filosofo Nick Bostrom propone una visione audace per il futuro dell'umanità, immaginando un "grande ritiro" reso possibile da un'intelligenza artificiale altamente avanzata. Questa prospettiva suggerisce che l'IA potrebbe condurre a un "mondo risolto", dove le sfide fondamentali dell'esistenza umana sono superate, sollevando interrogativi sulle implicazioni tecniciche e infrastrutturali di sistemi così potenti.
NVIDIA Personaplex, un modello vocale in tempo reale, solleva interrogativi sul supporto al Tool Calling. Questa capacità, cruciale per l'interazione dei Large Language Models con sistemi esterni, è fondamentale per estendere le loro funzionalità. L'articolo esplora le implicazioni di tale integrazione, specialmente nei deployment on-premise, dove sovranità dei dati e controllo della pipeline sono prioritari.
Spotify ha annunciato l'espansione della sua funzionalità premium AI DJ, introducendo il supporto per quattro nuove lingue: francese, tedesco, italiano e portoghese brasiliano. Questa mossa mira a migliorare l'esperienza utente in Europa e Brasile, rendendo il DJ virtuale interattivo accessibile a un pubblico più ampio. La tecnicia sottostante implica l'uso di Large Language Models per la generazione vocale e la selezione musicale personalizzata.
Google DeepMind avvia un progetto per addestrare l'intelligenza artificiale sulle complesse interazioni dei giocatori nel MMORPG Eve Online. L'iniziativa è supportata da un investimento di Google in Fenris Creations, la società dietro il gioco. L'obiettivo è sfruttare la vasta mole di dati generati da centinaia di migliaia di giocatori per sviluppare modelli AI più sofisticati, con implicazioni che vanno oltre il gaming e toccano le sfide infrastrutturali per il training di modelli su larga scala.
OpenAI ha ampliato la sua offerta di modelli vocali tramite API, introducendo GPT-Realtime-2 con capacità di ragionamento di classe GPT-5 per l'audio in tempo reale. L'azienda ha inoltre rilasciato un modello di traduzione che supporta oltre 70 lingue e una variante di Whisper per la trascrizione in streaming. La strategia di prezzo aggressiva mira a rendere queste soluzioni competitive per gli sviluppatori.
Un'iniziativa accademica evidenzia le sfide e i costi associati all'addestramento di Large Language Models (LLM) di dimensioni contenute, con l'obiettivo di migliorarne la coerenza e ridurre le allucinazioni. L'impegno, finanziato da una docente universitaria, sottolinea l'importanza di investire in cicli di training mirati per modelli che vanno da 1.5 a 35 miliardi di parametri, anche con tecniche di Quantization come Q8_0, per renderli più affidabili in contesti applicativi critici.
Uno studio esplora l'uso di LLM per valutare il pensiero critico negli studenti, in particolare la capacità di formulare contro-argomenti. La ricerca ha coinvolto 36 studenti e ha confrontato le valutazioni umane con quelle di sei LLM di frontiera, usando rubriche standardizzate. I risultati indicano che gli studenti mantengono capacità logiche anche con l'IA generativa, e che gli LLM possono valutare efficacemente i lavori scritti su larga scala, con un allineamento generale alle valutazioni umane. Questo apre a nuove prospettive per l'adozione dell'IA nell'istruzione, pur riconoscendo i rischi di abuso.
AdaGATE è un nuovo controller per la Retrieval-Augmented Generation (RAG) multi-hop, progettato per affrontare la fragilità dei sistemi attuali con evidenze rumorose o ridondanti e contesti limitati. Senza richiedere training, AdaGATE ottimizza la selezione delle evidenze risolvendo un problema di "riparazione" vincolato dai token. Il sistema bilancia copertura delle lacune, corroborazione, novità e rilevanza. I test su HotpotQA mostrano un miglioramento dell'F1 e un'efficienza 2.6 volte superiore nell'uso dei token rispetto ad approcci esistenti, rendendo la RAG più robusta.
Una nuova ricerca mette in discussione il ruolo dei "minimi piatti" nella generalizzazione delle reti neurali. Lo studio suggerisce che la "debolezza" (weakness), definita dal comportamento del modello, sia un predittore più robusto e invariante rispetto alla riparametrizzazione. Le implicazioni sono significative per la comprensione e l'ottimizzazione dell'addestramento dei Large Language Models, spostando il focus dalla geometria dello spazio dei pesi alle capacità funzionali del modello, con potenziali benefici per il TCO e l'affidabilità nei deployment on-premise.
Zyphra ha presentato ZAYA1-8B, un Large Language Model (LLM) Mixture-of-Experts (MoE) focalizzato sul ragionamento, con 700 milioni di parametri attivi e 8 miliardi totali. Addestrato su una piattaforma AMD completa, il modello dimostra performance competitive in matematica e coding, eguagliando o superando modelli più grandi. L'introduzione di Markovian RSA, un metodo di calcolo innovativo per l'inference, ne potenzia ulteriormente le capacità, riducendo il divario con LLM di dimensioni superiori e offrendo nuove prospettive per i deployment on-premise.
Un nuovo approccio, gli Annotator Policy Models (APM), promette di migliorare la comprensione delle politiche di sicurezza degli LLM. Analizzando il comportamento degli annotatori, sia umani che basati su LLM, gli APM identificano ambiguità e differenze di prospettiva, senza richiedere sforzi aggiuntivi. Questo supporta la creazione di sistemi AI più robusti e allineati con le aspettative di sicurezza, cruciale per le aziende che implementano soluzioni AI.
Anthropic ha svelato una nuova ricerca che permette di comprendere i processi interni degli LLM durante la generazione di testo. Utilizzando i Natural Language Autoencoders (NLA), è ora possibile visualizzare i "pensieri" di un modello come Gemma 3 27b instruct. Questa innovazione, con i pesi NLA resi pubblici, offre strumenti preziosi per la trasparenza, il debugging e il controllo dei modelli, aspetti cruciali per i deployment on-premise.
Il progetto Horus, sviluppato da Assem Sabry e TokenAI, segna un traguardo significativo come il primo Large Language Model (LLM) interamente creato da zero in Egitto. Open source e disponibile su piattaforme come Hugging Face e GitHub, Horus si prepara al rilascio della versione 1.5 Instruct, che promette un aumento di 5 volte nelle prestazioni e una lunghezza del contesto di 64K token. L'iniziativa sottolinea l'emergere di capacità AI locali e la spinta verso la sovranità dei dati nella regione.
Un benchmark di coding indipendente, akitaonrails, ha posizionato il modello K2.6 nella fascia A con un punteggio di 87, superando concorrenti come Qwen 3.6 plus e Deepseek v4 flash. Questo risultato, basato su una metodologia fissa, evidenzia le capacità di K2.6 e sottolinea le sfide legate alla catena di strumenti per i deployment on-premise di LLM open source.
OpenAI ha rilasciato nuove funzionalità di intelligenza vocale accessibili tramite la sua API. Queste innovazioni mirano a migliorare i sistemi di assistenza clienti e trovano applicazione in settori diversi come l'istruzione e le piattaforme per creatori di contenuti. L'integrazione di tali capacità solleva considerazioni tecniche per i deployment on-premise, specialmente in termini di latenza e sovranità dei dati.