📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

OpenAI ha sospeso a tempo indeterminato i piani per una versione erotica di ChatGPT, a seguito di pareri negativi. I consulenti avevano avvertito che tale funzionalità avrebbe potuto portare a legami malsani e potenziali rischi per la salute mentale degli utenti.

2026-03-26 Fonte

Mistral AI ha reso disponibile Voxtral-4B-TTS-2603, un modello text-to-speech (TTS). La notizia è stata diffusa tramite un post su Reddit nel forum LocalLLaMA, con collegamenti diretti al modello su Hugging Face e alla discussione originale.

2026-03-26 Fonte

Il nuovo modello di generazione video AI di ByteDance, Dreamina Seedance 2.0, sarà integrato in CapCut. L'azienda ha dichiarato che il modello includerà protezioni integrate per la creazione di video a partire da volti reali o proprietà intellettuali non autorizzate, con l'obiettivo di mitigare potenziali abusi.

2026-03-26 Fonte

Search Live, la funzionalità di ricerca potenziata dall'intelligenza artificiale, si estende a tutte le lingue e località in cui è disponibile la Modalità AI. L'espansione globale promette di rendere le capacità di ricerca basate su AI accessibili a un pubblico più ampio, migliorando l'esperienza utente in diverse regioni e lingue.

2026-03-26 Fonte

Google ha annunciato la disponibilità di Gemini 3.1 Flash Live, una nuova versione del suo modello di intelligenza artificiale focalizzata sul miglioramento della qualità e dell'affidabilità dell'audio generato. Il modello è ora integrato in diversi prodotti Google.

2026-03-26 Fonte

Cohere ha annunciato il rilascio di Transcribe, un modello di trascrizione open source con licenza Apache 2.0. Il modello, con 2 miliardi di parametri, supporta 14 lingue ed è presentato come una soluzione all'avanguardia nel campo della trascrizione open source multilingue.

2026-03-26 Fonte

È disponibile una versione ottimizzata e senza censure del modello Qwen3.5-27B, ottenuta tramite fine-tuning e correzioni parametriche. Questa versione mira a migliorare la gestione del contesto e le capacità di ragionamento, con un occhio di riguardo all'inference su hardware meno recente. Il modello è stato modificato per ridurre la divergenza di Kullback-Leibler e ripristinare i livelli *attn_v* e *ffn_gate_exps*.

2026-03-26 Fonte

Cohere ha presentato un modello vocale open-source da 2 miliardi di parametri, progettato per la trascrizione e utilizzabile con GPU consumer. Supporta 14 lingue e punta a semplificare l'implementazione self-hosted per sviluppatori e aziende.

2026-03-26 Fonte

Mistral AI ha rilasciato Voxtral TTS, un modello text-to-speech da 3 miliardi di parametri con pesi aperti. L'azienda afferma che supera ElevenLabs Flash v2.5 nei test di preferenza umana. Il modello richiede circa 3 GB di RAM, raggiunge un time-to-first-audio di 90 millisecondi e supporta nove lingue.

2026-03-26 Fonte

Mistral AI ha rilasciato un nuovo modello open-source per la generazione di sintesi vocale. La particolarità di questo modello è la sua capacità di operare su dispositivi con risorse limitate, come smartwatch e smartphone, aprendo nuove prospettive per applicazioni vocali a basso consumo.

2026-03-26 Fonte

NVIDIA ha rilasciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) derivato da gpt-oss-120b di OpenAI. Ottimizzato tramite Puzzle, un framework di ricerca di architetture neurali post-training (NAS), il modello promette un'efficienza di inference significativamente migliorata, specialmente su hardware NVIDIA H100, mantenendo o migliorando l'accuratezza.

2026-03-26 Fonte

Un utente del forum LocalLLaMA esprime entusiasmo per TurboQuant e chiede aggiornamenti sulla sua disponibilità. TurboQuant promette di migliorare l'efficienza dei modelli linguistici di grandi dimensioni (LLM) eseguiti in locale, aprendo nuove possibilità per l'inference su hardware consumer.

2026-03-26 Fonte

MediaTek sta lavorando per migliorare le capacità dell'intelligenza artificiale nel riconoscimento e nella generazione della lingua taiwanese, affrontando al contempo le complessità linguistiche e le problematiche legate alla sicurezza dei dati. L'iniziativa mira a preservare e promuovere la lingua locale attraverso l'innovazione tecnicica.

2026-03-26 Fonte

I modelli di linguaggio a diffusione mascherata (MDLM) mostrano delle limitazioni in termini di efficienza computazionale e flessibilità. I modelli DID (Deletion-Insertion Diffusion) superano queste limitazioni formulando l'eliminazione e l'inserimento di token come processi di diffusione discreti, migliorando l'efficienza e la flessibilità, supportando nativamente sequenze di lunghezza variabile e meccanismi di auto-correzione.

2026-03-26 Fonte

Un nuovo studio propone un framework di test adattivo computerizzato (CAT) per valutare in modo efficiente le capacità di modelli linguistici di grandi dimensioni (LLM) in ambito medico. Il metodo, basato sulla teoria della risposta agli item (IRT), riduce drasticamente i costi e i tempi di valutazione, mantenendo un'elevata accuratezza.

2026-03-26 Fonte

Un nuovo studio su arXiv introduce i PLDR-LLM, modelli linguistici pre-addestrati in condizioni di criticità auto-organizzata. La ricerca suggerisce che questi modelli esibiscono capacità di ragionamento durante l'inference, con un comportamento simile alle transizioni di fase del secondo ordine. La capacità di ragionamento sembra quantificabile dai parametri globali del modello, senza necessità di benchmark esterni.

2026-03-26 Fonte

ARC-AGI-3 è un nuovo benchmark per confrontare l'efficienza con cui gli esseri umani e i sistemi di intelligenza artificiale acquisiscono nuove competenze. L'obiettivo è valutare quanto i modelli AI si avvicinino alla capacità umana di costruire modelli mentali, testare ipotesi e migliorare rapidamente, un'abilità in cui attualmente l'AI mostra ancora significative lacune.

2026-03-25 Fonte

Un recente post di Google afferma una compressione della cache KV di 6x senza perdita di accuratezza e un aumento della velocità di attenzione fino a 8x sulle GPU H100, presentato all'ICLR 2026. La comunità si interroga sull'implementazione pratica e sui guadagni reali al di fuori dei benchmark di laboratorio.

2026-03-25 Fonte