📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Anthropic ha annunciato il rilascio di Claude Fable 5, un Large Language Model basato sulla stessa architettura del suo sistema Mythos, finora ad accesso limitato. Questa mossa rende l'intelligenza di classe Mythos disponibile per la prima volta a clienti enterprise e abbonati a pagamento. Il modello integra nuove salvaguardie per bloccare risposte in settori sensibili come cybersecurity, biologia e chimica, un aspetto cruciale per i deployment aziendali.

2026-06-09 Fonte

Cohere ha reso disponibile la versione finale del suo Large Language Model North Mini Code 1.0, un modello da 30 miliardi di parametri ottimizzato per la generazione di codice. I pesi sono accessibili su Hugging Face, offrendo flessibilità per deployment on-premise. Le prime valutazioni lo posizionano in modo competitivo nell'indice di coding rispetto a modelli come Qwen 3.6 35B e Gemma 4 26B, pur mostrando un punteggio generale inferiore.

2026-06-09 Fonte

L'emergere di nuovi Large Language Models come Claude Fable 5 e Mythos 5 solleva questioni cruciali per le aziende che valutano il deployment on-premise. AI-RADAR analizza le implicazioni in termini di requisiti hardware, sovranità dei dati e Total Cost of Ownership (TCO), evidenziando i trade-off tra controllo e complessità infrastrutturale per i carichi di lavoro AI.

2026-06-09 Fonte

Anthropic ha annunciato il rilascio di due nuove versioni del suo Large Language Model Claude. Claude Mythos 5 è destinato a organizzazioni selezionate e partner strategici, mentre Claude Fable 5 sarà disponibile per il pubblico generale, con l'azienda che ne garantisce l'impossibilità di utilizzo per attacchi informatici. Questa strategia evidenzia una segmentazione del mercato basata su requisiti di sicurezza e accesso.

2026-06-09 Fonte

Anthropic ha rilasciato Claude Fable 5, il primo modello della sua serie "Mythos" accessibile al pubblico. L'LLM integra meccanismi di sicurezza avanzati, progettati per bloccare risposte in settori sensibili come la cybersecurity e la biologia, offrendo nuove opportunità ma anche sfide per il deployment enterprise che richiede controllo e sovranità dei dati.

2026-06-09 Fonte

Unsloth ha annunciato la disponibilità di nuovi modelli assistente basati sull'architettura Gemma 4 di Google, ottimizzati tramite Quantization-Aware Training (QAT). Questi LLM, distribuiti nel formato GGUF, sono offerti in diverse quantizzazioni, inclusa la `q8_0`, e in varie dimensioni. Questa release è strategica per i deployment on-premise, consentendo un'inference efficiente su hardware con risorse limitate e supportando scenari che richiedono sovranità dei dati e controllo sul TCO.

2026-06-09 Fonte

Anthropic ha dichiarato che il suo modello Mythos è troppo efficace nel trovare vulnerabilità software per essere rilasciato pubblicamente, temendo che possa essere usato per attacchi a infrastrutture critiche o furti di dati. Nonostante ciò, l'azienda ha deliberatamente esteso l'accesso a 150 nuove organizzazioni, portando il totale a circa 200 in 15 paesi. Questa strategia mira a bilanciare il potenziale rischio con la necessità di ricerca e sviluppo controllato.

2026-06-09 Fonte

OmniMem è un nuovo framework di streaming progettato per migliorare l'efficienza della memoria negli LLM audio-visivi. Affronta le limitazioni causate dalla crescita lineare dei token video e delle KV caches, introducendo una gestione della memoria consapevole della modalità e una selezione degli stati KV basata sulle perturbazioni. Questo approccio consente una compressione efficace senza compromettere la comprensione a lungo raggio, offrendo miglioramenti significativi in termini di accuratezza e rilevanza per i deployment on-premise.

2026-06-09 Fonte

Uno studio approfondito ha esaminato l'impatto delle diverse tecniche di quantization GGUF e della gestione della KV cache sulle performance di tool calling del modello Qwen3.6-35B-A3B. La ricerca, condotta su GPU NVIDIA V100, ha confrontato quantizzazioni di ByteShape e Unsloth, rivelando che la quantization q8_0 per la KV cache offre prestazioni simili a f16, mentre il contesto lungo degrada significativamente l'efficacia del modello. I risultati offrono spunti cruciali per l'ottimizzazione dei deployment LLM on-premise.

2026-06-09 Fonte

I benchmark di "bussola politica" offrono uno strumento per analizzare il bias nei Large Language Models. Sebbene finora si siano concentrati sui modelli cloud, emerge la necessità di estendere queste metodologie ai deployment on-premise, specialmente per i modelli sottoposti a fine-tuning o modifiche. Comprendere le deviazioni di bias è cruciale per le organizzazioni che gestiscono LLM localmente, garantendo controllo e sovranità sui dati.

2026-06-09 Fonte

I Large Language Models (LLM) ternari, come BitNet, avevano suscitato grande interesse per la loro capacità di ridurre drasticamente i requisiti di memoria e computazione. Nonostante le promesse iniziali, il modello ternario più grande disponibile si ferma a 2 miliardi di parametri. Questo solleva interrogativi sul perché i principali laboratori di AI non stiano adottando questa tecnicia, specialmente per scenari di deployment on-premise dove l'efficienza è cruciale.

2026-06-09 Fonte

Un recente benchmark ha messo a confronto diverse versioni quantizzate del modello Gemma 4 26B di Google, inclusa una variante con Quantization Aware Training (QAT) a 8 bit, su un MacBook M5 Pro. I risultati suggeriscono che la versione QAT 8-bit potrebbe non superare le quantizzazioni tradizionali a 6 bit in termini di accuratezza, specialmente su task di HumanEval. Questo solleva interrogativi sull'efficacia del QAT come sostituto universale per le quantizzazioni esistenti, influenzando le decisioni di deployment on-premise.

2026-06-09 Fonte

Il modello Quasar-Preview di silx-ai si distingue per una finestra di contesto eccezionalmente ampia, pari a 5 milioni di token. Questa capacità permette di elaborare volumi di dati senza precedenti, aprendo nuove frontiere per applicazioni aziendali che richiedono l'analisi di documenti estesi o intere basi di codice. Tale caratteristica solleva importanti considerazioni per il deployment on-premise, in termini di requisiti hardware e gestione delle risorse.

2026-06-09 Fonte

La conferenza sviluppatori di Apple ha messo in evidenza una Siri rinnovata. Tuttavia, la vera innovazione risiede in un modello AI da 20 miliardi di parametri che, pur essendo troppo grande per la RAM di un iPhone, riesce a eseguire l'inference direttamente dalla memoria flash del dispositivo. Questa soluzione tecnica, dettagliata in un post dedicato, apre nuove prospettive per l'esecuzione di Large Language Models on-device, con implicazioni significative per la sovranità dei dati e l'efficienza computazionale.

2026-06-09 Fonte

Un utente accademico ha riscontrato prestazioni inattese da Gemma 4 31B nell'analisi di codice complesso, superando Qwen 3.6 e Opus 4.7. La capacità del modello di comprendere le interdipendenze del codice suggerisce nuove metriche per la valutazione dei Large Language Models in contesti on-premise, dove il controllo e la precisione sono cruciali per la sovranità dei dati e l'ottimizzazione del TCO.

2026-06-09 Fonte

Un nuovo progetto open source dimostra la fattibilità di eseguire LLM da 8 miliardi di parametri interamente su CPU. L'implementazione Rust-native di LFM2.5-8B-A1B, testata su un Ryzen 7950x, raggiunge circa 37 token/s in fase di decodifica, con un consumo di memoria di circa 7GB. Questo approccio sottolinea il potenziale per deployment on-premise, offrendo controllo sui dati e riducendo la dipendenza da infrastrutture GPU costose, pur richiedendo ottimizzazioni per la fase di prefill.

2026-06-09 Fonte

Apple ha svelato "Apple Intelligence" e la nuova "Siri AI" alla WWDC, promettendo un assistente vocale più conversazionale e integrato nei suoi sistemi operativi. La soluzione si basa su Foundation Models eseguiti on-device, con un aggiornamento potenziato da Google, e mira a superare le interazioni "one-shot" per un'esperienza utente più fluida e centrata sulle esigenze individuali, sottolineando un approccio distinto rispetto ad altri attori del settore.

2026-06-09 Fonte

OpenAI ha delineato la propria visione per il futuro dell'Intelligenza Artificiale Generale (AGI), ponendo l'accento su accesso universale, sicurezza intrinseca e prosperità diffusa. Questa prospettiva solleva interrogativi cruciali per le aziende che valutano il deployment di LLM avanzati, in particolare riguardo alla sovranità dei dati, ai costi operativi e alla necessità di infrastrutture robuste e controllabili.

2026-06-09 Fonte

Apple ha svelato Siri AI, la più importante revisione del suo assistente vocale in quindici anni. La nuova versione è stata ricostruita da zero, integrando un modello Gemini personalizzato di Google. L'annuncio, avvenuto durante la WWDC 2026, introduce anche un'architettura di privacy a tre livelli e la possibilità di utilizzare Siri come applicazione indipendente, segnando un'evoluzione significativa per l'ecosistema dell'azienda.

2026-06-08 Fonte

Google ha rilasciato un aggiornamento significativo per NotebookLM, integrando il modello Gemini 3.5 Flash e la funzionalità Antigravity. Questa evoluzione promette elaborazioni più rapide ed efficienti, con potenziali risparmi sui costi dei token e una qualità migliorata. Le valutazioni interne di Google indicano un incremento delle performance del 65% rispetto alla versione precedente, in aree chiave come accuratezza, analisi di documenti estesi e supporto multilingue.

2026-06-08 Fonte