LLM – Notizie e Articoli AI

📁 LLM AI generated

Anthropic Rilascia Claude Fable 5: L'Intelligenza "Mythos-class" Diventa Pubblica

Anthropic ha annunciato il rilascio di Claude Fable 5, un Large Language Model basato sulla stessa architettura del suo sistema Mythos, finora ad accesso limitato. Questa mossa rende l'intelligenza di classe Mythos disponibile per la prima volta a clienti enterprise e abbonati a pagamento. Il modello integra nuove salvaguardie per bloccare risposte in settori sensibili come cybersecurity, biologia e chimica, un aspetto cruciale per i deployment aziendali.

2026-06-09 Fonte

📁 LLM AI generated

Cohere rilascia North Mini Code 1.0: un LLM da 30B per lo sviluppo di codice

Cohere ha reso disponibile la versione finale del suo Large Language Model North Mini Code 1.0, un modello da 30 miliardi di parametri ottimizzato per la generazione di codice. I pesi sono accessibili su Hugging Face, offrendo flessibilità per deployment on-premise. Le prime valutazioni lo posizionano in modo competitivo nell'indice di coding rispetto a modelli come Qwen 3.6 35B e Gemma 4 26B, pur mostrando un punteggio generale inferiore.

2026-06-09 Fonte

📁 LLM AI generated

Claude Fable 5 e Mythos 5: Nuovi LLM e le Sfide del Deployment On-Premise

L'emergere di nuovi Large Language Models come Claude Fable 5 e Mythos 5 solleva questioni cruciali per le aziende che valutano il deployment on-premise. AI-RADAR analizza le implicazioni in termini di requisiti hardware, sovranità dei dati e Total Cost of Ownership (TCO), evidenziando i trade-off tra controllo e complessità infrastrutturale per i carichi di lavoro AI.

2026-06-09 Fonte

📁 LLM AI generated

Anthropic lancia Claude Mythos 5 per partner e Fable 5 per il pubblico

Anthropic ha annunciato il rilascio di due nuove versioni del suo Large Language Model Claude. Claude Mythos 5 è destinato a organizzazioni selezionate e partner strategici, mentre Claude Fable 5 sarà disponibile per il pubblico generale, con l'azienda che ne garantisce l'impossibilità di utilizzo per attacchi informatici. Questa strategia evidenzia una segmentazione del mercato basata su requisiti di sicurezza e accesso.

2026-06-09 Fonte

📁 LLM AI generated

Anthropic rende pubblico Claude Fable 5, il suo primo LLM di classe Mythos

Anthropic ha rilasciato Claude Fable 5, il primo modello della sua serie "Mythos" accessibile al pubblico. L'LLM integra meccanismi di sicurezza avanzati, progettati per bloccare risposte in settori sensibili come la cybersecurity e la biologia, offrendo nuove opportunità ma anche sfide per il deployment enterprise che richiede controllo e sovranità dei dati.

2026-06-09 Fonte

📁 LLM AI generated

Unsloth: disponibili i modelli Gemma 4 QAT MTP per l'inference locale

Unsloth ha annunciato la disponibilità di nuovi modelli assistente basati sull'architettura Gemma 4 di Google, ottimizzati tramite Quantization-Aware Training (QAT). Questi LLM, distribuiti nel formato GGUF, sono offerti in diverse quantizzazioni, inclusa la `q8_0`, e in varie dimensioni. Questa release è strategica per i deployment on-premise, consentendo un'inference efficiente su hardware con risorse limitate e supportando scenari che richiedono sovranità dei dati e controllo sul TCO.

2026-06-09 Fonte

📁 LLM AI generated

Anthropic: Mythos è un rischio pubblico, ma l'accesso si estende a 200 organizzazioni

Anthropic ha dichiarato che il suo modello Mythos è troppo efficace nel trovare vulnerabilità software per essere rilasciato pubblicamente, temendo che possa essere usato per attacchi a infrastrutture critiche o furti di dati. Nonostante ciò, l'azienda ha deliberatamente esteso l'accesso a 150 nuove organizzazioni, portando il totale a circa 200 in 15 paesi. Questa strategia mira a bilanciare il potenziale rischio con la necessità di ricerca e sviluppo controllato.

2026-06-09 Fonte

📁 LLM AI generated

OmniMem: Ottimizzare la Memoria per LLM Audio-Visivi a Lungo Raggio

OmniMem è un nuovo framework di streaming progettato per migliorare l'efficienza della memoria negli LLM audio-visivi. Affronta le limitazioni causate dalla crescita lineare dei token video e delle KV caches, introducendo una gestione della memoria consapevole della modalità e una selezione degli stati KV basata sulle perturbazioni. Questo approccio consente una compressione efficace senza compromettere la comprensione a lungo raggio, offrendo miglioramenti significativi in termini di accuratezza e rilevanza per i deployment on-premise.

2026-06-09 Fonte

📁 LLM AI generated

Qwen3.6-35B-A3B: Impatto della Quantization e del Contesto Lungo sul Tool Calling

Uno studio approfondito ha esaminato l'impatto delle diverse tecniche di quantization GGUF e della gestione della KV cache sulle performance di tool calling del modello Qwen3.6-35B-A3B. La ricerca, condotta su GPU NVIDIA V100, ha confrontato quantizzazioni di ByteShape e Unsloth, rivelando che la quantization q8_0 per la KV cache offre prestazioni simili a f16, mentre il contesto lungo degrada significativamente l'efficacia del modello. I risultati offrono spunti cruciali per l'ottimizzazione dei deployment LLM on-premise.

2026-06-09 Fonte

📁 LLM AI generated

Bussola Politica per LLM Locali: Valutare il Bias nei Modelli Fine-tuned

I benchmark di "bussola politica" offrono uno strumento per analizzare il bias nei Large Language Models. Sebbene finora si siano concentrati sui modelli cloud, emerge la necessità di estendere queste metodologie ai deployment on-premise, specialmente per i modelli sottoposti a fine-tuning o modifiche. Comprendere le deviazioni di bias è cruciale per le organizzazioni che gestiscono LLM localmente, garantendo controllo e sovranità sui dati.

2026-06-09 Fonte

📁 LLM AI generated

Modelli ternari per LLM: promessa non mantenuta o potenziale inespresso?

I Large Language Models (LLM) ternari, come BitNet, avevano suscitato grande interesse per la loro capacità di ridurre drasticamente i requisiti di memoria e computazione. Nonostante le promesse iniziali, il modello ternario più grande disponibile si ferma a 2 miliardi di parametri. Questo solleva interrogativi sul perché i principali laboratori di AI non stiano adottando questa tecnicia, specialmente per scenari di deployment on-premise dove l'efficienza è cruciale.

2026-06-09 Fonte

📁 LLM AI generated

Gemma 4 26B: QAT e quantizzazioni tradizionali a confronto

Un recente benchmark ha messo a confronto diverse versioni quantizzate del modello Gemma 4 26B di Google, inclusa una variante con Quantization Aware Training (QAT) a 8 bit, su un MacBook M5 Pro. I risultati suggeriscono che la versione QAT 8-bit potrebbe non superare le quantizzazioni tradizionali a 6 bit in termini di accuratezza, specialmente su task di HumanEval. Questo solleva interrogativi sull'efficacia del QAT come sostituto universale per le quantizzazioni esistenti, influenzando le decisioni di deployment on-premise.

2026-06-09 Fonte

📁 LLM AI generated

silx-ai/Quasar-Preview: Un LLM con finestra di contesto da 5 milioni di token

Il modello Quasar-Preview di silx-ai si distingue per una finestra di contesto eccezionalmente ampia, pari a 5 milioni di token. Questa capacità permette di elaborare volumi di dati senza precedenti, aprendo nuove frontiere per applicazioni aziendali che richiedono l'analisi di documenti estesi o intere basi di codice. Tale caratteristica solleva importanti considerazioni per il deployment on-premise, in termini di requisiti hardware e gestione delle risorse.

2026-06-09 Fonte

📁 LLM AI generated

Apple: un LLM da 20 miliardi di parametri esegue l'inference dalla flash dell'iPhone

La conferenza sviluppatori di Apple ha messo in evidenza una Siri rinnovata. Tuttavia, la vera innovazione risiede in un modello AI da 20 miliardi di parametri che, pur essendo troppo grande per la RAM di un iPhone, riesce a eseguire l'inference direttamente dalla memoria flash del dispositivo. Questa soluzione tecnica, dettagliata in un post dedicato, apre nuove prospettive per l'esecuzione di Large Language Models on-device, con implicazioni significative per la sovranità dei dati e l'efficienza computazionale.

2026-06-09 Fonte

📁 LLM AI generated

La Sorprendente Competenza di Gemma 4 31B nei Deployment LLM Locali

Un utente accademico ha riscontrato prestazioni inattese da Gemma 4 31B nell'analisi di codice complesso, superando Qwen 3.6 e Opus 4.7. La capacità del modello di comprendere le interdipendenze del codice suggerisce nuove metriche per la valutazione dei Large Language Models in contesti on-premise, dove il controllo e la precisione sono cruciali per la sovranità dei dati e l'ottimizzazione del TCO.

2026-06-09 Fonte

📁 LLM AI generated

LFM2.5-8B-A1B: L'LLM da 8B gira su CPU con Rust, efficienza on-premise

Un nuovo progetto open source dimostra la fattibilità di eseguire LLM da 8 miliardi di parametri interamente su CPU. L'implementazione Rust-native di LFM2.5-8B-A1B, testata su un Ryzen 7950x, raggiunge circa 37 token/s in fase di decodifica, con un consumo di memoria di circa 7GB. Questo approccio sottolinea il potenziale per deployment on-premise, offrendo controllo sui dati e riducendo la dipendenza da infrastrutture GPU costose, pur richiedendo ottimizzazioni per la fase di prefill.

2026-06-09 Fonte

📁 LLM AI generated

Apple presenta "Siri AI": intelligenza conversazionale on-device

Apple ha svelato "Apple Intelligence" e la nuova "Siri AI" alla WWDC, promettendo un assistente vocale più conversazionale e integrato nei suoi sistemi operativi. La soluzione si basa su Foundation Models eseguiti on-device, con un aggiornamento potenziato da Google, e mira a superare le interazioni "one-shot" per un'esperienza utente più fluida e centrata sulle esigenze individuali, sottolineando un approccio distinto rispetto ad altri attori del settore.

2026-06-09 Fonte

📁 LLM AI generated

La visione di OpenAI per l'AGI: accesso, sicurezza e prosperità condivisa

OpenAI ha delineato la propria visione per il futuro dell'Intelligenza Artificiale Generale (AGI), ponendo l'accento su accesso universale, sicurezza intrinseca e prosperità diffusa. Questa prospettiva solleva interrogativi cruciali per le aziende che valutano il deployment di LLM avanzati, in particolare riguardo alla sovranità dei dati, ai costi operativi e alla necessità di infrastrutture robuste e controllabili.

2026-06-09 Fonte

📁 LLM AI generated

Apple presenta Siri AI: rinnovamento basato su Gemini e nuova architettura privacy

Apple ha svelato Siri AI, la più importante revisione del suo assistente vocale in quindici anni. La nuova versione è stata ricostruita da zero, integrando un modello Gemini personalizzato di Google. L'annuncio, avvenuto durante la WWDC 2026, introduce anche un'architettura di privacy a tre livelli e la possibilità di utilizzare Siri come applicazione indipendente, segnando un'evoluzione significativa per l'ecosistema dell'azienda.

2026-06-08 Fonte

📁 LLM AI generated

Google NotebookLM si aggiorna con Gemini 3.5 Flash e Antigravity

Google ha rilasciato un aggiornamento significativo per NotebookLM, integrando il modello Gemini 3.5 Flash e la funzionalità Antigravity. Questa evoluzione promette elaborazioni più rapide ed efficienti, con potenziali risparmi sui costi dei token e una qualità migliorata. Le valutazioni interne di Google indicano un incremento delle performance del 65% rispetto alla versione precedente, in aree chiave come accuratezza, analisi di documenti estesi e supporto multilingue.

2026-06-08 Fonte