📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Un nuovo sondaggio ridefinisce l'apprendimento continuo come problema di ecosistema, non solo di algoritmo. Per chi gestisce modelli in produzione, emergono cinque principi di progettazione che affrontano la perdita di plasticità, l'ereditarietà delle capacità e la sostenibilità operativa.

2026-06-25 Fonte

La cross-entropy per-iter controlla solo le variabili che il readout espone, non l’intera dinamica ricorrente. Readout invarianti di scala come RMSNorm nascondono la norma dello stato nascosto, che esplode senza controllo. Una regola di design semplice: rendere la scala visibile alla loss o rimuoverla dal loop. Le varianti che la applicano riducono la perplessità nei benchmark a profondità variabile.

2026-06-25 Fonte

HauhauCS rilascia due varianti uncensored e bilanciate dei modelli Gemma 4, con quantization QAT a 4-bit e predizione multi-token (MTP) per coding speculativo. I guadagni in velocità arrivano al 53% senza perdita di qualità, su hardware consumer. I modelli, da 16,8 a 18,7 GB di VRAM in Q4_K_M, puntano su controllo locale e sovranità dei dati, aprendo nuovi scenari per deployment on-premise.

2026-06-25 Fonte

Google integra nativamente la capacità di computer use in Gemini 3.5 Flash, eliminando la necessità di un modello separato. Una semplificazione che accelera gli agenti autonomi, ma pone interrogativi sulla fiducia enterprise: controllo, trasparenza e sovranità dei dati rimangono centrali per chi valuta il deployment di queste tecnicie.

2026-06-24 Fonte

Il massimo organo giudiziario elvetico sta valutando un modello linguistico “abliterato” per aggirare i rifiuti ingiustificati dei sistemi standard. Un caso concreto che solleva interrogativi su allineamento, controllo on-premise e sovranità dei dati nell’impiego di AI in ambito legale.

2026-06-24 Fonte

Baidu pubblica Unlimited-OCR su ModelScope: 3.3 miliardi di parametri, licenza MIT, parsing one-shot di immagini, PDF e documenti multipagina. Lunghezza output di 32K token, supporto a inference con Transformers e serving SGLang compatibile OpenAI. Un mattone per chi cerca OCR on-premise senza dipendenze cloud, in grado di gestire layout complessi. L’approccio a documento intero e la finestra di contesto estesa puntano a scenari enterprise con requisiti di privacy.

2026-06-24 Fonte

Qwen ha rilasciato AgentWorld-35B-A3B, un MoE da 35 miliardi di parametri con solo 3 miliardi attivi per token. Non è un chatbot: è un modello di mondo pensato per predire le risposte di sette diversi ambienti di interazione — terminale, Android, web, OS GUI e altri — dopo un’azione di un agente. Una risorsa per addestrare, testare e valutare agenti in offline, eliminando la necessità di eseguire strumenti reali.

2026-06-24 Fonte

I ricercatori hanno usato tracce di ragionamento da planner classici per supervisionare un piccolo VLA (Qwen3.5-4B), ottenendo una riduzione significativa degli errori di traiettoria e dei falsi negativi. Il metodo garantisce che il ragionamento sia causalmente legato alla pianificazione del moto, un aspetto cruciale per chi valuta modelli compatti in contesti on-premise.

2026-06-24 Fonte

Il nuovo modello video di ByteDance, presentato a Pechino, produce clip in 4K nativo da 30 secondi accettando fino a 50 input di riferimento. Un salto diretto di quattro versioni che segnala un cambio di passo generazionale e un beta enterprise già attivo. Per chi valuta deployment on-premise, restano domande aperte su requisiti hardware e sovranità dei dati.

2026-06-23 Fonte

Anthropic ha avviato la research preview di Claude Tag, un’integrazione di Claude con Slack che permette di invocare l’AI con una semplice @Claude. Già disponibile per clienti Enterprise e Team, la novità segna un ulteriore passo verso assistenti AI persistenti negli strumenti di lavoro. Ma la natura cloud della soluzione riapre il dibattito su sovranità dei dati e alternative on‑premise.

2026-06-23 Fonte

Un paper condiviso su Hugging Face offre nuove evidenze ma non una prova definitiva. Per chi gestisce LLM in locale, questa sfumatura è cruciale: dimostra che ogni affermazione va verificata nel proprio stack, perché la riproducibilità e la sicurezza dei dati dipendono da test reali, non solo dalla letteratura.

2026-06-23 Fonte

Anthropic annuncia Claude Tag, una nuova funzionalità pensata per organizzare e gestire le interazioni con i propri modelli LLM. Per chi opera in ambienti on-premise, strumenti di tagging possono rafforzare la governance dei dati e la conformità normativa. AI-RADAR analizza le implicazioni di questa mossa, senza dimenticare che i dettagli tecnici restano ancora scarsi.

2026-06-23 Fonte

L'immunologo Derya Unutmaz ha risolto un enigma sui linfociti T grazie a GPT-5 Pro, dopo tre anni di tentativi. Il modello ha individuato schemi sfuggiti all'analisi tradizionale, con possibili ricadute su terapie oncologiche e autoimmuni. La vicenda rilancia il confronto su come integrare i grandi modelli linguistici nella ricerca biomedica, tra potenza di calcolo, riservatezza dei dati e scelte architetturali.

2026-06-23 Fonte

Omio integra ChatGPT e Codex in tutta l'ingegneria: effort di sviluppo ridotto all'20%, tempi di consegna compressi e un'interfaccia di prenotazione conversazionale basata su dati in tempo reale. Ma la vera partita si gioca sulla governance: persone sempre responsabili, AI come acceleratore.

2026-06-23 Fonte

Il modello Krea 2 Turbo è ora scaricabile dalla piattaforma Hugging Face. La variante 'Turbo' lascia intendere ottimizzazioni per bassa latenza e minor consumo di VRAM, un segnale per chi valuta deployment on-premise e vuole mantenere il controllo dei dati senza rinunciare alla velocità.

2026-06-23 Fonte

Anthropic ha identificato la causa di errori su più modelli Claude, mentre deve ancora chiarire la sospensione di Claude Mythos 5 e Claude Fable 5. L'episodio riaccende il dibattito sull'affidabilità dei LLM cloud e sul controllo che l'on-premise può offrire.

2026-06-23 Fonte