Un nuovo sondaggio ridefinisce l'apprendimento continuo come problema di ecosistema, non solo di algoritmo. Per chi gestisce modelli in produzione, emergono cinque principi di progettazione che affrontano la perdita di plasticità, l'ereditarietà delle capacità e la sostenibilità operativa.
La cross-entropy per-iter controlla solo le variabili che il readout espone, non l’intera dinamica ricorrente. Readout invarianti di scala come RMSNorm nascondono la norma dello stato nascosto, che esplode senza controllo. Una regola di design semplice: rendere la scala visibile alla loss o rimuoverla dal loop. Le varianti che la applicano riducono la perplessità nei benchmark a profondità variabile.
HauhauCS rilascia due varianti uncensored e bilanciate dei modelli Gemma 4, con quantization QAT a 4-bit e predizione multi-token (MTP) per coding speculativo. I guadagni in velocità arrivano al 53% senza perdita di qualità, su hardware consumer. I modelli, da 16,8 a 18,7 GB di VRAM in Q4_K_M, puntano su controllo locale e sovranità dei dati, aprendo nuovi scenari per deployment on-premise.
Google integra nativamente la capacità di computer use in Gemini 3.5 Flash, eliminando la necessità di un modello separato. Una semplificazione che accelera gli agenti autonomi, ma pone interrogativi sulla fiducia enterprise: controllo, trasparenza e sovranità dei dati rimangono centrali per chi valuta il deployment di queste tecnicie.
Meta ha avviato il test di un'app con un assistente AI dedicato ai creator. La notizia apre interrogativi su dove risieda l'elaborazione: cloud, on-device o ibrida. Per chi tutela la sovranità dei dati e valuta deployment on-premise, la scelta non è neutra.
Il massimo organo giudiziario elvetico sta valutando un modello linguistico “abliterato” per aggirare i rifiuti ingiustificati dei sistemi standard. Un caso concreto che solleva interrogativi su allineamento, controllo on-premise e sovranità dei dati nell’impiego di AI in ambito legale.
La startup sviluppa software che riduce le dimensioni dei modelli mantenendo alte prestazioni, con un occhio al deployment on-premise, all'edge e alla sostenibilità ambientale.
Baidu pubblica Unlimited-OCR su ModelScope: 3.3 miliardi di parametri, licenza MIT, parsing one-shot di immagini, PDF e documenti multipagina. Lunghezza output di 32K token, supporto a inference con Transformers e serving SGLang compatibile OpenAI. Un mattone per chi cerca OCR on-premise senza dipendenze cloud, in grado di gestire layout complessi. L’approccio a documento intero e la finestra di contesto estesa puntano a scenari enterprise con requisiti di privacy.
Qwen ha rilasciato AgentWorld-35B-A3B, un MoE da 35 miliardi di parametri con solo 3 miliardi attivi per token. Non è un chatbot: è un modello di mondo pensato per predire le risposte di sette diversi ambienti di interazione — terminale, Android, web, OS GUI e altri — dopo un’azione di un agente. Una risorsa per addestrare, testare e valutare agenti in offline, eliminando la necessità di eseguire strumenti reali.
Un nuovo approccio di reinforcement learning assegna ricompense granulari alle singole clausole SQL, migliorando la precisione dei modelli Text-to-SQL. Implicazioni concrete per chi esegue inference on-premise su database proprietari.
Uno studio su Qwen3-4B mostra che SFT, RFT e RIFT producono aggiornamenti quasi identici, mentre DPO si discosta nettamente e raggiunge la massima accuratezza. Un’analisi geometrica utile per chi deve scegliere strategie di fine-tuning su infrastruttura propria.
I ricercatori hanno usato tracce di ragionamento da planner classici per supervisionare un piccolo VLA (Qwen3.5-4B), ottenendo una riduzione significativa degli errori di traiettoria e dei falsi negativi. Il metodo garantisce che il ragionamento sia causalmente legato alla pianificazione del moto, un aspetto cruciale per chi valuta modelli compatti in contesti on-premise.
Il nuovo modello video di ByteDance, presentato a Pechino, produce clip in 4K nativo da 30 secondi accettando fino a 50 input di riferimento. Un salto diretto di quattro versioni che segnala un cambio di passo generazionale e un beta enterprise già attivo. Per chi valuta deployment on-premise, restano domande aperte su requisiti hardware e sovranità dei dati.
Anthropic ha avviato la research preview di Claude Tag, un’integrazione di Claude con Slack che permette di invocare l’AI con una semplice @Claude. Già disponibile per clienti Enterprise e Team, la novità segna un ulteriore passo verso assistenti AI persistenti negli strumenti di lavoro. Ma la natura cloud della soluzione riapre il dibattito su sovranità dei dati e alternative on‑premise.
Un paper condiviso su Hugging Face offre nuove evidenze ma non una prova definitiva. Per chi gestisce LLM in locale, questa sfumatura è cruciale: dimostra che ogni affermazione va verificata nel proprio stack, perché la riproducibilità e la sicurezza dei dati dipendono da test reali, non solo dalla letteratura.
Anthropic annuncia Claude Tag, una nuova funzionalità pensata per organizzare e gestire le interazioni con i propri modelli LLM. Per chi opera in ambienti on-premise, strumenti di tagging possono rafforzare la governance dei dati e la conformità normativa. AI-RADAR analizza le implicazioni di questa mossa, senza dimenticare che i dettagli tecnici restano ancora scarsi.
L'immunologo Derya Unutmaz ha risolto un enigma sui linfociti T grazie a GPT-5 Pro, dopo tre anni di tentativi. Il modello ha individuato schemi sfuggiti all'analisi tradizionale, con possibili ricadute su terapie oncologiche e autoimmuni. La vicenda rilancia il confronto su come integrare i grandi modelli linguistici nella ricerca biomedica, tra potenza di calcolo, riservatezza dei dati e scelte architetturali.
Omio integra ChatGPT e Codex in tutta l'ingegneria: effort di sviluppo ridotto all'20%, tempi di consegna compressi e un'interfaccia di prenotazione conversazionale basata su dati in tempo reale. Ma la vera partita si gioca sulla governance: persone sempre responsabili, AI come acceleratore.
Il modello Krea 2 Turbo è ora scaricabile dalla piattaforma Hugging Face. La variante 'Turbo' lascia intendere ottimizzazioni per bassa latenza e minor consumo di VRAM, un segnale per chi valuta deployment on-premise e vuole mantenere il controllo dei dati senza rinunciare alla velocità.
Anthropic ha identificato la causa di errori su più modelli Claude, mentre deve ancora chiarire la sospensione di Claude Mythos 5 e Claude Fable 5. L'episodio riaccende il dibattito sull'affidabilità dei LLM cloud e sul controllo che l'on-premise può offrire.