Una ricerca approfondisce l'esponente di curvatura nei loss landscape delle reti neurali, un parametro che descrive la relazione tra gli autovalori dell'Hessiana e i valori singolari del gradiente. La sua variazione tra strati convoluzionali e di attenzione nei Transformer suggerisce nuove vie per ottimizzare i processi di training. Comprendere queste dinamiche è cruciale per migliorare l'efficienza e ridurre il TCO nei deployment AI on-premise, influenzando la scelta delle architetture e l'utilizzo dell'hardware.
Uno studio ha analizzato le "attitudini ambientali" di 31 Large Language Models, proprietari e open-weight, confrontandole con quelle umane. I risultati indicano che molti LLM mostrano un allineamento più progressista verso la sostenibilità, suggerendo comportamenti con potenziale di riduzione di CO2. Tuttavia, la ricerca evidenzia anche una sensibilità contestuale e una tendenza alla "sycophancy" (compiacenza) che sollevano interrogativi sulla loro affidabilità normativa nei deployment reali, sottolineando l'importanza di governance e trasparenza.
IdiomX è un benchmark multilingue su larga scala progettato per migliorare la comprensione, il recupero e l'interpretazione delle espressioni idiomatiche da parte dei Large Language Models. Il dataset include oltre 190.000 esempi contestualizzati e più di 12.000 idiomi, con rappresentazioni semantiche allineate in inglese, arabo e francese. Questo strumento affronta le sfide legate alla natura non composizionale degli idiomi, offrendo un framework modulare per valutare e potenziare le capacità dei modelli linguistici moderni in contesti multilingue.
Una nuova ricerca esplora il potenziale dei grafici non solo come fonti di conoscenza esterne, ma come strumenti interni per organizzare il ragionamento degli LLM. Gli esperimenti su compiti di risposta a domande multi-hop rivelano un "modality gap": la guida visiva tramite grafici supera nettamente l'approccio testuale, migliorando l'efficienza e la qualità del ragionamento. Questo suggerisce un nuovo paradigma per lo sviluppo di LLM più robusti e autonomi.
Documenti strategici interni di Microsoft, ottenuti da 404 Media, rivelano che l'obiettivo primario per il nuovo assistente AI "Scout" è "rendere le persone dipendenti" dallo strumento. Parte del "Project Lobster", Scout integra l'agente AI OpenClaw in Microsoft 365 per utenti non tecnici, con un piano di lancio in tre fasi che enfatizza la creazione di un'abitudine quotidiana prima di espandere le funzionalità.
Google introduce un sistema di rilevamento delle chiamate false per contrastare le truffe basate su deepfake vocali. I malintenzionati sfruttano l'AI per impersonare figure autorevoli o familiari, adattando le proprie tattiche all'aumento delle chiamate non risposte. Questo evidenzia la crescente necessità per le aziende di valutare soluzioni di sicurezza robuste, anche on-premise, per proteggere dati sensibili e comunicazioni.
Microsoft ha annunciato Scout, un nuovo assistente basato su intelligenza artificiale, durante l'evento Build. Progettato per portare le capacità di OpenClaw all'interno dell'ecosistema Microsoft 365, Scout mira a offrire maggiore flessibilità e potenza agli utenti aziendali. L'introduzione di tali strumenti solleva interrogativi cruciali per le imprese riguardo alla sovranità dei dati e alle strategie di deployment, aspetti centrali per chi valuta soluzioni on-premise.
Un recente benchmark si concentra sulla valutazione delle capacità di coding di diversi Large Language Models, tra cui Step 3.7 e varianti della serie Qwen (Qwen 3.5 122B-A10B, Qwen 3.6 27B, Qwen 3.6 35B-A3B). Questa analisi è cruciale per le aziende che considerano il deployment on-premise, poiché la scelta del modello influenza direttamente i requisiti hardware, i costi operativi e la sovranità dei dati, specialmente per carichi di lavoro sensibili come lo sviluppo software.
Un'analisi condotta su un benchmark di bias AI ha evidenziato che il modello Minimax M3 si distingue per l'assenza di censura politica, un tratto insolito per un LLM cinese. Questa osservazione lo differenzia dagli altri modelli Minimax, che invece presentano le tipiche restrizioni. La scoperta solleva questioni rilevanti per le aziende che valutano deployment on-premise, dove il controllo sui contenuti e la sovranità dei dati sono prioritari.
OpenAI ha lanciato un appello per un'iniziativa globale focalizzata sulla sicurezza dell'intelligenza artificiale per le nuove generazioni. L'azienda propone la creazione di un AI Safety Institute dedicato, con l'obiettivo di promuovere un ambiente digitale più sicuro e opportunità concrete per i giovani nell'era dell'AI.
Un'analisi qualitativa sui recenti LLM locali come Gemma 4 31B e Qwen 3.6 rivela che l'esperienza d'uso può divergere dai benchmark. Per la scrittura creativa, Gemma 4 31B (anche in versione quantizzata q4) mostra limiti nel contesto lungo rispetto a Gemini 2.5 Pro, pur superando GPT 4.5 per preferenza personale. Qwen 3.6 eccelle invece in compiti di coding e agentic work, evidenziando l'importanza di valutazioni pratiche per i deployment on-premise.
Mentre l'industria dell'AI si concentra su metriche di performance tecniche, Imran Khan del Center for Humane Technology evidenzia una lacuna critica: la misurazione dell'impatto psicosociale sull'essere umano. L'articolo esplora come l'AI stia già plasmando cognizione, relazioni e comportamenti, sottolineando l'urgenza di studi a lungo termine e l'accesso ai dati per comprendere e mitigare i rischi, specialmente in ambiti sensibili come il supporto emotivo e l'educazione.
NVIDIA ha rilasciato Cosmos 3, una suite di modelli omnimodali disponibili su Hugging Face. Questi modelli, nelle versioni Nano (16B) e Super (64B), sono progettati per generare video, immagini, audio e comandi di azione da input multimodali. Rappresentano un elemento fondamentale per lo sviluppo di applicazioni di Intelligenza Artificiale fisica, dalla comprensione del mondo alla simulazione e all'apprendimento di policy per sistemi embodied.
Un utente esperto di sviluppo front-end cerca LLM per il coding nella fascia 70-80B, da eseguire su un setup on-premise con 3x 24GB VRAM. La sfida è bilanciare la dimensione del modello, la quantization Q6 e un contesto minimo di 256k token, essenziale per la qualità del codice. La velocità di inference è cruciale per il suo workflow di "micro-management", evidenziando i compromessi tra performance e risorse hardware locali.
Con la crescente fluidità dei Large Language Models, distinguere testi umani da quelli generati da AI è sempre più complesso. AEyeDE propone un approccio innovativo basato sull'analisi delle matrici di attenzione dei Transformer, addestrando una rete neurale convoluzionale leggera. Questo metodo supera le tecniche tradizionali, offrendo un segnale interpretabile e robusto, fondamentale per le aziende che necessitano di verificare l'autenticità dei contenuti e garantire la sovranità dei dati.
I Large Language Models (LLM) mostrano buone performance in compiti Out-of-Distribution (OOD), ma la loro efficacia diminuisce con l'aumentare dello scostamento distributivo. Per affrontare il problema dell'inaccessibilità del dominio target, che compromette la qualità delle "demonstrations" selezionate, è stato proposto DOPA. Questo framework utilizza un proxy OOD per approssimare il dominio target e una metrica di diversità basata sulla distanza di Mahalanobis, migliorando significativamente la robustezza degli LLM in scenari OOD.
BitsMoE introduce un nuovo framework per la quantization dei Large Language Models (LLM) basati su architettura Mixture-of-Experts (MoE). Affrontando il problema dell'elevato consumo di memoria, BitsMoE utilizza un'allocazione di bit guidata dall'energia spettrale. Questo approccio consente di ridurre significativamente la degradazione dell'accuratezza in regimi di ultra-low-bit, migliorando al contempo la velocità di inference e di quantization, rendendo i deployment on-premise più efficienti e sostenibili.
Un nuovo protocollo, Consilium, introduce un'architettura derivata dalla tolleranza ai guasti bizantini per la deliberazione AI multi-modello. Assegnando "persone cognitive" ai Large Language Models, il protocollo dimostra che modelli edge a basso costo possono produrre risultati analitici comparabili a quelli di modelli frontier, con un TCO significativamente inferiore. Evidenzia inoltre i bias degli LLM allineati con RLHF e offre un framework per la validazione basata su evidenze esterne.
Lo Stato della Florida ha avviato una causa legale senza precedenti contro OpenAI e il suo CEO Sam Altman. L'azione legale si concentra su incidenti violenti, inclusa una sparatoria avvenuta lo scorso anno alla Florida State University, e indaga il presunto coinvolgimento di ChatGPT. Questo caso solleva questioni cruciali sulla responsabilità dei Large Language Models e le implicazioni per il loro deployment in contesti aziendali.
L'aumento dei commenti automatici generati da intelligenza artificiale solleva interrogativi sulla qualità e l'autenticità dei contenuti online. L'utilizzo di API esterne, come quelle di OpenAI, evidenzia la necessità per le aziende di valutare strategie di deployment che garantiscano maggiore controllo sui modelli e sui dati, specialmente in contesti dove la sovranità dei dati e la qualità dell'output sono prioritarie.