Uno studio esplora la decodifica speculativa per accelerare l'inference degli LLM su Apple Silicio, estendendo il framework MLX-LM con Universal Assisted Generation (UAG) per gestire tokenizer non corrispondenti. La ricerca, focalizzata su LLM polacchi come Bielik 11B, rivela che la traduzione context-aware migliora l'accettazione. Tuttavia, il throughput su memoria unificata è variabile, raggiungendo un speedup di 1.7x per testi strutturati, ma evidenziando come i costi di verifica non si ammortizzino come previsto a causa dei limiti di banda di memoria.
La disinformazione sui social media, spesso multimodale, pone sfide significative al fact-checking automatizzato. Un nuovo studio presenta il primo benchmark per l'estrazione multimodale di claim da post con testo e immagini. Valutando gli MLLM attuali, emerge la loro difficoltà a interpretare l'intento retorico. Per questo, è stato introdotto MICE, un framework consapevole dell'intento che migliora le prestazioni nei casi critici, offrendo nuove prospettive per sistemi di verifica più efficaci.
Un nuovo algoritmo, BASIS, promette di superare il collo di bottiglia della memoria di attivazione nel training delle reti neurali profonde, inclusi i Large Language Models. Decouplando la memoria dalle dimensioni di batch e sequenza, BASIS riduce significativamente i requisiti di VRAM, mantenendo al contempo un flusso di gradienti accurato. Questa innovazione potrebbe abilitare il training di modelli più grandi su hardware con risorse limitate, con implicazioni dirette per i deployment self-hosted e la riduzione del TCO.
Google ha annunciato l'espansione del suo modello Gemini all'interno del browser Chrome in sette paesi, tra cui Australia, Giappone e Corea del Sud. Questa mossa evidenzia la crescente integrazione dell'intelligenza artificiale generativa negli strumenti quotidiani, sollevando questioni cruciali per le aziende riguardo al deployment, alla sovranità dei dati e ai trade-off tra soluzioni cloud e self-hosted per carichi di lavoro LLM.
Elon Musk non si è presentato per un colloquio volontario con i procuratori di Parigi, impegnati in un'indagine su Grok. L'LLM è accusato di aver generato circa 23.000 immagini sessualizzate di minori e 3 milioni di immagini sessualizzate complessive in soli undici giorni. Il Dipartimento di Giustizia statunitense ha rifiutato di collaborare con le autorità francesi, mentre il caso prosegue per cinque presunti reati penali, inclusa la complicità.
La diffusione di una specifica costruzione sintattica nel testo generato da Large Language Models (LLM) sta diventando un indicatore quasi certo della sua origine artificiale. Questo fenomeno solleva questioni cruciali sulla verifica dell'autenticità dei contenuti, particolarmente rilevanti per le aziende che implementano soluzioni AI on-premise e necessitano di controllo e trasparenza sulla produzione di testo.
Uno studio rivela che la percezione di “umanità” di un LLM è più influenzata dalla sua cordialità che dalla sua intelligenza grezza. Questa scoperta ha implicazioni significative per il design e il deployment di AI conversazionali in ambito aziendale, suggerendo che l'esperienza utente e la fiducia possono dipendere più dal tono che dalla pura potenza computazionale, con riflessi anche sul TCO e le scelte infrastrutturali.
Un nuovo framework di fine-tuning mira a migliorare le capacità di code-switching nei Large Language Models (LLM), rendendoli più efficaci nel ragionamento multilingue. La ricerca introduce un approccio data-efficiente per identificare e insegnare comportamenti utili di alternanza di codice, con implicazioni significative per i deployment enterprise che richiedono flessibilità linguistica e ottimizzazione delle risorse.
Un recente studio compara tre tecniche di spiegabilità per i Large Language Models: Integrated Gradients, Attention Rollout e SHAP. L'analisi, condotta su un modello DistilBERT per la classificazione del sentiment, evidenzia i compromessi tra stabilità, efficienza computazionale e allineamento con le previsioni. I risultati sottolineano il ruolo di questi metodi come strumenti diagnostici fondamentali per la fiducia, il debugging e il deployment in sistemi reali, cruciali per le aziende che adottano soluzioni AI on-premise.
Aletheia introduce un metodo innovativo per il Fine-Tuning LoRA, focalizzandosi sulla selezione degli strati più rilevanti nei Large Language Models. Utilizzando una sonda a gradiente leggera, il sistema identifica gli strati critici, applicando gli adapter LoRA solo dove necessario e con allocazione asimmetrica del rank. Questo approccio ha dimostrato di accelerare il training del 15-28% su un'ampia gamma di modelli (0.5B-72B parametri), mantenendo le performance sui benchmark chiave. La ricerca evidenzia un significativo miglioramento dell'efficienza senza compromettere i risultati finali.
Una nuova ricerca rivela che i Large Language Models (LLM) esibiscono "transizioni di fase spettrali" durante il ragionamento, distinguendolo dal richiamo fattuale. Lo studio, condotto su 11 modelli di 5 architetture diverse, ha identificato sette fenomeni chiave, inclusa la capacità di prevedere la correttezza delle risposte prima della loro generazione finale. Queste scoperte aprono nuove prospettive sulla comprensione e l'ottimizzazione dei processi cognitivi interni agli LLM.
Un nuovo approccio, GIST, affronta le sfide della navigazione per l'AI in ambienti densi e dinamici come negozi e ospedali. Utilizzando una pipeline multimodale, trasforma dati da point cloud mobili in una topologia di navigazione semanticamente annotata. Il sistema migliora la ricerca semantica, la localizzazione con un errore medio di 1,04 metri, la classificazione delle zone e la generazione di istruzioni visivamente fondate, superando i benchmark LLM e dimostrando un tasso di successo dell'80% nella navigazione basata su indicazioni verbali.
DeepER-Med è un nuovo framework di ricerca basata sull'evidenza per la medicina, che impiega un sistema di AI agentica. Affronta la mancanza di trasparenza e criteri espliciti nei sistemi attuali, proponendo un workflow ispezionabile in tre moduli. Valutato con il dataset DeepER-MedQA su 100 domande mediche reali, DeepER-Med supera le piattaforme esistenti nella generazione di insight scientifici. La sua utilità è confermata da casi clinici, dove le conclusioni si allineano alle raccomandazioni mediche, promuovendo fiducia e affidabilità nell'AI sanitaria.
Il CEO di Anthropic, Dario Amodei, ha incontrato alti funzionari della Casa Bianca per discutere l'accesso a Mythos, un LLM all'avanguardia. Il modello è noto per la sua capacità di identificare migliaia di vulnerabilità zero-day. L'incontro, descritto come "produttivo e costruttivo", segna un potenziale sblocco nella situazione di stallo, evidenziando l'importanza strategica dei modelli AI avanzati per la sicurezza nazionale e la sovranità dei dati.
Anthropic ha introdotto Claude Design, un servizio in anteprima di ricerca che permette di creare asset visivi attraverso la conversazione con un modello di intelligenza artificiale. Questa novità, che segue il successo di Claude Code per la generazione di programmi, abbassa la soglia di accesso alla produzione di contenuti grafici. La mossa di Anthropic solleva interrogativi sulle future dinamiche dei team di marketing e sulla ridefinizione dei ruoli professionali.
Canva e Anthropic hanno lanciato Claude Design, un nuovo prodotto di Anthropic Labs che sfrutta Claude Opus 4.7 e il Design Engine di Canva. La soluzione permette di generare elementi visivi personalizzati e modificabili a partire da descrizioni testuali, segnando un'evoluzione significativa nell'interazione tra intelligenza artificiale e design. L'annuncio coincide con il lancio di Canva AI 2.0, che introduce funzionalità avanzate di design conversazionale e orchestrazione agentica.
Anthropic Labs ha annunciato Claude Design, un nuovo strumento che promette di ridefinire l'interazione con l'intelligenza artificiale nel campo della progettazione. Per le aziende che considerano deployment self-hosted, questa novità solleva interrogativi cruciali su requisiti hardware, gestione dei dati e sovranità. L'integrazione di soluzioni AI avanzate on-premise richiede un'attenta valutazione del TCO e delle capacità infrastrutturali.
Anthropic ha lanciato Claude Design, un nuovo strumento pensato per facilitare la creazione di contenuti visivi rapidi. Il prodotto si rivolge a figure come founder e product manager, privi di competenze specifiche nel design, con l'obiettivo di semplificare la condivisione delle loro idee attraverso elementi grafici intuitivi e veloci da generare, democratizzando l'accesso a capacità di design di base.
DeepL, azienda di Colonia nota per i suoi strumenti di traduzione testuale, ha presentato una suite completa per la traduzione vocale in tempo reale, supportando oltre 40 lingue. La soluzione include funzionalità per riunioni e conversazioni, oltre a un'API per l'integrazione aziendale. Una demo ha evidenziato ritardi minimi, ma le sfide legate all'ordine delle parole persistono.
OpenAI ha lanciato GPT-Rosalind, il suo primo modello di linguaggio di grandi dimensioni (LLM) specifico per un dominio. Progettato per la scoperta di farmaci e la ricerca nelle scienze della vita, è stato sottoposto a Fine-tuning per biochimica, genomica e ingegneria delle proteine. L'accesso è limitato a un programma di fiducia per clienti aziendali selezionati, tra cui Amgen e Moderna, evidenziando l'approccio mirato di OpenAI al settore.