Un nuovo framework, KARL, sfrutta il Reinforcement Learning per mitigare le allucinazioni negli LLM. Introducendo un sistema di ricompensa dinamico e una strategia di training a due stadi, KARL permette ai modelli di astenersi dalle risposte incerte, migliorando l'accuratezza e riducendo le inesattezze. Questo approccio innovativo offre un compromesso superiore tra affidabilità e performance, cruciale per l'adozione degli LLM in contesti aziendali sensibili.
Una ricerca approfondita esplora le dinamiche spettrali delle matrici di peso durante il pretraining dei Transformer, rivelando tre fenomeni chiave: onde di compressione transitorie, gradienti spettrali persistenti e asimmetria funzionale Q/K-V. Questi studi offrono una comprensione più profonda del processo di apprendimento e aprono nuove prospettive per l'ottimizzazione degli LLM, in particolare attraverso tecniche di pruning guidate dalla struttura spettrale, con impatti significativi sull'efficienza.
PExA è un nuovo agente basato su LLM che affronta il compromesso tra latenza e performance nella generazione Text-to-SQL. Riformulando il problema come copertura di test software, PExA esegue query SQL atomiche in parallelo per garantire la copertura semantica. Questo approccio ha permesso di raggiungere un nuovo stato dell'arte sul benchmark Spider 2.0, con un'accuratezza di esecuzione del 70.2%.
L'adozione diffusa di strumenti di intelligenza artificiale generativa come ChatGPT e Claude ha innescato un'impennata nei casi legali pro se, dove i cittadini si rappresentano senza avvocato. Una ricerca preliminare evidenzia come questi casi siano più complessi e numerosi, generando un sovraccarico per il sistema giudiziario statunitense. Se da un lato l'IA democratizza l'accesso alla giustizia, dall'altro solleva interrogativi sulla capacità dei tribunali di gestire l'aumento del carico di lavoro.
Una teoria cospirativa virale su X ha ipotizzato che un'AI superintelligente e viaggiatrice nel tempo avesse tentato di avvertire su un attacco. L'indagine rivela che l'immagine chiave è una stock photo e l'organizzazione 'Time Machine' si occupa di digitalizzazione storica, non di viaggi temporali. Il caso evidenzia la rapida diffusione della disinformazione online e le sfide nella verifica delle fonti.
Ineffable Intelligence, il nuovo laboratorio AI fondato dall'ex ricercatore DeepMind David Silver, ha raccolto 1,1 miliardi di dollari. L'obiettivo è sviluppare un'intelligenza artificiale capace di apprendere autonomamente, senza dipendere da vasti dataset di dati umani. Questa visione potrebbe ridefinire le strategie di deployment on-premise, offrendo nuove prospettive per la sovranità dei dati e la riduzione del TCO.
Una ricerca congiunta di Stanford, Imperial College London e Internet Archive ha rivelato che circa un terzo dei siti web creati dal 2022 è generato o assistito dall'AI. Lo studio, che ha analizzato l'evoluzione del web dopo il lancio di ChatGPT, evidenzia come il contenuto AI tenda a essere più positivo e meno semanticamente denso, pur non mostrando un aumento di disinformazione verificabile o una carenza di citazioni.
Ineffable Intelligence, una nuova startup fondata da David Silver di DeepMind, ha fatto il suo debutto con un round di finanziamento Seed da 1,1 miliardi di dollari, il più grande mai registrato in Europa, raggiungendo una valutazione di 5,1 miliardi di dollari. L'azienda mira a sviluppare una "superintelligenza" attraverso il Reinforcement Learning, creando un "superlearner" capace di acquisire conoscenze senza dipendere da dati umani.
David Silver, figura chiave dietro AlphaGo, ha fondato una nuova azienda valutata un miliardo di dollari. L'obiettivo è sviluppare "superlearners" AI, suggerendo un cambio di rotta rispetto all'attuale paradigma di sviluppo dell'intelligenza artificiale, che a suo dire sta prendendo la direzione sbagliata.
Google e Kaggle hanno riaperto le iscrizioni per il loro corso intensivo di cinque giorni dedicato agli AI Agents. L'iniziativa mira a fornire competenze pratiche sullo sviluppo e il deployment di sistemi basati su Large Language Models, un tema cruciale per le aziende che valutano soluzioni on-premise e la sovranità dei dati.
L'Institute for Engineering Health della NYU sta rivoluzionando la ricerca sanitaria, abbandonando i silos disciplinari per affrontare le malattie in modo integrato. Riunendo esperti di ingegneria, biologia computazionale e AI, l'istituto mira a sviluppare soluzioni innovative, passando dall'inibizione di singole molecole alla promozione di risposte sistemiche. L'AI è vista come un acceleratore cruciale, sebbene richieda lo sviluppo di nuovi framework computazionali per gestire la complessità biologica.
Anthropic ha introdotto Mythos, un modello di sicurezza basato su AI per l'identificazione di vulnerabilità nel codice. Tuttavia, l'analisi suggerisce che le sue capacità attuali sono limitate a ciò che è stato addestrato a riconoscere, sollevando interrogativi sulla sua reale autonomia e profondità di analisi. L'articolo esplora le implicazioni di questa dipendenza dai dati di training e il contesto di deployment per le organizzazioni.
DeepSeek sta ridefinendo il panorama competitivo dell'intelligenza artificiale, spostando il focus dalla mera grandezza dei modelli all'efficienza operativa. Questo approccio ha implicazioni significative per le aziende che valutano deployment on-premise, dove l'ottimizzazione delle risorse hardware e il TCO diventano fattori decisivi per l'adozione di Large Language Models.
La variabilità delle risposte degli LLM in base al prompt è una sfida nota. Una nuova ricerca svela che, nonostante le differenze di performance, i modelli attivano meccanismi interni comuni. L'analisi ha identificato "lexical task heads", unità di attenzione che descrivono il compito e sono condivise tra stili di prompting diversi. La loro attivazione spiega le variazioni comportamentali e i fallimenti, offrendo una comprensione più chiara del funzionamento interno degli LLM.
Uno studio recente evidenzia come i Large Language Models (LLM), addestrati prevalentemente su corpora occidentali, fatichino a identificare la disinformazione sanitaria culturalmente radicata. Analizzando contenuti su YouTube relativi al 'gomutra' in India, la ricerca dimostra che il mix di linguaggio tradizionale e affermazioni pseudo-scientifiche, unito a retoriche di genere, rende inefficace il solo prompt engineering per garantire la competenza culturale necessaria all'analisi.
Un nuovo benchmark, "Math Takes Two", mira a distinguere la vera logica matematica negli LLM dal semplice riconoscimento di pattern statistici. Progettato per testare la capacità di due agenti di sviluppare un protocollo simbolico condiviso senza conoscenze matematiche pregresse, il sistema valuta l'emergere del ragionamento numerico in compiti visivamente contestualizzati, dove la scoperta di strutture latenti è fondamentale.
Anthropic ha condotto un esperimento innovativo, creando un marketplace dove agenti AI hanno agito come acquirenti e venditori, concludendo transazioni autentiche per beni e denaro reali. L'iniziativa esplora le capacità degli agenti autonomi e solleva interrogativi sulle implicazioni per i deployment aziendali, la sovranità dei dati e il Total Cost of Ownership (TCO).
DeepSeek ha presentato V4, un nuovo Large Language Model a pesi aperti che promette prestazioni elevate e una significativa riduzione dei costi di inference. Il modello si distingue per il supporto esteso alla famiglia di acceleratori AI Ascend di Huawei, offrendo nuove opportunità per deployment on-premise e per chi cerca soluzioni efficienti e controllate.
DeepSeek ha annunciato l'anteprima di nuovi Large Language Models (LLM) che, grazie a miglioramenti architetturali, superano DeepSeek V3.2 in efficienza e performance. L'azienda dichiara che questi modelli hanno quasi raggiunto le capacità dei principali LLM attuali, sia open source che proprietari, in particolare sui benchmark di ragionamento. Questo sviluppo è rilevante per le organizzazioni che valutano l'adozione di soluzioni AI con performance elevate e ottimizzate per il deployment.
DeepSeek, startup di Hangzhou, ha rilasciato le versioni di anteprima dei suoi nuovi LLM, V4-Pro e V4-Flash, disponibili su Hugging Face. Il modello V4-Pro si distingue per le prestazioni superiori in ambito di programmazione e matematica tra i modelli Open Source, e si posiziona subito dietro a Gemini 3.1-Pro per la conoscenza generale, con un divario stimato di pochi mesi rispetto ai top di gamma. Entrambi i modelli sono Open Source.