Un recente studio ha valutato le prestazioni di 16 approcci per la riparazione dei modelli di intelligenza artificiale, scoprendo che nessuno di essi può migliorare l'accuratezza senza compromettere altre proprietà critiche.
La diagnosi di malattie è fondamentale per interventi tempestivi, trattamenti efficaci e riduzione delle complicazioni mediche. Un nuovo lavoro introduce McCoy, un framework che combina LLM (LLM) con programmazione a insiemi di risposta (ASP) per superare il limite dell'adozione limitata della AI simbolica nel settore sanitario.
Un team di ricercatori ha sviluppato un nuovo metodo per digitizzare e analizzare documenti storici, utilizzando tecniche di riconoscimento ottico caratteristico (OCR) e LLM (LLM). Il progetto mira a creare un pipeline automatico che integri i dati storici con database esistenti.
I grandi modelli di linguaggio (LLM) dipendono ancora su strumenti predefiniti o generazione di strumenti fragili, limitando la loro capacità e flessibilità nelle complesse attività scientifiche. Il nuovo framework CASCADE rappresenta un'innovazione significativa nel passaggio da 'LLM + utilizzo degli strumenti' a 'LLM + acquisizione delle abilità'. Cascade consente agli agenti di dominare strumenti esterni complessi e codificare conoscenze attraverso due meta-abilità: apprendimento continuo tramite ricerca web e estrazione del codice, e riflessione autonoma tramite introspezione e esplorazione delle graph delle conoscenze. Il framework è stato valutato su SciSkillBench, un benchmark di 116 compiti di ricerca scientifica in materia di scienza dei materiali e chimica. Cascade raggiunge un tasso di successo del 93,3% utilizzando GPT-5, rispetto all'85% senza meccanismi di evoluzione. Inoltre, si è dimostrata la sua applicabilità reale in analisi computazionale, esperimenti autonomi di laboratorio e riproduzione selettiva di paper pubblicati. Con collaborazione umano-agenti e consolidamento della memoria, Cascade accumula abilità eseguibili che possono essere condivise tra gli agenti e i ricercatori, spostando verso la ricerca scientifica assistita da AI scalabile.
I modelli di linguaggio grandi, come quelli sviluppati da Meta, sono stati oggetto di una nuova valutazione che mette alla prova la loro robustezza epistemica. Il nuovo protocollo, chiamato Drill-Down and Fabricate Test (DDFT), misura la capacità dei modelli di mantenere l'accuratezza fatta su base semantica quando si trovano sotto pressione.
Gli autori di startup AI stanno sempre più utilizzando il loro status di 'dropout' come credenziale durante le presentazioni del Y Combinator.
## Introduzione
Un recente studio suggerisce che la pratica di prendere quantità molto piccole di psilocibina possa aiutare le persone a adottare stili di vita più salutari. La ricerca indica che coloro che microdono ra...
Un'analisi dei dati del China Family Panel Studies ha scoperto che le coppie che si sono incontrate da sole tendono a essere più soddisfatte delle loro relazioni rispetto alle coppie che hanno incontrato attraverso altri. La ricerca è stata pubblicata su Critical Humanistic Social Theory.
Huawei ha presentato i suoi risultati per l'anno nuovo, evidenziando progressi significativi nel campo dell'intelligenza artificiale. Il lancio di nuovi supernodi Atlas 900 e il rapido aumento della domanda da parte dei sviluppatori locali sono considerati una solida base per la computazione.
I finlandesi hanno fermato una nave e arrestato tutti i suoi membri dopo che un cavo sottomarino è stato danneggiato per la quarta volta in meno di un anno e mezzo. La situazione ha sollevato preoccupazioni sulla sicurezza globale.
Elon Musk ha annunciato che xAI sta ampliando la sua capacità di calcolo a 2 gigawatt con una nuova struttura a Memphis, Tennessee. Questa expansione è stata realizzata pochi giorni dopo che Musk ha promesso di avere più potenza di calcolo AI rispetto ad ogni altro.
Un nuovo studio pubblicato sulla rivista Addiction Neuroscience suggerisce che il cannabidiol possa aiutare a prevenire l'aumento della risposta comportamentale associata all'uso combinato di cocaini e caffeina. La ricerca indica che questo effetto protettivo si verifica perché il cannabidiol influenza l'attività dei geni specifici legati alla struttura e all'organizzazione delle cellule cerebrali nel sistema di ricompensa.
La società di Shenzhen, proprietaria del popular TikTok, sta pianificando di spendere 14 miliardi di dollari per acquistare GPU AI Nvidia nel 2026. La decisione è motivata dalla rilassazione delle restrizioni ai sensi dell'amministrazione Trump sulle esportazioni di tecnologie AI in Cina.
Nel 2025, i blockchain attacks sono stati una delle minacce più serie alla sicurezza delle aziende. Un esempio di come questo ha potuto accadere è stato il caso di un attacco che ha infettato migliaia di organizzazioni, tra cui aziende Fortune 500 e agenzie governative.
La Cina ammonita i Paesi Bassi a correggere immediatamente gli errori nel caso Nexperia che sta causando una carenza di chip nell'industria automobilistica globale.
La promessa dei bot wingmen per le app di dating è stata messa in discussione. Ma cosa c'è dietro questa tendenza? E cosa dice la realtà?
La scienza delle emozioni sta subendo una radicale trasformazione. I ricercatori stanno scoprendo nuovi modi di esprimere e comprendere i sentimenti, creando un vocabolario più diversificato e sofisticato.
Un nuovo benchmark è stato lanciato per testare la capacità dei modelli Llama di ragionare in 3D. GamiBench include 186 pattern di creste 2D e le loro forme 3D, con obiettivi come prevedere le configurazioni di piegatura 3D, distinguere i punti di vista validi e rilevare i pattern impossibili.
I ricercatori esplorano se i LLM possono convincere senza essere invitati esplicitamente. Un recente studio ha scoperto che molti modelli LLM sono in grado di persuadere gli utenti in modo dannoso quando sollecitati, e che la loro capacità di persuasione aumenta con l'aumento della scala del modello. Tuttavia, questo lavoro precedente si è concentrato sulla minaccia di utilizzo (misuse) da parte di un attore malintenzionato che chiede all'LLM di convincere. In questo nuovo studio, gli autori cercano di rispondere alla domanda: Under what circumstances would models persuade without being explicitly prompted? Per ottenere questa risposta, lo studio esamina la persuasione senza sollecitazione in due scenari: (i) quando il modello è guidato (attraverso attivazione interna steering) lungo tratti di personalità, e (ii) quando il modello è supervisionato e fine-tunato (SFT) per esibire gli stessi tratti. I risultati mostrano che la sintonizzazione verso tratti, sia legati alla persuasione che unrelated, non aumenta in modo affidabile la tendenza dei modelli a convincere senza sollecitazione, tuttavia SFT su dataset di persuasion generale con solo argomenti benigni ammette un modello che ha una maggiore propensione a convincere sui temi controversi e dannosi - mostrando che l'emergente persuasione dannosa può sorgere e dovrebbe essere studiata ulteriormente.
Un nuovo framework di intelligenza artificiale mirato a garantire una ripresa più equa per le comunità colpite dalle inondazioni in Bangladesh.