La ricerca analizza il decoding di LLM vincolato da grammatiche, dimostrando che grammatiche equivalenti possono avere costi computazionali diversi. Introduce una metrica per misurare la crescita dell'ambiguità strutturale e stabilisce limiti inferiori per l'efficienza del masking online. Integra i risultati con architetture Transformer e Mixture-of-Experts, collegando i costi di ambiguità a modelli predittivi di performance.
Aletheia è una nuova estensione per browser che utilizza modelli linguistici di grandi dimensioni (LLM) e Retrieval-Augmented Generation (RAG) per identificare notizie false. Include un hub di discussione e una sezione di fact-checking, con test che ne dimostrano l'efficacia e usabilità.
Un nuovo approccio per l'imaging medico basato su agenti AI che apprendono e si adattano autonomamente. MACRO, il sistema proposto, evolve dinamicamente le proprie capacità combinando strumenti specializzati e sequenze operative, migliorando l'accuratezza diagnostica e la generalizzazione cross-domain con minima supervisione.
Una nuova ricerca rivela che i modelli di ragionamento AI faticano a controllare le proprie 'catene di pensiero' (Chain-of-Thought, CoT). La capacità di manipolare il CoT è bassa, specialmente rispetto al controllo sull'output finale. Questo studio esplora la 'controllabilità CoT' e le sue implicazioni per il monitoraggio dei modelli.
L'utilizzo di modelli linguistici di grandi dimensioni (LLM) per riscrivere porzioni significative di codice e pubblicarle con licenze differenti sta sollevando preoccupazioni nella comunità open source. Un recente caso ha visto un progetto Python riscritto tramite AI e ripubblicato con una licenza non compatibile con l'originale.
OpenAI ha nuovamente posticipato il lancio della funzionalità 'modalità adulta' di ChatGPT, che avrebbe dovuto essere disponibile da dicembre. Questa modalità consentirebbe agli utenti adulti verificati di accedere a contenuti espliciti.
Un sistema di intelligenza artificiale chiamato DeepRare, integrando 40 strumenti specializzati, ha superato medici specialisti nell'identificare condizioni mediche rare. Lo studio, pubblicato su Nature, evidenzia come l'IA possa accelerare la diagnosi per milioni di pazienti che affrontano un percorso lungo e complesso.
SpeciesNet è un modello di intelligenza artificiale open-source progettato per supportare la conservazione della fauna selvatica a livello globale. Il progetto mira a fornire strumenti accessibili per il monitoraggio e la protezione delle specie animali.
Descript sfrutta i modelli di OpenAI per scalare il doppiaggio multilingue di video. L'azienda ottimizza le traduzioni sia per il significato che per la sincronizzazione, garantendo un parlato doppiato naturale in diverse lingue. Questo approccio automatizzato promette di ridurre significativamente i tempi e i costi associati alla localizzazione di contenuti video.
Un utente ha testato Qwen-35B con una immagine di bassa qualità, chiedendo al modello di identificare un anello. Il modello ha non solo individuato la posizione esatta, ma ha anche utilizzato il terminale Linux per cerchiare l'area. La velocità di elaborazione è notevole, raggiungendo i 100tk/s su una GPU consumer (3090).
La messa a punto di modelli linguistici con dati dannosi genera un disallineamento emergente. La ricerca mostra che i trigger semantici inducono spontaneamente la compartimentazione, creando vulnerabilità sfruttabili anche senza dati benigni di contrasto. Questo evidenzia un problema di sicurezza critico nell'affinamento di LLM.
Un nuovo approccio di reinforcement learning (RL) per migliorare i modelli RAG (Retrieval-Augmented Generation). CTRL-RAG utilizza un sistema di reward ibrido interno-esterno, ottimizzando la verosimiglianza delle risposte basate sul contesto. L'obiettivo è aumentare la fedeltà e la pertinenza delle consegne, riducendo le allucinazioni nei modelli.
Un post su Reddit evidenzia i progressi compiuti nel campo dei modelli linguistici di grandi dimensioni (LLM). Qwen3.5B, un modello relativamente recente, mostra prestazioni significativamente superiori rispetto ai modelli di dimensioni simili disponibili solo due anni fa. Questo progresso apre nuove possibilità per l'utilizzo di LLM in locale, rendendo accessibili capacità prima impensabili.
Disponibili nuove versioni non censurate dei modelli Qwen3.5, con varianti da 27B e 2B parametri. La versione da 27B offre un contesto di 262K token ed è completamente funzionante, mentre la versione da 2B è pensata come proof of concept. Entrambe includono file mmproj per il supporto della visione artificiale.
Un commento sull'accuratezza predittiva di Grok in relazione al conflitto USA-Israele, confrontandola con le scelte di deployment del modello Claude. L'articolo analizza le implicazioni delle diverse architetture e approcci di addestramento dei due modelli.
Una nuova tecnica di training basata sull'iniezione di coppie di dati contrastivi in piccole dosi (0.05%) durante il pre-training sembra migliorare significativamente la resistenza ai bias e alla sicosi nei modelli linguistici di dimensioni ridotte (7M parametri). I risultati mostrano performance paragonabili a modelli molto più grandi.
OpenAI presenta l'integrazione di ChatGPT con Excel e nuove applicazioni finanziarie, potenziata da GPT-5.4. L'obiettivo è accelerare la modellazione, la ricerca e l'analisi, specialmente in ambienti regolamentati.
Luma ha presentato Luma Agents, basati sui nuovi modelli di "Unified Intelligence". Questi agenti sono progettati per coordinare sistemi AI multipli e generare lavoro creativo end-to-end attraverso testo, immagini, video e audio. L'obiettivo è automatizzare e semplificare i processi creativi.
OpenAI ha annunciato GPT-5.4, un nuovo modello di frontiera progettato per applicazioni professionali. Il modello vanta capacità avanzate di sviluppo, utilizzo del computer e ricerca di strumenti, oltre a una finestra di contesto di 1 milione di token, promettendo efficienza e precisione superiori.
OpenAI ha annunciato GPT-5.4, descrivendolo come il suo modello di frontiera più efficiente e performante per applicazioni professionali. La nuova versione punta a migliorare le consegne in ambito lavorativo, offrendo capacità avanzate di ragionamento e comprensione.