BioACE è un nuovo framework automatizzato per la valutazione della qualità delle risposte generate da modelli linguistici di grandi dimensioni (LLM) in ambito biomedico. Il sistema verifica la correttezza delle risposte e delle citazioni, valutando completezza, precisione e accuratezza rispetto ai dati di riferimento.
Un nuovo studio esplora l'uso di modelli diffusivi per stimare distribuzioni di riferimento in neuroimaging, consentendo la derivazione di punteggi di deviazione clinicamente interpretabili. I modelli, basati su diverse architetture, sono stati valutati su benchmark sintetici e dati UK Biobank, dimostrando buone prestazioni nella modellazione della dipendenza multivariata.
Una pull request introduce il parallelismo tensoriale in Llama.cpp, aprendo la strada a inferenze più rapide e efficienti su modelli linguistici di grandi dimensioni. La comunità accoglie con favore questo sviluppo, che potrebbe migliorare significativamente le prestazioni su hardware distribuito.
OpenAI ha annunciato GPT-5.3-Codex, una nuova versione del suo modello di programmazione avanzato, accessibile tramite riga di comando, estensione IDE, interfaccia web e una nuova app desktop per macOS. Questo modello supera le versioni precedenti in benchmark come SWE-Bench Pro e Terminal-Bench 2.0, ampliando le sue applicazioni alla gestione di consegne, al debug e alla gestione dei risultati dei test.
Presentato GPT-5.3-Codex, un agente basato su Codex progettato per affrontare attività tecniche complesse nel mondo reale. Combina elevate prestazioni di programmazione con capacità di ragionamento generale per supportare progetti a lungo termine.
Meta ha sviluppato un sistema di inference per raccomandazioni basato su PyTorch, cruciale per tradurre la ricerca avanzata in servizi di produzione. L'articolo descrive il flusso di lavoro, dalla definizione del modello addestrato alle trasformazioni per l'inference, le ottimizzazioni e i requisiti per un server di inference ad alte prestazioni, con particolare attenzione all'utilizzo efficiente di GPU e runtime C++.
Google introduce un nuovo framework, denominato NAI (Natively Adaptive Interfaces), che sfrutta l'intelligenza artificiale per rendere la tecnicia più adattabile e inclusiva. L'obiettivo è migliorare l'esperienza utente per tutti, indipendentemente dalle loro capacità o esigenze specifiche.
Microsoft ha annunciato che l'affidabilità è la priorità per l'integrazione dell'intelligenza artificiale in Visual Studio. La decisione giunge in un momento in cui alcuni sviluppatori hanno espresso preoccupazioni riguardo alle prestazioni e ai comportamenti inattesi di Copilot.
Sono disponibili build precompilate non ufficiali di ik_llama.cpp per macOS, Ubuntu e Windows. Queste build semplificano l'adozione del progetto, evitando agli utenti la compilazione manuale. Il creatore incoraggia comunque l'uso della compilazione dal codice sorgente originale quando possibile.
Il governo britannico, in collaborazione con Microsoft, annuncia un framework per valutare le tecnicie di rilevamento dei deepfake, in risposta alla crescita esponenziale di contenuti generati dall'AI. Tuttavia, esperti del settore esprimono dubbi sull'efficacia reale di tale iniziativa nel fermare la proliferazione di falsi digitali.
OpenAI presenta Frontier, una piattaforma enterprise progettata per la creazione, il deployment e la gestione di agenti di intelligenza artificiale. Frontier offre funzionalità di contesto condiviso, onboarding, gestione dei permessi e governance centralizzata.
Segnalazioni di difficoltà di accesso alla piattaforma Hugging Face si sono diffuse online. Alcuni utenti riportano di non riuscire ad accedere, mentre altri affermano che i servizi principali rimangono operativi. La causa del problema e la sua estensione non sono ancora chiare.
Il team di vLLM ha presentato vLLM-Omni, un sistema progettato per modelli multimodali any-to-any che gestiscono testo, immagini, video e audio. L'architettura include la decomposizione del grafo basata su stage, il batching per stage e l'allocazione flessibile di GPU, con una riduzione del JCT fino al 91,4% testata con Qwen-Image-2512.
Disponibile la prima beta di Krita 6.0, la popolare applicazione di pittura digitale, basata sul toolkit Qt6. Contestualmente, è stata rilasciata anche la beta di Krita 5.3 per chi preferisce rimanere con Qt5. L'aggiornamento introduce miglioramenti nella gestione del colore e supporto Wayland.
Disponibile la versione 1.30 di Intel ISPC (Implicit SPMD Program Compiler), che introduce il supporto AMX (Advanced Matrix Extensions) nella libreria standard. ISPC è un linguaggio di programmazione derivato dal C, progettato per sfruttare al meglio le CPU e le GPU Intel.
Uno sviluppatore ha creato AnyTTS, un sistema che permette di usare qualsiasi motore di text-to-speech (TTS) con diverse interfacce di AI conversazionale, inclusi ChatGPT e modelli LLM locali. L'integrazione avviene tramite la clipboard, semplificando l'uso del TTS su varie piattaforme. Attualmente supporta solo Windows, ma il codice è aperto per adattamenti.
Un nuovo modello di deep learning reversibile utilizza una rete neurale invertibile condizionale per collegare strutture molecolari e spettri NMR 13C. La rete, basata su blocchi biettivi i-RevNet, permette la predizione dello spettro dalla struttura e, inversamente, la generazione di strutture candidate dallo spettro, affrontando la natura uno-a-molti dell'inference spettro-struttura.
Un nuovo studio esplora l'efficacia del framework Task-Method-Knowledge (TMK) per migliorare le capacità di ragionamento e pianificazione dei modelli linguistici di grandi dimensioni (LLM). I risultati mostrano che il prompting strutturato con TMK può aumentare significativamente l'accuratezza su compiti complessi, colmando il divario tra approssimazione semantica e manipolazione simbolica.
Uno sviluppatore ha creato Codag, un'estensione open source per VSCode che visualizza i workflow degli LLM direttamente nell'ambiente di sviluppo. Supporta diversi framework come OpenAI, Anthropic, Gemini, LangChain, LangGraph e CrewAI, oltre a vari linguaggi di programmazione.
Un utente ha sostituito il backend di Claude-Code con modelli NVIDIA NIM, sfruttando un'API gratuita per inference LLM. La modifica include l'uso di Telegram come interfaccia e preserva i token di ragionamento tra le chiamate agli strumenti, migliorando le prestazioni con modelli come GLM 4.7 e Kimi-K2.5. Il codice è modulare, facilitando l'integrazione di altri provider e app di messaggistica.