VideoLAN ha reso disponibile dav2d, un decoder AV2 open source, frutto di mesi di sviluppo. Il rilascio precede la finalizzazione della specifica AV2 da parte della Alliance For Open Media, attualmente ancora in fase di bozza. Questa iniziativa sottolinea l'importanza delle soluzioni aperte per l'infrastruttura multimediale e offre un vantaggio per i deployment self-hosted.
La ricerca evidenzia come l'AI diagnostica medica, pur accurata, fatichi nell'adozione clinica per via di bias e scarsa integrazione. Il framework PecMan propone un approccio centrato sull'uomo, ottimizzando equità, accuratezza e efficacia del workflow. Utilizza un meccanismo di gating dinamico per assegnare i casi a AI, clinici o entrambi, considerando il carico di lavoro. Il benchmark FairHAI dimostra che PecMan supera i metodi esistenti, aprendo la strada a sistemi AI più affidabili e clinicamente validi.
Un nuovo framework, LAM-PINN, affronta l'eterogeneità dei compiti nelle Physics-informed neural networks (PINN) per la risoluzione di equazioni differenziali parziali. Sfruttando un approccio modulare e il meta-apprendimento compositivo, LAM-PINN riduce l'errore quadratico medio di quasi 20 volte e le iterazioni di addestramento del 90% rispetto ai metodi convenzionali. Questa innovazione promette maggiore efficienza e generalizzazione in contesti ingegneristici con risorse limitate.
Il team di Zed, composto da ex membri di Atom, ha rilasciato la versione 1.0 del suo editor di codice basato su Rust. La novità include funzionalità AI integrate, ma offre anche un'opzione per disabilitarle completamente, rispondendo alle esigenze degli sviluppatori che preferiscono un ambiente di codifica tradizionale e focalizzato sulla privacy e sul controllo dei dati.
Goodfire ha rilasciato Silico, un nuovo strumento di interpretazione meccanicistica che consente a ricercatori e ingegneri di analizzare e regolare i parametri degli LLM durante l'addestramento. L'obiettivo è trasformare lo sviluppo di modelli da “alchimia” a “scienza”, offrendo un controllo granulare. Silico permette di identificare e modificare comportamenti indesiderati, come le allucinazioni, rendendo le tecniche avanzate accessibili anche a team più piccoli che lavorano con modelli Open Source.
Il progetto `llama-swap` ha rilasciato la funzionalità "matrix", che rivoluziona la gestione dei Large Language Models (LLM) e altri modelli in esecuzione concorrente. Superando le precedenti limitazioni, Matrix permette di definire combinazioni flessibili di modelli e ottimizza l'utilizzo delle risorse hardware scaricando intelligentemente i modelli in base a costi configurabili. Questa innovazione è cruciale per i deployment on-premise, dove l'efficienza nell'allocazione delle risorse GPU è fondamentale per il Total Cost of Ownership (TCO).
DeepSeek, in collaborazione con l'Università di Pechino e l'Università di Tsinghua, ha rilasciato un nuovo framework di ragionamento multimodale chiamato "Thinking with Visual Primitives". Questo approccio innovativo integra token spaziali, come punti coordinati e bounding box, direttamente nel processo di ragionamento del modello, permettendogli di riferirsi a specifiche aree di un'immagine durante l'elaborazione. Il progetto è accompagnato da un paper e un repository Open Source.
Un nuovo framework iterativo basato sull'energia delle equazioni differenziali parziali (PDE) promette soluzioni più efficienti e stabili. Questo approccio innovativo evita le tradizionali discretizzazioni matriciali e il costoso training dei modelli basati su apprendimento, evolvendo campi iniziali casuali tramite iterazioni di diffusione fisicamente vincolate. I risultati dimostrano convergenza stabile e precisione, offrendo un'alternativa flessibile e scalabile per applicazioni di ricerca e ingegneria, con implicazioni positive per il TCO in contesti on-premise.
Un nuovo studio propone un framework di machine learning multimodale per classificare la frazione di eiezione ventricolare sinistra (LVEF) da eletrocardiogrammi (ECG) e dati clinici. Il modello, basato su XGBoost, combina caratteristiche ECG e variabili EHR per identificare quattro classi di LVEF, superando i modelli basati su singole fonti. L'approccio mira a migliorare lo screening e il triage in contesti con risorse limitate, offrendo anche spiegabilità tramite SHAP.
Un nuovo framework, Distill-Belief, affronta le sfide della localizzazione e caratterizzazione inversa di sorgenti (ISLC) in ambienti fisici. Progettato per agenti mobili con vincoli temporali, il sistema risolve il dilemma tra l'accuratezza dell'inference bayesiana, computazionalmente costosa, e l'efficienza dei modelli appresi, che possono portare a "reward hacking". Distill-Belief impiega un'architettura teacher-student per garantire precisione e costi operativi costanti in fase di deployment.
L'API OpenCL sta integrando estensioni Cooperative Matrix, una mossa che segue l'introduzione di funzionalità simili in Vulkan nel 2023. Queste estensioni sono progettate per ottimizzare le operazioni di Inference di machine learning e intelligenza artificiale, offrendo nuove opportunità per l'accelerazione hardware e il deployment on-premise di carichi di lavoro AI, migliorando l'efficienza e il TCO.
AutoSP, una soluzione basata su compilatore, automatizza l'implementazione della Sequence Parallelism (SP) per il training di Large Language Models (LLM) con contesti lunghi. Integrato in DeepSpeed, risolve i problemi di memoria (OOM) e la complessità associata alla gestione di token oltre i 100k su configurazioni multi-GPU. Questo approccio consente di estendere la lunghezza massima del contesto addestrabile con un impatto minimo sulle performance, semplificando lo sviluppo per i team che operano su infrastrutture self-hosted.
Qwen ha introdotto FlashQLA, un set di kernel di attenzione lineare ad alte prestazioni basato su TileLang. Progettato per l'AI agentica su dispositivi personali, FlashQLA promette un aumento della velocità di 2-3 volte per il forward pass e di 2 volte per il backward pass. La soluzione mira a migliorare l'utilizzo degli SM e l'efficienza per modelli di piccole dimensioni e carichi di lavoro a lungo contesto, specialmente in scenari di deployment on-premise ed edge.
Hipfire è un nuovo motore di inference progettato per ottimizzare le prestazioni dei Large Language Models (LLM) su tutte le GPU AMD. Utilizza una metodologia di quantization `mq4` e, secondo il sito di benchmarking Localmaxxing, offre notevoli accelerazioni nell'inference. Sebbene non sia un progetto ufficiale di AMD, Hipfire rappresenta un'alternativa open source rilevante per i deployment self-hosted, offrendo nuove opportunità per bilanciare costi e controllo nei carichi di lavoro AI.
Un nuovo framework, GCA-BULF, migliora significativamente la previsione del carico energetico a breve termine (STLF) per edifici residenziali e uffici. Affrontando i limiti dei metodi tradizionali, GCA-BULF si concentra su un sottoinsieme di "apparecchi critici" raggruppati, riducendo i costi di monitoraggio e aumentando l'accuratezza. I risultati mostrano miglioramenti fino al 92,48% rispetto ai metodi esistenti, supportando strategie di gestione energetica più resilienti ed efficienti.
AMD ha rilasciato la versione 10.3 del suo SDK Lemonade, un server AI locale open source. L'aggiornamento riduce le dimensioni del pacchetto di dieci volte grazie all'eliminazione di Electron, rendendolo più efficiente per i deployment on-premise. Lemonade supporta CPU, GPU e NPU AMD su sistemi Windows e Linux, offrendo una soluzione versatile per l'inference AI in ambienti controllati.
Kong Inc. ha lanciato Agent Gateway, una soluzione progettata per affrontare le crescenti complessità della gestione dell'AI agentica in ambito aziendale. Con l'evoluzione dei sistemi multi-agente che comunicano tramite protocolli come A2A, le imprese affrontano sfide significative in termini di visibilità, controllo, costi e conformità. Il nuovo gateway offre un punto di controllo unificato per l'intero ciclo di vita dell'AI, garantendo osservabilità, sicurezza e aderenza alle normative sulla sovranità dei dati, particolarmente critiche per le organizzazioni nell'area APAC.
La versione stabile GCC 16.1, attesa a breve, introduce significative migliorie al compilatore open source. Tra le novità spiccano i messaggi di errore potenziati e l'integrazione di un'opzione sperimentale per l'output in formato HTML. Questi aggiornamenti mirano a ottimizzare l'esperienza degli sviluppatori, facilitando il debugging e l'analisi del codice in un'ampia gamma di contesti di sviluppo.
Symphony è una specifica open source progettata per l'orchestrazione di sistemi basati su Codex, trasformando i tradizionali sistemi di tracciamento delle problematiche in agenti intelligenti sempre attivi. Questo approccio mira a ottimizzare la produttività dei team di engineering, riducendo significativamente il cambio di contesto e facilitando una gestione più fluida dei flussi di lavoro complessi. La sua natura open source ne promuove l'adozione e la personalizzazione.
Un webinar esplora le metodologie di modellazione e simulazione per i sistemi energetici, coprendo diverse scale temporali, dall'analisi quasi-statica 8760 agli studi EMT. Vengono approfondite la costruzione programmatica di reti, la modellazione multi-fedeltà, l'analisi dei guasti con classificazione tramite machine learning e l'integrazione di risorse basate su inverter (IBR) nella rete, offrendo una panoramica completa sulle sfide attuali e future del settore.