Intel ha aggiornato LLM-Scaler-vLLM, un'iniziativa open source nata dal Project Battlematrix. Questo strumento, basato su Docker, facilita la distribuzione di carichi di lavoro di intelligenza artificiale generativa (GenAI) su schede grafiche Intel Battlemage. I miglioramenti continui ampliano il supporto a un numero sempre maggiore di modelli linguistici di grandi dimensioni (LLM).
È disponibile la versione 0.3.31 di OpenBLAS, una libreria open-source ottimizzata per Basic Linear Algebra Subprograms (BLAS). Questa release introduce nuove estensioni e miglioramenti significativi per architetture RISC-V e ARM64, offrendo prestazioni superiori per applicazioni che richiedono calcoli matematici intensivi. OpenBLAS continua a essere una scelta popolare per chi cerca una libreria BLAS ad alte prestazioni.
Un nuovo studio introduce un framework differenziabile che incorpora la struttura assiomatica dei modelli di utilità casuale (RUM) direttamente nelle reti neurali profonde. Il sistema utilizza un solutore Tree-Preconditioned Conjugate Gradient per una convergenza superlineare, superando i limiti dei metodi basati su penalità e consentendo modelli addestrabili, razionali e generalizzabili.
Anthropic ha presentato Cowork, una nuova funzionalità integrata nell'app desktop di Claude. Cowork permette agli utenti di designare cartelle specifiche dove Claude può leggere o modificare file, ricevendo istruzioni tramite la consueta interfaccia di chat. L'obiettivo è semplificare lo sviluppo di codice, rendendolo accessibile anche a chi non ha competenze di programmazione.
Un nuovo framework, chiamato MoEBlaze, promette di ottimizzare il training dei modelli Mixture-of-Experts (MoE) su GPU. Affrontando i problemi legati all'eccessivo consumo di memoria e ai colli di bottiglia, MoEBlaze offre un approccio di co-design che include un metodo di dispatch dei token end-to-end e kernel ottimizzati. I risultati preliminari mostrano un incremento di velocità di 4x e un risparmio di memoria del 50% rispetto alle soluzioni esistenti.
Un nuovo framework basato su grafi di conoscenza matematica e modelli linguistici di grandi dimensioni (LLM) promette di migliorare l'affidabilità delle previsioni nella manifattura additiva. Il sistema integra ontologie formali per estrarre conoscenza da fonti non strutturate, generando equazioni fisicamente plausibili e valutando l'affidabilità delle estrapolazioni. Questo approccio mira a superare i limiti degli attuali metodi data-driven.
Meta ha rilasciato TorchForge, una libreria PyTorch-native per semplificare il reinforcement learning (RL) su larga scala nei modelli linguistici di grandi dimensioni (LLM). In collaborazione con Stanford e CoreWeave, TorchForge è stato testato su un cluster di 512 GPU, utilizzando Weaver per la verifica. I risultati mostrano una configurazione semplificata, un training stabile e un percorso chiaro dall'idea all'esperimento, con miglioramenti significativi nelle prestazioni su compiti di ragionamento complessi.
Un nuovo studio introduce un approccio bio-ispirato per ottimizzare l'efficienza energetica nell'inferenza di modelli di intelligenza artificiale. Il framework, basato su NVIDIA Triton e FastAPI, regola l'esecuzione in base al rapporto tra utilità attesa e consumo energetico, riducendo i tempi di elaborazione con una minima perdita di accuratezza. I risultati offrono una base pratica per un'inferenza energy-aware in produzione.
Il compilatore Triton mira a generare codice e runtime portabili tra diversi hardware per i kernel di intelligenza artificiale. La specializzazione warp è una tecnica chiave per migliorare le prestazioni dei kernel sulle GPU, creando percorsi di codice specializzati per ogni warp. Meta sta sviluppando attivamente questa funzionalità in Triton, con l'obiettivo di consentire agli sviluppatori di concentrarsi sulle ottimizzazioni algoritmiche senza doversi preoccupare dei dettagli di basso livello.
La sicurezza delle immagini container è cruciale per le moderne applicazioni. Echo, Google Distroless e Ubuntu Containers offrono approcci diversi per ridurre le vulnerabilità e migliorare l'affidabilità. La scelta dipende dalle esigenze specifiche dell'organizzazione, considerando fattori come la gestione delle vulnerabilità, la completezza e la compatibilità dell'ecosistema.
Un nuovo framework di deep learning geometrico, chiamato IM-PINN, promette di risolvere equazioni differenziali parziali su varietà riemanniane complesse senza l'uso di mesh. Il sistema si basa su reti neurali e mira a superare le limitazioni dei metodi tradizionali, offrendo maggiore accuratezza e efficienza nel calcolo.
La società Plaud ha lanciato una nuova app che registra le riunioni online e offre un'esperienza utente più completa.
Un nuovo framework è stato introdotto per valutare l'interazione tra accuratezza e consistenza dei LLM (LLM) sotto variazioni di input controllate, utilizzando benchmark multi-selezione come caso di studio. Il framework propone una metrica globale che combina la curva della consrensibilità-accuratezza per quantificare il trade-off tra accuratezza e consistenza.
La ricerca personalizzata richiede l'abilità di modellare le esigenze informative evolutive e multi-dimensionali degli utenti; una sfida per i sistemi limitati da profili statici o pipeline di rilevamento monolitici. Presentiamo SPARK, un framework in cui agenti persona-based LLM coordinati consegnano la rilevazione task-specifica e personalizzazione emergente.
L'azienda tecnologica Nvidia ha lanciato una nuova tecnologia chiamata CUDA Tile, che consente di sviluppare programmi per accelerare i modelli di intelligenza artificiale in modo più efficiente. Questa innovazione si integra con il modello di esecuzione tensor-native della classe Blackwell e apre la strada a future architetture basate su ingegneria computazionale specializzata.
L'industria dell'intelligenza artificiale sta affrontando nuove sfide con l'introduzione di sistemi AI autonomi. Per affrontare queste sfide, è stato sviluppato un nuovo framework di riferimento per governare i sistemi AI agenti.
I grafici neurali locali (GNN) sono diventati un paradigma dominante per l'apprendimento su dati strutturati in forma di graph, grazie alla loro capacità di sfruttare contemporaneamente le caratteristiche dei nodi e la topologia della rete. Tuttavia, questa combinazione introduce una debolezza critica: perturbazioni o rumori nella struttura o nelle caratteristiche possono essere amplificati attraverso il passaggio dei messaggi, rendendo i GNN vulnerabili a attacchi ad adversari e connessioni spuri. In questo lavoro, presentiamo un framework di prunatura che utilizza l'evaluazione della robustezza adversaria per identificare e rimuovere componenti fragili o dannosi del grafico. Utilizzando punteggi di robustezza come guida, la nostra metodologia seleziona unilateralmente le aree dei grafi più probabili a degradare la fidelità del modello, ottenendo rappresentazioni grafiche più pulite e più resilienti.
L'azienda Meta ha lanciato un nuovo framework per migliorare la sicurezza dei modelli di ricompensa nei video, riducendo il rischio di 'hacking del premio'. Il sistema, chiamato SoliReward, utilizza una strategia di annotazione binaria e una tecnica di aggregazione dei segnali per fornire preferenze più precise.
I ricercatori hanno sviluppato un nuovo metodo per riconoscere anomalie in dati sconosciuti, grazie a una tecnologia che 'scola' i dati per creare un modello più robusto.
Un team di ricercatori ha proposto un nuovo framework per l'adattamento fine-tuning dei grandi modelli linguistici, che utilizza la tecnica delle funzioni Fourier per ottimizzare le prestazioni e ridurre il consumo energetico.