📁 Frameworks

La sezione Frameworks osserva il livello software che trasforma i modelli in sistemi operativi: orchestrazione, pipeline RAG, osservabilita, serving ed evaluation. Trovi aggiornamenti su LangChain, tooling vettoriale, runtime di inferenza e pattern di deployment realmente utili per iterare velocemente senza perdere stabilita. Gli articoli sono selezionati per aiutare scelte architetturali concrete, con collegamenti alla pillar frameworks, alla pillar LLM e ai trend.

AMD ha annunciato che il suo SDK Lemonade per l'intelligenza artificiale locale è ora in General Availability per macOS. Il progetto open source, sviluppato dagli ingegneri AMD, integra ROCm 7.13 e mira a ottimizzare l'esecuzione di Large Language Models su GPU e NPU, offrendo soluzioni per deployment on-premise e rafforzando l'ecosistema AI dell'azienda.

2026-05-18 Fonte

SmallCode è un agente di coding progettato per LLM locali di piccole dimensioni, superando i limiti degli strumenti esistenti che dipendono da modelli cloud. Con un modello Gemma da 4 miliardi di parametri, raggiunge un'efficienza dell'87% nei benchmark, superando agenti che usano modelli da 14B. La sua architettura innovativa, basata su strumenti composti e gestione intelligente del contesto, permette di ottenere prestazioni elevate mantenendo il controllo sui dati e riducendo la dipendenza dal cloud.

2026-05-18 Fonte

Un nuovo studio identifica una criticità strutturale nel fine-tuning sequenziale dei sistemi LLM multi-agente, denominata "compounding occupancy shift", che ne compromette le prestazioni. Per affrontare questo problema, è stato proposto TeamTR, un framework basato su trust-region che migliora la coordinazione e le performance. I risultati sperimentali mostrano un incremento medio del 7.1% rispetto ai baseline, offrendo una soluzione più robusta per i deployment di LLM complessi.

2026-05-18 Fonte

DeepSlide è un sistema multi-agente con intervento umano che rivoluziona la preparazione delle presentazioni. A differenza dei generatori tradizionali che si concentrano solo sull'aspetto visivo, DeepSlide ottimizza l'intero processo di delivery, dalla pianificazione narrativa alla sincronizzazione tra slide e script. Integra un planner logico, un retriever di contenuti e un rendering sequenziale, migliorando significativamente il flusso narrativo e la precisione del ritmo.

2026-05-18 Fonte

Un recente aggiornamento per `llama.cpp` promette un significativo incremento nella velocità di elaborazione dei prompt. La modifica, introdotta tramite una Pull Request, mira a evitare la copia dei logit durante la fase di decodifica in ambienti multi-thread, un'ottimizzazione che si traduce in maggiore efficienza per i deployment di Large Language Models on-premise e locali, con impatti positivi su latenza e Throughput.

2026-05-17 Fonte

FluidX3D, il software di fluidodinamica computazionale (CFD) accelerato da CPU e GPU tramite OpenCL, ha raggiunto la versione 3.7. Questo aggiornamento introduce significativi miglioramenti prestazionali, consolidando la sua posizione come strumento chiave per simulazioni complesse che sfruttano l'hardware locale. La capacità di ottimizzare le risorse computazionali on-premise è fondamentale per gli specialisti che cercano controllo e sovranità dei dati.

2026-05-17 Fonte

Un recente test ha esplorato il supporto Multi-Token Pre-fill (MTP) di `llama.cpp` su una GPU NVIDIA RTX 5090 con 32 GB di VRAM. L'analisi, condotta con modelli Qwen3.6 quantizzati, ha mirato a isolare l'impatto dell'MTP sull'efficienza dell'inference, un aspetto cruciale per i deployment on-premise di Large Language Models. La metodologia ha confrontato l'MTP abilitato e disabilitato, utilizzando prompt di diversa lunghezza per valutare le prestazioni.

2026-05-17 Fonte

La community di `llama.cpp` celebra il rilascio della versione `b9180`, un aggiornamento che introduce una nuova funzionalità identificata come "MTP". Questo sviluppo è particolarmente rilevante per gli specialisti che gestiscono Large Language Models in ambienti self-hosted, promettendo miglioramenti nelle capacità di deployment e nell'efficienza dell'inference su hardware locale.

2026-05-16 Fonte

Il progetto Open Source llama.cpp ha integrato il supporto per MTP (Media Transfer Protocol) attraverso la Pull Request #22673. Questo sviluppo rafforza la capacità del Framework di eseguire Large Language Models in modo efficiente su un'ampia gamma di hardware, consolidando la sua posizione come soluzione chiave per i deployment on-premise e per la sovranità dei dati.

2026-05-16 Fonte

Il progetto open source llama.cpp si prepara a integrare il supporto per il Multi-Threaded Processing (MTP), una novità che promette di migliorare significativamente le performance nell'esecuzione di Large Language Models (LLM) su hardware locale. Questa evoluzione è particolarmente rilevante per gli ambienti on-premise, dove l'ottimizzazione delle risorse hardware esistenti è cruciale per il deployment efficiente di modelli AI, rafforzando la sovranità dei dati e il controllo.

2026-05-16 Fonte

Il progetto open source llama.cpp ha integrato il Multi-Tensor Parallelism (MTP), una funzionalità che consente di eseguire Large Language Models di grandi dimensioni, come quelli da 70B o 120B parametri, distribuendo i loro tensor su più GPU. Questa innovazione è cruciale per l'inference locale di LLM complessi, rendendoli accessibili su configurazioni hardware con VRAM distribuita e offrendo nuove opportunità per i deployment on-premise, con benefici in termini di TCO e sovranità dei dati.

2026-05-15 Fonte

La scoperta di farmaci basata sull'AI affronta sfide significative nella previsione robusta di proprietà molecolari in scenari out-of-distribution (OOD). Un nuovo benchmark, SCOPE-BENCH, rivela limiti negli approcci attuali, mentre il framework POMA propone una pipeline innovativa per il trasferimento di conoscenza. POMA riduce l'errore assoluto medio fino all'11.2%, offrendo un miglioramento cruciale per l'affidabilità dei modelli in contesti critici come la ricerca farmaceutica.

2026-05-15 Fonte

Un nuovo studio introduce un framework bidimensionale per la progettazione di architetture di agenti basati su LLM. Superando i limiti degli approcci monodimensionali, il modello combina la funzione cognitiva e la topologia di esecuzione, definendo 27 schemi di progettazione distinti. La ricerca valida l'ortogonalità del framework in quattro domini reali, derivando cinque leggi empiriche che guidano le scelte architetturali in base ai vincoli ambientali. Questo offre un vocabolario neutrale e agnostico per lo sviluppo di agenti AI.

2026-05-15 Fonte

GraphBit è un nuovo framework che affronta le sfide dell'orchestrazione di agenti LLM, come le "hallucinations" e l'esecuzione non riproducibile. Utilizzando un motore basato su Rust e un grafo aciclico diretto (DAG), garantisce workflow deterministici, riproducibilità e auditabilità. Il framework introduce un'architettura di memoria a tre livelli per prevenire il "context bloat" e ha dimostrato performance superiori su benchmark GAIA, con maggiore accuratezza, latenza ridotta e zero "hallucinations" indotte dal framework.

2026-05-15 Fonte

È stato rilasciato Clawdmeter, un nuovo strumento open source che offre agli utenti avanzati di AI coding un dashboard desktop compatto per monitorare le statistiche di utilizzo di Claude Code. Questa utility fornisce una visione immediata del consumo di risorse, supportando una gestione più consapevole delle interazioni con i Large Language Models basati su API.

2026-05-14 Fonte

Un nuovo framework, CAWI (Copula-Aligned Weight Initialization), affronta un limite chiave delle Reti Neurali Randomizzate (RdNN): l'incapacità dell'inizializzazione casuale convenzionale di catturare la dipendenza tra le caratteristiche dei dati. Proponendo un campionamento dei pesi allineato alle copule, CAWI migliora significativamente la performance predittiva delle RdNN, mantenendo la loro efficienza intrinseca e la soluzione in forma chiusa per lo strato di output. Questo approccio è rilevante per ottimizzare i carichi di lavoro AI in contesti con risorse limitate.

2026-05-14 Fonte

Un nuovo studio introduce MAVIC (Macro-Action Value Correction for Instruction Compliance), un metodo per migliorare la capacità dei sistemi di apprendimento per rinforzo multi-agente di seguire istruzioni in linguaggio naturale. MAVIC risolve le incoerenze nelle stime di valore causate dalle interruzioni delle istruzioni, modificando i backup di Bellman. Questo permette una stima del valore più coerente e una maggiore conformità alle istruzioni, mantenendo le performance del compito base in ambienti complessi.

2026-05-14 Fonte

Notion ha lanciato una nuova piattaforma per sviluppatori che permette ai team di integrare agenti AI, fonti di dati esterne e codice personalizzato direttamente nei loro workspace. Questa mossa segna un'espansione significativa nell'ambito del software di produttività basato su agenti, offrendo maggiore flessibilità e controllo sull'automazione dei flussi di lavoro. L'obiettivo è creare un ambiente più interconnesso e intelligente per gli utenti aziendali.

2026-05-13 Fonte

La nuova versione di PyTorch, la 2.12, introduce significative ottimizzazioni per l'inference e il training su diverse architetture hardware. Tra le novità spiccano miglioramenti prestazionali fino a 100 volte per l'eigendecomposition su CUDA, il supporto alla quantization Microscaling per modelli compressi e un'API unificata per la cattura dei grafici su CUDA, XPU e altri backend. Questi aggiornamenti sono cruciali per le aziende che puntano a deployment on-premise efficienti e a basso TCO, garantendo flessibilità e controllo sui carichi di lavoro AI.

2026-05-13 Fonte

La recente versione 16.1 del GNU Compiler Collection (GCC) ha mostrato significativi miglioramenti nelle performance dei binari rispetto alla precedente versione 15. Questi progressi, verificati su hardware e configurazioni identiche, pongono GCC 16 in diretta competizione con LLVM Clang, il compilatore open source di riferimento. L'ottimizzazione dei compilatori è cruciale per massimizzare l'efficienza dei carichi di lavoro AI on-premise, influenzando direttamente il TCO e la sovranità dei dati.

2026-05-13 Fonte