📁 Frameworks

La sezione Frameworks osserva il livello software che trasforma i modelli in sistemi operativi: orchestrazione, pipeline RAG, osservabilita, serving ed evaluation. Trovi aggiornamenti su LangChain, tooling vettoriale, runtime di inferenza e pattern di deployment realmente utili per iterare velocemente senza perdere stabilita. Gli articoli sono selezionati per aiutare scelte architetturali concrete, con collegamenti alla pillar frameworks, alla pillar LLM e ai trend.

📁 Frameworks AI generated

Dimostrare invece di rivendicare: l'ossessione valutativa di Sixtyfour

Saarth Shah ha impostato Sixtyfour su un principio: valutare ogni build senza sconti, inviare solo ciò che alza il punteggio contro domande verificate da esperti. Un’inversione di rotta per la ricerca AI, spesso basata sulla fiducia cieca nei Large Language Models.

2026-07-10 Fonte

📁 Frameworks AI generated

Cache warming speculativo: così il prompt processing anticipato taglia 20 secondi di attesa

Un progetto open source per LLM locali sfrutta il tempo di digitazione per riscaldare la cache con il prompt di sistema e gli strumenti. Quando l'utente invia la richiesta, restano da elaborare solo i token del prompt, guadagnando 10-20 secondi. Un dettaglio da self‑hosting che cambia l'esperienza interattiva.

2026-07-10 Fonte

📁 Frameworks AI generated

Intel spinge vLLM sulle GPU Arc: l’inference LLM on-premise si fa meno Nvidia-dipendente

Con Intel-Scaler-vLLM 0.21.0-b1, Intel aggiorna la sua soluzione Docker per eseguire vLLM su GPU Arc. Un passaggio che segnala la volontà di contendere a Nvidia il mercato dell’inference locale, dove sovranità dei dati e costo totale contano più dei benchmark grezzi.

2026-07-10 Fonte

📁 Frameworks AI generated

MemExplainer porta la trasparenza nelle Temporal Graph Network, e questa volta i ricordi contano

Il nuovo metodo MemExplainer attribuisce le previsioni delle TGN agli eventi passati usando un doppio albero topologico e di memoria. Una svolta per chi vuole modelli temporali spiegabili in contesti regolamentati, senza sacrificare la fedeltà predittiva. Il codice è già pubblico.

2026-07-10 Fonte

📁 Frameworks AI generated

Non solo LLM: l’IA ibrida che simula la resilienza delle filiere agricole

Un nuovo strumento combina modelli economici globali (GTAP) e biofisici (APSIM) con un’interfaccia in linguaggio naturale per interrogare gli shock delle supply chain agricole. Un caso concreto di come l’IA stia diventando un orchestratore di saperi specialistici, spostando l’attenzione sull’infrastruttura di calcolo e sulla sovranità dei dati.

2026-07-10 Fonte

📁 Frameworks AI generated

La fine degli agenti reattivi: il Context Graph porta l’AI enterprise a parlare prima che tu chieda

Un nuovo framework propone agenti proattivi capaci di notificare insight prima della query umana, riducendo il time-to-surface da 47 minuti a meno di 30 secondi. Al cuore c’è un Context Graph che modella entità e cambiamenti di stato, mentre un LLM genera notifiche con spiegazioni. L’architettura sposta il baricentro del controllo dati verso l’on-premise per chi non può esporre contesti sensibili a API esterne.

2026-07-10 Fonte

📁 Frameworks AI generated

Ollama, round da 65 milioni: l'AI locale vola a 9 milioni di sviluppatori

Ollama chiude un Series B da 65M guidato da Theory Ventures, raggiungendo 88M totali e quasi 9 milioni di sviluppatori. Lo strumento per eseguire LLM in locale segna un’accelerazione verso l’inference on-premise, con impatto su hardware, costi e sovranità dei dati.

2026-07-09 Fonte

📁 Frameworks AI generated

Llama.cpp abilita l’ottimizzazione unsafe per le GPU AMD: più velocità nell’inference locale

Un commit recente introduce il flag -funsafe-math-optimizations per il backend HIP di llama.cpp. L’intervento punta a ridurre il divario prestazionale con CUDA nelle esecuzioni on-premise, ma riapre il dibattito sulla precisione numerica nell’inference domestica e aziendale.

2026-07-09 Fonte

📁 Frameworks AI generated

Ollama raccoglie 65 milioni: 9 milioni di sviluppatori ora eseguono LLM in locale

Il round da 65 milioni di dollari con Benchmark sancisce la maturità del tool open source per eseguire modelli AI sul proprio PC. Un traguardo che riflette un cambiamento strutturale: l'inference locale non è più un hobby, ma una scommessa concreta su sovranità, controllo e costo totale di possesso.

2026-07-09 Fonte

📁 Frameworks AI generated

Sentiment audio: distillazione e trascritti multilingue per modello audio-only efficiente

Distillare un modello multimodale per il sentiment parlato in uno studente audio-only promette prestazioni comparabili senza il carico di pipeline di trascrizione. Un pattern utile per deployment on-prem dove la sovranità dei dati conta.

2026-07-09 Fonte

📁 Frameworks AI generated

Conformal prediction, la garanzia statistica che tradisce le classi rare (e come correggerla)

Uno studio rivela che la conformal prediction marginale, usata nel drug discovery per quantificare l’incertezza dei modelli, espone gravemente le classi minoritarie: sulla tossicità clinica la copertura reale crolla al 4,2 %. Il problema si riproduce su reti neurali, random forest e LLM congelati. La variante condizionale per classe risolve l’inganno, ma impone nuovi oneri computazionali che chi fa deployment on-premise deve ora considerare.

2026-07-09 Fonte

📁 Frameworks AI generated

Non basta il successo: AgentLens analizza ogni mossa degli agenti di codice

AgentLens è un benchmark open source che non si limita a dire se un agente di codice ha completato il task, ma valuta l'intera traiettoria: istruzioni, strumenti, autocontrollo, errori. Per chi fa deployment on-premise, significa auditabilità e controllo, non solo un punteggio finale.

2026-07-09 Fonte

📁 Frameworks AI generated

ZML contro Nvidia: il runtime AI multipiattaforma che rompe i monopoli hardware

La startup parigina ZML ha rilasciato un runtime gratuito per eseguire modelli open source su GPU e processori di Nvidia, AMD, Google, Apple e Intel. L'obiettivo è erodere il vantaggio software di Nvidia, restituendo libertà di scelta hardware senza restare intrappolati nell'ecosistema CUDA.

2026-07-08 Fonte

📁 Frameworks AI generated

Flint, il linguaggio che addomestica gli agenti AI nel fare grafici (e punta alla sovranità visiva)

Microsoft Research svela Flint, un linguaggio intermedio che permette agli LLM di produrre visualizzazioni curate da specifiche compatte e semantiche. L'open source e il supporto multi-backend aprono a deployment locali dove l'interpretazione dei dati non esce mai dal perimetro aziendale.

2026-07-08 Fonte

📁 Frameworks AI generated

AMD ZenDNN 6.0: l’inference on-premise prende quota sui processori Zen

AMD ha aggiornato ZenDNN, la libreria open source per accelerare l’inference su CPU Zen. La versione 6.0 aggiunge ottimizzazioni e amplia il supporto ai modelli quantizzati, rafforzando il ruolo delle CPU EPYC e Ryzen per chi gestisce carichi AI in locale, tra sovranità dei dati e controllo dei costi.

2026-07-08 Fonte

📁 Frameworks AI generated

ZML rilascia LLMD: inference più veloce su più chip, a costo zero

La startup francese ZML, sostenuta dal premio Turing Yann LeCun, ha rilasciato LLMD, un software gratuito per accelerare l’inference degli LLM su chip eterogenei. La promessa: ridurre i costi operativi e la dipendenza da hardware specifico, con benefici immediati per deployment on-premise e strategie di sovranità dei dati.

2026-07-08 Fonte

📁 Frameworks AI generated

Design-CP: progettare nanoparticelle proteiche su GPU workstation con context parallelism

Un nuovo approccio di context parallelism, Design-CP, consente a modelli all-atom come RFdiffusion 3 di superare i limiti di memoria di una singola GPU. Distribuendo le attivazioni quadratiche su più GPU (fino a un cluster di schede da 16 GB), il sistema mantiene i pesi pre-addestrati e scala con l’aggiunta di GPU, rendendo possibile la progettazione end-to-end di nanoparticelle icosaedriche e ottaedriche direttamente in locale. Un risultato che potrebbe democratizzare la bioingegneria computazionale, portandola fuori dai supercomputer.

2026-07-08 Fonte

📁 Frameworks AI generated

Dai grafi ai gradienti: spiegabilità ispirata alla fisica per i sistemi IoT

Un framework basato sulla meccanica statistica evita la ricostruzione di grafi causali per attribuire anomalie in sistemi IoT ibridi. Testato su testbed industriali, è più robusto e scalabile degli approcci a grafo, e si presta a deployment on-premise dove la sovranità dei dati resta un requisito irrinunciabile.

2026-07-08 Fonte

📁 Frameworks AI generated

Prompt-to-Paper, l’AI che genera paper scientifici con dati reali

Prompt-to-Paper è un framework multi-agente che produce manoscritti bioinformatici, ma invece di inventare risultati esegue veri esperimenti computazionali e fonda ogni affermazione su una base di 60-100 articoli verificati. Con un costo di 0,31 dollari a paper e un punteggio umano medio di 7/10, mostra come l’automazione scientifica possa essere credibile, riproducibile e potenzialmente autogestita in locale.

2026-07-08 Fonte

📁 Frameworks AI generated

Meituan libera LongCat-2.0: la Cina accelera sullo stack AI domestico

Meituan ha rilasciato in open source LongCat-2.0, un nuovo tassello dello stack AI made in China. La mossa segnala la maturità di un ecosistema parallelo che punta su controllo dei dati e deployment on-premise, riducendo la dipendenza da fornitori cloud statunitensi.

2026-07-08 Fonte

1 2 3 … … 45 46 47 Succ →