Frameworks – Notizie e Articoli AI

📁 Frameworks AI generated

DeepSpec: DeepSeek open-source per accelerare l'inference con speculative decoding

DeepSeek ha rilasciato DeepSpec, una codebase completa per addestrare e valutare modelli “draft” per speculative decoding. I checkpoint coprono Qwen3 e Gemma-4, con tre algoritmi: Eagle3, DFlash e DSpark. Per chi gestisce LLM on-premise, questo framework promette guadagni di throughput senza GPU aggiuntive, rinforzando il controllo sulla pipeline di inference.

2026-06-28 Fonte

📁 Frameworks AI generated

Llama.cpp adotta DFlash: attenzione ottimizzata per l'inference locale

Il progetto llama.cpp ha integrato il supporto per DFlash, una nuova variante del meccanismo di attenzione pensata per ridurre l’uso di VRAM e accelerare l’esecuzione di Large Language Models su hardware consumer. L’aggiornamento rafforza le capacità on-premise del framework, rendendo più accessibili contesti lunghi e fine-tuning su macchine autonome, con ricadute dirette per chi cerca sovranità sui dati e controllo dei costi.

2026-06-28 Fonte

📁 Frameworks AI generated

GNOME ora ha un assistente AI che genera immagini: Newelle 1.4.5

Dopo tre anni di sviluppo, Newelle raggiunge la versione 1.4.5 con due novità: il supporto alla generazione di immagini tramite AI e un’interfaccia chat ridisegnata. Un assistente virtuale pensato per l’ecosistema GNOME che riaccende il dibattito sul controllo locale dei dati.

2026-06-27 Fonte

📁 Frameworks AI generated

Meno sincronizzazioni CUDA in llama.cpp: guadagni prestazionali per l'inference on-prem

Un nuovo commit nel progetto llama.cpp reintroduce una gestione asincrona più aggressiva per i backend CUDA, riducendo le sincronizzazioni tra token e velocizzando la copia dei dati da CPU a GPU. L'ottimizzazione, pensata per migliorare il throughput sui carichi di inference, apre la strada a un'adozione su più backend e semplifica il motore di scheduling. Un passo avanti concreto per chi gestisce LLM su hardware locale.

2026-06-27 Fonte

📁 Frameworks AI generated

DeepSeek V4 Flash e MiniMax M3 su llama.cpp: a che punto è il supporto nativo?

La community attende l'integrazione ufficiale dei modelli DeepSeek V4 Flash e MiniMax M3 in llama.cpp. Le fork offrono soluzioni parziali, ma lo stato non consolidato pone interrogativi sul deployment stabile in ambienti on-premise.

2026-06-27 Fonte

📁 Frameworks AI generated

llama.cpp: il tensor parallelism su Vulkan ora è alla portata di tutti

La pull request #25051 firmata da Piotr ‘pwilkin’ rende finalmente utilizzabile il parallelismo tensore su backend Vulkan in llama.cpp. Un passo concreto per l’inference di LLM su GPU non NVIDIA, che allarga gli scenari di deployment self-hosted e on-premise riducendo la dipendenza da CUDA.

2026-06-26 Fonte

📁 Frameworks AI generated

Un veterano del software costruisce un harness locale per LLM e chiede alla community: cosa serve?

Un developer con 45 anni di esperienza in tooling enterprise sta per rilasciare un harness open source pensato per semplificare il deployment locale dei Large Language Models. Il progetto, local-first e con logica multi-agente, punta a colmare le lacune dell'esperienza di sviluppo on-premise, dando voce alla community per integrare le funzionalità più richieste.

2026-06-26 Fonte

📁 Frameworks AI generated

Patronus AI si fa 50 milioni per il crash test degli agenti AI

La startup costruisce mondi simulati dove mettere alla prova gli agenti basati su LLM prima che tocchino sistemi reali. Ispirato da Waymo, l'approccio punta a prevenire disastri in ambiti sensibili come finanza e sanità.

2026-06-26 Fonte

📁 Frameworks AI generated

Intel ANV: i descriptor heap Vulkan ora attivi di default su Linux

Il driver open-source ANV per le GPU Intel su Linux abilita per impostazione predefinita l’estensione VK_EXT_descriptor_heap, dopo quasi due mesi di test. Migliora l’efficienza di binding dei descrittori e riduce il carico sulla CPU, con benefici trasversali anche per i carichi computazionali. Un tassello importante per chi spinge inference on-premise su Intel Arc o grafica integrata, dove ogni guadagno di efficienza pesa sul costo totale di possesso.

2026-06-26 Fonte

📁 Frameworks AI generated

Intel ISPC 1.31 guarda a Nova Lake e PowerPC: perché interessa chi fa calcolo on-premise

Il compilatore per programmazione SPMD di Intel si aggiorna con target per la futura architettura Nova Lake e un supporto sperimentale per PowerPC a 64 bit. L'analisi di AI-RADAR sui possibili riflessi per chi gestisce ambienti di calcolo auto-gestiti.

2026-06-26 Fonte

📁 Frameworks AI generated

Chisao, l’ottimizzatore GPU che trova tutti i picchi con uno speedup fino a 34x

Un nuovo algoritmo GPU-nativo risolve l'ottimizzazione black-box multimodale con il 100% di recupero dei modi, lasciando indietro i metodi CPU già a otto dimensioni. Disponibile open source su PyPI.

2026-06-26 Fonte

📁 Frameworks AI generated

Surrogati neurali per la crescita dei domini: fisica e deep learning si incontrano

Un team di ricerca ha sviluppato una rete convoluzionale guidata dalla fisica che prevede l'evoluzione della separazione di fase in miscele binarie. Il modello surrogato resta stabile su lunghi orizzonti temporali e rispetta le leggi di crescita dei domini. Una dimostrazione di come il deep learning possa sostituire costosi solutori numerici, aprendo scenari di deployment on-premise che preservano la riservatezza dei dati e riducono la dipendenza dal cloud.

2026-06-26 Fonte

📁 Frameworks AI generated

Oltre l'accuratezza: come ripensare i benchmark nell'era degli agenti LLM

La saturazione dei benchmark segna la fine di un ciclo, ma ignorare efficienza, affidabilità e collaborazione uomo-macchina è un errore. Il caso CORE-Bench mostra perché, per deployment on-premise, servono metriche multidimensionali.

2026-06-26 Fonte

📁 Frameworks AI generated

audio.cpp accelera la sintesi vocale: 12 modelli in un unico runtime C++, 5x più rapido

Il progetto audio.cpp porta l’inference di modelli audio su un runtime C++ nativo basato su ggml, unificando TTS, voice cloning, ASR e conversion in un unico stack. I benchmark su CUDA mostrano PocketTTS generare quasi 6 minuti di audio in soli 7,3 secondi, con un’accelerazione fino a 5 volte rispetto a Python. Un passo verso deployment self-hosted più efficienti e prevedibili.

2026-06-26 Fonte

📁 Frameworks AI generated

OpenAI: il 98% dei dipendenti usa già Codex, ma i numeri sono tutti interni

Un documento interno rivela un balzo nell’adozione degli agenti di coding dal 40% al 98%. L’azienda descrive un cambio radicale nel modo di lavorare, ma mancano dati indipendenti e dettagli tecnici su infrastruttura e costi. Per chi valuta strumenti simili on-premise, la trasparenza è ancora lontana.

2026-06-25 Fonte

📁 Frameworks AI generated

TokenSpeed-Kernel: l’inference LLM diventa multi-silicio con API portabili e kernel performanti

Un nuovo sottosistema open source separa il runtime dai kernel hardware-specifici, consentendo a modelli come GPT-OSS 120B di girare su AMD e NVIDIA con la stessa API pubblica. Le prestazioni su MI355X mostrano guadagni fino a 3.6x rispetto a Triton, senza sacrificare la portabilità. Per chi ospita modelli on-premise, l'architettura a plugin disaccoppia l’ottimizzazione hardware dalla logica di serving: un tassello per la sovranità multi-fornitore.

2026-06-25 Fonte

📁 Frameworks AI generated

AMD porta ONNX Runtime in FFmpeg: inference video senza cloud

AMD ha contribuito un backend ONNX Runtime per il filtro DNN di FFmpeg, consentendo di eseguire modelli AI direttamente su GPU e NPU per compiti come upscaling e object detection. L’integrazione rafforza le opzioni di inference locale, riducendo la dipendenza dal cloud e migliorando la sovranità dei dati per le pipeline video.

2026-06-25 Fonte

📁 Frameworks AI generated

G-SPIN, la correzione fonetica che rende l’ASR più affidabile senza toccare il cloud

Un nuovo framework combina reti neurali su grafi e modelli linguistici mascherati per riparare gli errori fonetici dell’ASR in tempo reale, preservando la privacy dei dati e adattandosi a contesti on-premise modulari.

2026-06-25 Fonte

📁 Frameworks AI generated

Gefen sostituisce AdamW e taglia di 8x la memoria nel training

Pubblicato su arXiv e con codice su GitHub, Gefen è un ottimizzatore drop-in per AdamW che promette un footprint di memoria ridotto fino a 8 volte. Se confermato, cambierebbe le carte in tavola per il training on-premise di LLM, dove ogni gigabyte di VRAM è prezioso e la riduzione dell'occupazione degli stati dell'ottimizzatore può allargare l'accesso a modelli complessi senza investimenti hardware aggiuntivi.

2026-06-24 Fonte

📁 Frameworks AI generated

Deno porterà le app desktop multipiattaforma nel prossimo rilascio maggiore

Il runtime Deno introduce comandi per compilare applicazioni desktop con tecnicia web, usando il WebView nativo per ridurre le dimensioni dei binari fino a circa 68 MB. L’alternativa Chromium Embedded Framework supera i 300 MB. La scelta incide su costi e controllo, ma deve affrontare problemi di coerenza di rendering e il rischio di disperdere risorse rispetto al consolidamento del core runtime.

2026-06-24 Fonte