Topic / Trend Rising

Sviluppo di Modelli e Agenti AI

Questo trend si concentra sui rapidi progressi nei modelli AI, inclusi Large Language Models (LLM) e Vision-Language Models (VLM), e sulle loro tecniche di ottimizzazione come la quantization. Copre anche l'ascesa degli agenti AI autonomi, la loro valutazione e i contributi open source.

Detected: 2026-04-02 · Updated: 2026-04-02

Articoli Correlati

2026-04-02 ArXiv cs.LG

Selezione dati online: un nuovo framework per il fine-tuning di LLM

Un nuovo studio introduce un framework innovativo per la selezione e la riponderazione dei dati nel fine-tuning online di Large Language Models. A differenza dei metodi tradizionali offline, questa soluzione è "optimizer-aware", adattandosi all'arriv...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 ArXiv cs.CL

Un nuovo benchmark valuta la percezione olfattiva dei Large Language Models

Un nuovo benchmark, l'Olfactory Perception (OP), è stato introdotto per misurare la capacità dei Large Language Models (LLM) di ragionare sull'olfatto. Valutando 21 configurazioni, emerge che i prompt basati su nomi di composti superano quelli basati...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-01 LocalLLaMA

Aider: il codice sorgente del progetto LLM ora pubblico su GitHub

Il codice sorgente di Aider, un progetto legato ai Large Language Models (LLM), è stato reso disponibile su GitHub. Questo evento, ampiamente discusso su piattaforme come Reddit, evidenzia le dinamiche della condivisione del codice nell'ecosistema de...

#Hardware #LLM On-Premise #DevOps
2026-04-01 Microsoft Research

ADeLe: Valutare e prevedere le performance degli LLM con un nuovo approccio

Microsoft Research, in collaborazione con Princeton University e Universitat Politècnica de València, ha introdotto ADeLe, un nuovo metodo per valutare i Large Language Models. ADeLe analizza modelli e compiti basandosi su 18 abilità fondamentali, su...

#LLM On-Premise #Fine-Tuning #DevOps
2026-04-01 LocalLLaMA

Falcon-OCR e Falcon-Perception: TII UAE estende gli LLM in locale

TII UAE ha introdotto Falcon-OCR e Falcon-Perception, progetti che mirano a estendere le capacità dei Large Language Models alla comprensione visiva e all'OCR. L'integrazione in corso con `llama.cpp` sottolinea un chiaro orientamento verso il deploym...

#Hardware #LLM On-Premise #DevOps
2026-04-01 OpenAI Blog

Gradient Labs: Agenti AI con LLM per l'automazione bancaria

Gradient Labs sta implementando agenti AI basati su modelli Large Language Models come GPT-4.1 e GPT-5.4 mini e nano per trasformare i flussi di lavoro di supporto bancario. L'obiettivo è offrire un "account manager" virtuale a ogni cliente, garanten...

#Hardware #LLM On-Premise #DevOps
2026-04-01 LocalLLaMA

L'Evoluzione di llama.cpp: Nuovi Orizzonti per gli LLM On-Premise

Il progetto open source llama.cpp continua a spingere i confini dell'esecuzione efficiente dei Large Language Models su hardware locale. L'attesa per le prossime release è alta, con la promessa di nuove tecniche di quantization come "1-bit Bonsai" e ...

#Hardware #LLM On-Premise #DevOps
2026-04-01 ArXiv cs.AI

ChartDiff: Un Nuovo Benchmark per la Comprensione Comparativa di Grafici

È stato introdotto ChartDiff, il primo benchmark su larga scala progettato per la comprensione comparativa tra coppie di grafici. Composto da 8.541 coppie, il dataset valuta la capacità dei Large Language Models (LLM) e di altri modelli di riassumere...

#LLM On-Premise #Fine-Tuning #DevOps
2026-04-01 LocalLLaMA

PrismML presenta Bonsai: i primi LLM a 1-bit commercialmente utilizzabili

PrismML ha annunciato Bonsai, una nuova serie di Large Language Models (LLM) a 1-bit che l'azienda definisce i primi a raggiungere la piena viabilità commerciale. Questa innovazione mira a ridurre drasticamente i requisiti di memoria e computazione, ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 The Next Web

Nexus raccoglie 4,3 milioni di dollari per agenti AI aziendali accessibili

La startup Nexus, con sede a Bruxelles e supportata da Y Combinator, ha chiuso un round di finanziamento seed da 4,3 milioni di dollari. La piattaforma mira a semplificare il deployment di agenti AI per team non tecnici in ambito aziendale, come dimo...

#LLM On-Premise #DevOps
2026-03-31 LocalLLaMA

Alibaba presenta CoPaw-9B: un LLM agentico da 9 miliardi di parametri

Alibaba ha rilasciato CoPaw-Flash-9B, un nuovo Large Language Model da 9 miliardi di parametri. Questo LLM, basato su Qwen3.5 e ottimizzato per carichi di lavoro "agentici" tramite fine-tuning, si posiziona in linea con le performance di Qwen3.5-Plus...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 LangChain Blog

LangChain e MongoDB: un backend unificato per agenti AI in produzione

LangChain e MongoDB annunciano una partnership strategica per semplificare lo sviluppo e il deployment di agenti AI. L'integrazione permette alle aziende di sfruttare le infrastrutture dati esistenti, come MongoDB Atlas, per funzionalità cruciali qua...

#LLM On-Premise #DevOps #RAG
2026-03-31 The Register AI

AI agentica: Arm chiede nuove CPU, Intel frena

Arm e Nvidia hanno presentato CPU specifiche per l'esecuzione di AI agentiche, come OpenClaw, suggerendo la necessità di architetture dedicate. Questa visione è però contestata da Intel, il cui responsabile del settore Data Center non ritiene indispe...

#Hardware #LLM On-Premise #DevOps
2026-03-31 ArXiv cs.CL

GeoBlock: Ottimizzare la Granularità dei Blocchi nei Diffusion LLM

GeoBlock è un innovativo framework per i Large Language Models basati su diffusione, progettato per ottimizzare l'inference parallela. Analizzando la geometria delle dipendenze tra i token, determina dinamicamente la granularità dei blocchi, superand...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 ArXiv cs.LG

SFAO: Ottimizzazione per il Continual Learning con 90% meno memoria

Un nuovo metodo, Selective Forgetting-Aware Optimization (SFAO), affronta il problema del 'catastrophic forgetting' nelle reti neurali. Regolando le direzioni del gradiente, SFAO permette un apprendimento continuo più efficiente. I test mostrano un'a...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 DigiTimes

OpenClaw: l'evoluzione degli LLM verso agenti autonomi

Il progetto OpenClaw evidenzia una transizione significativa nel panorama dell'intelligenza artificiale, orientandosi verso lo sviluppo di agenti AI e modelli auto-evolventi. Questa tendenza promette sistemi più autonomi e capaci di apprendere, ponen...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-30 DigiTimes

Apple apre Siri a servizi AI esterni, oltre ChatGPT

Apple intende aprire Siri a servizi di intelligenza artificiale di terze parti, andando oltre l'integrazione con ChatGPT. Questa mossa strategica potrebbe ridefinire il panorama degli assistenti vocali, offrendo agli utenti maggiore scelta e personal...

#Hardware #LLM On-Premise #DevOps
2026-03-30 DigiTimes

Compressione AI e carenza NAND: sfide persistenti per l'infrastruttura LLM

La compressione dei modelli AI non risolverà la carenza di memoria, mentre la scarsità di NAND persisterà. Queste dinamiche creano pressioni significative sui costi e sulla disponibilità dell'hardware, influenzando direttamente le strategie di deploy...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-28 LocalLLaMA

Benchmark M5 Max vs M3 Max: Inference Qwen3.5 su MacBook Pro

Confronto delle performance di inference dei modelli Qwen 3.5 su MacBook Pro da 16 pollici, equipaggiati con chip M5 Max e M3 Max (40 core GPU, 128GB di memoria unificata). I test, eseguiti con oMLX v0.2.23, rivelano differenze significative in throu...

#Hardware #LLM On-Premise #DevOps
2026-03-28 LocalLLaMA

Rilascio imminente del modello GLM-5.1

Secondo indiscrezioni provenienti da canali Discord, il modello GLM-5.1 dovrebbe essere rilasciato tra il 6 e il 7 aprile. La notizia, diffusa su Reddit, ha generato interesse nella comunità LocalLLaMA, impaziente di valutare le performance del nuovo...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Qwen 3.5 su MacBook Air grazie a TurboQuant di Google

Un esperimento mostra come l'algoritmo TurboQuant di Google permetta di eseguire il modello Qwen 3.5–9B con un context window di 20000 token su un MacBook Air (M4, 16 GB). Questo apre la strada all'esecuzione di modelli di linguaggio di grandi dimens...

#Hardware #LLM On-Premise #DevOps
2026-03-27 Ars Technica AI

OpenAI estende Codex con plugin, allineandosi a Claude Code

OpenAI ha introdotto il supporto per i plugin nella sua applicazione di coding agentic, Codex. Questa mossa sembra mirata a colmare il divario con funzionalità simili offerte da Anthropic in Claude Code e Google con l'interfaccia a riga di comando di...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

TurboQuant-v3 di Google: compressione dei pesi LLM su GPU consumer

Google presenta TurboQuant-v3, una tecnica per comprimere i pesi dei modelli linguistici di grandi dimensioni (LLM), riducendo l'utilizzo di VRAM e accelerando l'inference. A differenza delle precedenti versioni focalizzate sulla cache KV, TurboQuant...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-27 LocalLLaMA

Le LLM ragionano in geometria, non in linguaggio: nuovi risultati

Una nuova ricerca indica che i modelli linguistici di grandi dimensioni (LLM) potrebbero elaborare le informazioni in modo geometrico, piuttosto che basandosi esclusivamente sul linguaggio. L'esperimento, condotto su quattro modelli diversi, ha rivel...

#LLM On-Premise #Fine-Tuning #DevOps
2026-03-27 LocalLLaMA

Consumo token elevato con Claude: un problema?

Un utente di Reddit segnala un consumo eccessivo di token durante l'utilizzo del modello Claude, tanto da rendere rapidamente inutilizzabile l'intera sessione. La discussione si concentra sull'efficienza nell'uso dei token e possibili soluzioni alter...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Ottimizzazione Llama.cpp: -90% dequantization, +22% velocità

Un affinamento open source per Llama.cpp riduce drasticamente il tempo di dequantization della cache KV, accelerando l'inference del modello Qwen3.5-35B-A3B fino al 22.8% su un M5 Max. La tecnica sfrutta la sparsità dell'attenzione, saltando la dequa...

#LLM On-Premise
2026-03-27 LocalLLaMA

GLM-5.1: modello di Zhipu AI punta a superare GPT-4o nel coding

Zhipu AI ha rilasciato GLM-5.1, un modello di linguaggio di grandi dimensioni (LLM) che, secondo i benchmark, rivaleggia con Claude Opus 4.5 nelle attività di sviluppo. Con una finestra di contesto di 200K token e 744 miliardi di parametri, GLM-5.1 s...

#LLM On-Premise #Fine-Tuning #DevOps
2026-03-27 LocalLLaMA

Qwen3.5 122B: Più lento è più veloce per carichi di lavoro complessi?

Un utente di Reddit ha scoperto che, contrariamente alle aspettative, il modello Qwen3.5 122B, pur avendo specifiche inferiori rispetto a Qwen3 Coder Next, ha offerto prestazioni superiori in termini di stabilità, qualità del codice e velocità di com...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

ChromaDB Context-1: modello agentic di ricerca con 20B parametri

ChromaDB ha rilasciato Context-1, un modello con 20 miliardi di parametri progettato per la ricerca agentic. Il modello è disponibile su Hugging Face e suscita interesse nella comunità LocalLLaMA per le sue potenziali applicazioni in contesti di infe...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Rilasciato GLM-5.1: si spera in versione open source

È stata annunciata la pubblicazione di GLM-5.1. La comunità open source spera in un rilascio open source del modello. Al momento non sono disponibili ulteriori dettagli tecnici o informazioni sulle prestazioni.

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-27 LocalLLaMA

Rilasciato GLM 5.1: Aggiornamenti per i modelli linguistici

È stata rilasciata la versione 5.1 di GLM, un modello linguistico. L'annuncio è stato diffuso tramite la comunità online di LocalLLaMA, un forum dedicato all'esecuzione di modelli linguistici localmente. Non sono forniti dettagli specifici sulle nuov...

#Hardware #LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

TurboQuant: Quantization a 4-bit per LLM con residui a 8-bit

TurboQuant adatta un algoritmo recente per la quantization della KV-cache alla compressione dei pesi dei modelli. Offre una sostituzione diretta per `nn.Linear` con una distorsione quasi ottimale. I benchmark su Qwen3.5-0.8B mostrano che la quantizat...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

VibeVoice 9B: nuovo benchmark per STT medicale open source

Un recente studio ha confrontato 31 modelli speech-to-text (STT) su audio medicale. VibeVoice-ASR 9B di Microsoft si distingue come leader open source con un tasso di errore di parola (WER) dell'8,34%, avvicinandosi alle performance di Gemini 2.5 Pro...

#Hardware #LLM On-Premise #DevOps
2026-03-27 TechWire Asia

Siri verso un agente AI a livello di sistema: cosa cambia

Apple starebbe valutando di trasformare Siri in un agente AI a livello di sistema, capace di gestire task complessi tra diverse applicazioni. Questo cambiamento implica un nuovo approccio all'interazione uomo-macchina, dove l'AI agisce per conto dell...

2026-03-27 DigiTimes

Google TurboQuant: memoria LLM ridotta di 6x, costi inference AI ridefiniti

Google presenta TurboQuant, una tecnica che promette di ridurre drasticamente l'utilizzo di memoria dei modelli linguistici di grandi dimensioni (LLM), con un impatto significativo sui costi di inference. La tecnicia potrebbe aprire nuove possibilità...

#Hardware #LLM On-Premise #DevOps
2026-03-27 DigiTimes

Microsoft Agent 365: spinta all'innovazione AI nel front-end

Secondo DIGITIMES Asia, Microsoft Agent 365 intensificherà la competizione nel settore dell'intelligenza artificiale, portando nuove soluzioni e funzionalità innovative nel front-end. L'iniziativa mira a migliorare l'esperienza utente e a fornire str...

#LLM On-Premise #DevOps
2026-03-27 DigiTimes

IBM Taiwan: Trasformazione AI agentica parte dal C-suite

Secondo IBM Taiwan, l'adozione efficace dell'AI agentica nelle imprese richiede una forte leadership da parte del C-suite. L'articolo originale di Digitimes sottolinea l'importanza di una visione strategica dall'alto per guidare l'integrazione dell'i...

#LLM On-Premise #DevOps
2026-03-26 LocalLLaMA

Mistral AI rilascia Voxtral-4B-TTS-2603 per text-to-speech

Mistral AI ha reso disponibile Voxtral-4B-TTS-2603, un modello text-to-speech (TTS). La notizia è stata diffusa tramite un post su Reddit nel forum LocalLLaMA, con collegamenti diretti al modello su Hugging Face e alla discussione originale.

2026-03-26 LocalLLaMA

Cohere rilascia Transcribe, modello di trascrizione open source

Cohere ha annunciato il rilascio di Transcribe, un modello di trascrizione open source con licenza Apache 2.0. Il modello, con 2 miliardi di parametri, supporta 14 lingue ed è presentato come una soluzione all'avanguardia nel campo della trascrizione...

#LLM On-Premise #DevOps
2026-03-26 LangChain Blog

Valutazione degli agenti AI: metriche e metodologie

La definizione di valutazioni (evals) mirate è cruciale per plasmare il comportamento degli agenti AI. L'articolo esplora come curare i dati, definire le metriche e condurre valutazioni per migliorare l'accuratezza e l'affidabilità degli agenti, con ...

#LLM On-Premise #DevOps
2026-03-26 LocalLLaMA

Qwen3.5-27B: modello ottimizzato e senza censure per inference locale

È disponibile una versione ottimizzata e senza censure del modello Qwen3.5-27B, ottenuta tramite fine-tuning e correzioni parametriche. Questa versione mira a migliorare la gestione del contesto e le capacità di ragionamento, con un occhio di riguard...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-26 The Register AI

Linear punta sull'AI agent: il tracking dei task è obsoleto?

Linear, piattaforma di project management e issue tracking, introduce un AI agent con l'obiettivo di automatizzare la gestione dei task e, in futuro, assistere direttamente nello sviluppo del codice. Il CEO Karri Saarinen dichiara superato il tradizi...

2026-03-26 TechCrunch AI

Cohere lancia modello vocale open-source per trascrizione

Cohere ha presentato un modello vocale open-source da 2 miliardi di parametri, progettato per la trascrizione e utilizzabile con GPU consumer. Supporta 14 lingue e punta a semplificare l'implementazione self-hosted per sviluppatori e aziende.

#Hardware #LLM On-Premise #DevOps
2026-03-26 LocalLLaMA

Mistral AI sfida ElevenLabs con Voxtral TTS open source

Mistral AI ha rilasciato Voxtral TTS, un modello text-to-speech da 3 miliardi di parametri con pesi aperti. L'azienda afferma che supera ElevenLabs Flash v2.5 nei test di preferenza umana. Il modello richiede circa 3 GB di RAM, raggiunge un time-to-f...

#Hardware #LLM On-Premise #DevOps
2026-03-26 LocalLLaMA

RotorQuant: Quantization vettoriale accelerata con Clifford Algebra

RotorQuant, una nuova tecnica di quantization vettoriale basata sull'algebra di Clifford, promette prestazioni superiori rispetto a TurboQuant. Implementata su CUDA e Metal shader, offre velocità superiori con un numero significativamente inferiore d...

#LLM On-Premise #DevOps
2026-03-26 TechCrunch AI

Mistral presenta un nuovo modello open-source per la sintesi vocale

Mistral AI ha rilasciato un nuovo modello open-source per la generazione di sintesi vocale. La particolarità di questo modello è la sua capacità di operare su dispositivi con risorse limitate, come smartwatch e smartphone, aprendo nuove prospettive p...

#LLM On-Premise #DevOps
2026-03-26 DigiTimes

AI agentici: disciplina ingegneristica per le imprese

Gli esperti sottolineano la necessità di trattare l'intelligenza artificiale agentica come una disciplina ingegneristica consolidata. Le aziende devono adottare un approccio strutturato per lo sviluppo e l'implementazione di sistemi AI complessi, gar...

#LLM On-Premise #DevOps
← Torna ai Topic