Sviluppo, Ottimizzazione e Performance degli LLM

2026-05-19 • ArXiv cs.CL

PQR: Un Framework per Valutare gli Agenti LLM con Query Realistiche

La valutazione degli agenti basati su LLM rappresenta una sfida complessa, spesso richiedendo un notevole sforzo umano per identificare scenari di fallimento significativi. PQR è un nuovo framework che supera i limiti degli approcci precedenti, conce...

#LLM On-Premise #DevOps

2026-05-19 • ArXiv cs.CL

Ottimizzare gli Agenti LLM: le Leggi di Scaling delle Competenze

Uno studio approfondito su 15 Large Language Models e oltre mille competenze rivela due leggi fondamentali che governano la performance dei sistemi agente. La ricerca evidenzia come l'accuratezza del routing decada logaritmicamente con la dimensione ...

#Hardware #LLM On-Premise #DevOps

2026-05-19 • ArXiv cs.LG

Ottimizzazione AI: Algoritmi Mirror Descent per Ineguaglianze Variazionali Complesse

Una recente ricerca introduce algoritmi Mirror Descent-type per affrontare problemi di ineguaglianza variazionale con vincoli funzionali. Questi metodi sono cruciali per lo sviluppo di reti generative avversarie (GAN), il reinforcement learning e i m...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-18 • LocalLLaMA

Nuovi modelli BitNet: efficienza per deployment on-premise

Sono stati rilasciati su Hugging Face i nuovi modelli BitCPM4-CANN da 1B, 3B e 8B di parametri, basati sull'architettura BitNet. Questi Large Language Models (LLM) a bassa precisione promettono un'efficienza notevole, riducendo i requisiti di VRAM e ...

#Hardware #LLM On-Premise #DevOps

2026-05-18 • LocalLLaMA

Il Futuro degli LLM Open-Weight: Tra Attesa e Nuove Dinamiche di Rilascio

La comunità degli Large Language Models (LLM) è in fermento, in attesa di nuove versioni dopo i recenti rilasci. Si specula su un possibile cambiamento nelle politiche di distribuzione dei modelli open-weight, con implicazioni significative per le st...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-18 • ArXiv cs.CL

Bilanciare fluidità e fedeltà: la sfida dei LLM nella traduzione letteraria

Uno studio approfondisce il delicato equilibrio tra fluidità e fedeltà nelle traduzioni letterarie, confrontando output umani con quelli di Large Language Models come Google Translate e TranslateGemma. La ricerca rivela una correlazione negativa tra ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-18 • ArXiv cs.CL

OP-Mix: Ottimizzare il Data Mixing per LLM con un Approccio Continuo e Efficiente

Un nuovo algoritmo, OP-Mix, rivoluziona il data mixing per i Large Language Models, operando sull'intero ciclo di vita del training. Eliminando la necessità di modelli proxy e sfruttando gli adapter a basso rango, OP-Mix riduce drasticamente i requis...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-18 • ArXiv cs.LG

TeamTR: Ottimizzare il Fine-Tuning per la Coordinazione di LLM Multi-Agente

Un nuovo studio identifica una criticità strutturale nel fine-tuning sequenziale dei sistemi LLM multi-agente, denominata "compounding occupancy shift", che ne compromette le prestazioni. Per affrontare questo problema, è stato proposto TeamTR, un fr...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-18 • ArXiv cs.AI

Valutare la Theory of Mind negli LLM: l'interazione è la chiave

Un nuovo studio evidenzia come i benchmark tradizionali per la Theory of Mind (ToM) negli LLM non riflettano le prestazioni reali nelle interazioni dinamiche uomo-AI. La ricerca propone un paradigma di valutazione interattivo, dimostrando che i migli...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-18 • LocalLLaMA

Gemma-4-Gembrain-31B-it-uncensored-heretic: il nuovo LLM per logica e creatività

È stato rilasciato Gemma-4-Gembrain-31B-it-uncensored-heretic, un nuovo Large Language Model basato su Gemma 4 31B. Frutto di un merge di diversi fine-tuning, il modello mira a potenziare il pensiero logico e la prosa creativa. Disponibile in formati...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-17 • LocalLLaMA

llama.cpp: Ottimizzazione Cruciale Migliora la Velocità di Elaborazione dei Prompt

Un recente aggiornamento per `llama.cpp` promette un significativo incremento nella velocità di elaborazione dei prompt. La modifica, introdotta tramite una Pull Request, mira a evitare la copia dei logit durante la fase di decodifica in ambienti mul...

#Hardware #LLM On-Premise #DevOps

2026-05-17 • LocalLLaMA

Quantization KV Cache per LLM on-premise: bilanciare VRAM e qualità

Un dibattito tra sviluppatori evidenzia la sfida di ottimizzare l'uso della VRAM per i Large Language Models (LLM) in deployment on-premise. La questione centrale riguarda la quantization del KV cache (Q4_0 vs Q8_0) e il suo impatto sulla qualità del...

#Hardware #LLM On-Premise #DevOps

2026-05-17 • LocalLLaMA

Valutazione delle tecniche di "abliteration" per LLM: un'analisi su Qwen3.6-27B

Un'analisi approfondita ha confrontato cinque varianti "abliterated" del modello Qwen3.6-27B, impiegando 85 ore di GPU su una singola RTX 5090. Lo studio ha esaminato benchmark di capacità, sicurezza e modifiche a livello di pesi, rivelando come le d...

#Hardware #LLM On-Premise #DevOps

2026-05-17 • LocalLLaMA

Deepseek V4 e la finestra di contesto da 1M: limiti e opportunità pratiche

Un'analisi approfondita della finestra di contesto da 1 milione di token di Deepseek V4 rivela prestazioni solide fino a 150.000 token, ma una significativa degradazione della precisione e un'elevata latenza oltre i 300.000. I test su codebase reali ...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

LLM locali vs. frontier: Qwen 3.6 sorprende nella generazione di animazioni HTML

Un recente esperimento ha messo a confronto le capacità di LLM locali, in particolare le varianti Qwen 3.6, con modelli "frontier" basati su cloud, nella generazione di codice HTML per animazioni complesse. I test, eseguiti su hardware modesto, hanno...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

Qwen3.6-35B-A3B e 9B: i modelli open source che sfidano i giganti su Terminal-Bench 2.0

I modelli Qwen3.6-35B-A3B e Qwen3.5-9B hanno fatto il loro ingresso nella classifica pubblica di Terminal-Bench 2.0. In particolare, la versione 35B, integrata con little-coder, ha raggiunto un punteggio del 24.6%, superando modelli come Gemini 2.5 P...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Orthrus-Qwen3-8B: Accelerazione fino a 7.8x per i Large Language Models con accuratezza invariata

Orthrus-Qwen3-8B introduce un'innovazione per l'inference degli LLM, promettendo un'accelerazione fino a 7.8x rispetto al modello base Qwen3-8B, mantenendo la stessa distribuzione di output. Questo approccio, che congela il backbone del modello e int...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • Microsoft Research

Affidabilità degli LLM: la ricerca Microsoft sui workflow delegati a lungo termine

Microsoft Research ha pubblicato uno studio che esamina l'affidabilità dei Large Language Models (LLM) in compiti delegati a lungo termine. La ricerca evidenzia come i modelli possano accumulare errori semantici in workflow estesi, con una degradazio...

#LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

ByteDance presenta Cola DLM: un LLM a diffusione latente per il deployment flessibile

ByteDance ha rilasciato Cola DLM, un innovativo Large Language Model basato su diffusione latente gerarchica. Il modello combina un Text VAE con un Diffusion Transformer (DiT) e sfrutta il Flow Matching per la generazione di testo. Disponibile come c...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

Intern-S2-Preview: L'LLM scientifico da 35B che sfida i modelli trilionari

Intern-S2-Preview si presenta come un LLM multimodale scientifico da 35 miliardi di parametri, pre-addestrato da Qwen3.5. Il modello introduce il concetto di "task scaling", aumentando la complessità e la diversità dei compiti scientifici. Nonostante...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • ArXiv cs.CL

Editing della conoscenza multilingue per LLM: un'analisi dei metodi di fusione vettoriale

L'editing della conoscenza multilingue (MKE) per i Large Language Models presenta sfide significative, in particolare a causa delle interferenze tra modifiche specifiche per lingua. Una ricerca recente ha esaminato l'efficacia dei metodi di fusione v...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-15 • LocalLLaMA

Qwen3.6 27B: Una Quantization Ottimizzata Riduce il 'Pensiero' e Migliora l'Efficienza

Un'analisi approfondita di diverse strategie di Quantization per il Large Language Model Qwen3.6 27B rivela che alcune configurazioni specifiche possono ridurre significativamente il numero di Token generati per il ragionamento, migliorando l'efficie...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

Quantization del KV-cache per LLM: uno studio compara FP8 e TurboQuant

Un recente studio ha esaminato diverse tecniche di quantization per il KV-cache degli LLM, confrontando FP8 e le varianti di TurboQuant. I risultati indicano che FP8 offre un raddoppio della capacità del KV-cache con minima perdita di accuratezza e b...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • The Next Web

Graphon AI emerge dal silenzio con 8,3 milioni per lo strato dati degli LLM

Graphon AI ha annunciato la sua uscita dalla fase di "stealth", assicurandosi un finanziamento seed di 8,3 milioni di dollari. L'azienda mira a sviluppare uno strato dati innovativo, definito come "mancante" per i Large Language Models. Il nome deriv...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

NVIDIA introduce i modelli Kimi-K2.6 e Kimi-K2.5 con precisione NVFP4

NVIDIA ha rilasciato le versioni Kimi-K2.6-NVFP4 e Kimi-K2.5-NVFP4, modelli Large Language Models (LLM) ottimizzati per l'inference. Queste versioni quantizzate, derivate dal modello Kimi-K2.6 di Moonshot AI, utilizzano la precisione NVFP4 e sono sta...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • LocalLLaMA

SenseNova U1: L'Unificazione Multimodale Nativa Ridefinisce i Large Language Models

SenseNova ha rilasciato la serie U1, modelli multimodali nativi che unificano comprensione, ragionamento e generazione in un'architettura monolitica. Abbandonando gli adapter, SenseNova U1 elabora linguaggio e visione in modo integrato, promettendo e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • TechCrunch AI

Adaption lancia AutoScientist: l'automazione del Fine-tuning per LLM

Adaption ha presentato AutoScientist, un nuovo strumento basato sull'intelligenza artificiale che mira a semplificare e velocizzare il processo di fine-tuning dei Large Language Models. La soluzione automatizza l'adattamento dei modelli a capacità sp...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • ArXiv cs.LG

QuIDE: Ottimizzare la Quantization per LLM e Reti Neurali

Un nuovo studio introduce QuIDE, un framework che propone l'Intelligence Index per valutare l'efficienza delle reti neurali quantizzate. Questo indice unifica compressione, accuratezza e latenza in un unico punteggio, rivelando come la quantization o...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • ArXiv cs.CL

Il Modello Bicamerale: LLM in Sincronia per Funzionalità Avanzate

Un nuovo approccio, il Modello Bicamerale, permette a due Large Language Models (LLM) di coordinarsi tramite un canale continuo e concorrente, anziché la serializzazione testuale. Accoppiando LLM "congelati" con un'interfaccia neurale sugli stati nas...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • LocalLLaMA

LoRA: Ottimizzare il Fine-Tuning degli LLM per i Deployment On-Premise

La tecnica LoRA (Low-Rank Adaptation) si afferma come soluzione chiave per il fine-tuning efficiente dei Large Language Models (LLM), specialmente in contesti on-premise. Riducendo i requisiti di VRAM e accelerando il processo di adattamento, LoRA pe...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

llama.cpp introduce llama-eval: la valutazione locale dei modelli diventa realtà

Il progetto Open Source llama.cpp ha integrato un nuovo strumento, llama-eval, che abilita la valutazione locale dei Large Language Models. Questa funzionalità è cruciale per gli specialisti IT che desiderano confrontare modelli quantizzati e sottopo...

#Hardware #LLM On-Premise #Fine-Tuning

Sviluppo, Ottimizzazione e Performance degli LLM

Articoli Correlati