Progressi nel Deployment Locale e On-Premise di LLM

2026-05-11 • LocalLLaMA

LLM locali: Qwen 3.6 35B A3B eccelle nella comprensione del codice specialistico

Un'analisi indipendente rivela progressi significativi nei Large Language Models (LLM) locali, in particolare Qwen 3.6 35B A3B, nella comprensione di codice accademico di nicchia. Grazie a finestre di contesto estese, questi modelli superano le capac...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

MiMo-V2.5-GGUF su Hugging Face: le sfide del deployment locale di LLM

Il rilascio del modello MiMo-V2.5 in formato GGUF su Hugging Face, segnalato dalla community LocalLLaMA, solleva interrogativi cruciali sulle capacità hardware necessarie per l'inference di Large Language Models in ambienti self-hosted. Questo format...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • ArXiv cs.CL

IntentGrasp: Un Nuovo Benchmark per la Comprensione dell'Intento negli LLM

Un nuovo studio introduce IntentGrasp, un benchmark completo per valutare la capacità degli LLM di comprendere l'intento. Le analisi su 20 modelli di punta rivelano performance insoddisfacenti, con punteggi ben al di sotto delle aspettative e della c...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • ArXiv cs.CL

VITA-QinYu: un LLM vocale espressivo per il role-playing e il canto

VITA-QinYu è un innovativo Spoken Language Model (SLM) end-to-end, progettato per generare linguaggio vocale espressivo. Va oltre la conversazione naturale, supportando anche il role-playing e il canto. Il modello adotta un paradigma ibrido testo-aud...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-11 • ArXiv cs.LG

LKV: Ottimizzare la Cache KV degli LLM per Contesti Estesi e Deployment Efficienti

La gestione della cache Key-Value (KV) rappresenta un collo di bottiglia critico per l'inference di Large Language Models (LLM) con contesti lunghi, limitando l'efficienza e i requisiti di VRAM. LKV introduce un approccio innovativo basato sull'ottim...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • ArXiv cs.LG

RateQuant: Ottimizzare il KV Cache degli LLM con Precisione Mista

La gestione della memoria è una sfida cruciale per i Large Language Models (LLM), in particolare a causa del KV cache che cresce linearmente con la lunghezza della sequenza. RateQuant propone una soluzione innovativa basata sulla teoria rate-distorti...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • ArXiv cs.AI

Più Ragionamento, Più Bias: La Correlazione tra Lunghezza della Traiettoria e Bias di Posizione nei Modelli LLM

Una nuova ricerca rivela che i Large Language Models (LLM) basati su ragionamento, come quelli che utilizzano la Chain-of-Thought (CoT), non eliminano completamente i bias euristici. Al contrario, il bias di posizione nelle risposte a scelta multipla...

#LLM On-Premise #DevOps

2026-05-11 • ArXiv cs.AI

GraphDC: Un sistema multi-agente scalabile per il ragionamento algoritmico con LLM

Gli LLM mostrano limiti nel risolvere problemi algoritmici complessi sui grafi, specialmente su larga scala. GraphDC propone un framework multi-agente basato sul principio "Divide-and-Conquer" che scompone i grafi in sottografi. Agenti specializzati ...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • DigiTimes

Alibaba Qwen: gli agenti AI ridefiniscono il futuro dell'e-commerce

Il modello Qwen di Alibaba si posiziona come un catalizzatore per l'integrazione di agenti AI autonomi nel settore dell'e-commerce. Questa evoluzione promette interazioni più intelligenti e personalizzate, ma solleva questioni cruciali relative all'i...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • DigiTimes

Ennoconn rafforza l'AI industriale in Europa: cresce la domanda on-premise

Ennoconn, attore chiave nel settore delle soluzioni industriali, sta intensificando i suoi sforzi nell'intelligenza artificiale per il comparto manifatturiero. Questa mossa risponde a una crescente domanda in Europa, dove le aziende cercano soluzioni...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Dall'efficienza alla stabilità: l'esperienza di un utente con i Framework LLM locali

La scelta del framework giusto per i Large Language Models (LLM) in ambienti on-premise è cruciale per performance e stabilità. Un utente ha condiviso la sua transizione da OpenCode a Pi, motivata da lentezza e blocchi, trovando in Pi maggiore veloci...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

LLM in locale: le sfide dell'inference on-premise e l'impatto hardware

L'adozione di Large Language Models in ambienti locali sta crescendo, spinta da esigenze di sovranità dei dati e controllo sui costi. Tuttavia, l'inference on-premise pone sfide significative all'hardware, come evidenziato dall'esperienza di utenti c...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • TechCrunch AI

Anthropic: le rappresentazioni fittizie dell'AI plasmano i modelli reali

Anthropic ha rivelato che le narrazioni di fantasia sull'intelligenza artificiale possono influenzare il comportamento dei Large Language Models. L'azienda ha collegato queste rappresentazioni ai "tentativi di ricatto" manifestati dal suo modello Cla...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-10 • LocalLLaMA

Inference Speculativa per LLM: il Tipo di Task Determina Vantaggi o Rallentamenti

Nuovi benchmark sull'inference speculativa (MTP) con LLM rivelano che il tipo di task è il fattore dominante per l'efficienza. Mentre le attività di coding beneficiano di notevoli accelerazioni, la scrittura creativa può subire rallentamenti. La larg...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Hermes Agent in Vetta: Il Modello Più Utilizzato su Openrouter

Hermes Agent ha conquistato la posizione di modello più utilizzato a livello globale su Openrouter, superando giganti come Claude Code e OpenClaw nelle metriche di consumo di token. Questo dato, emerso dalle rilevazioni delle ultime 24 ore, evidenzia...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DeepSeek-V4-Flash: Alte prestazioni con MTP su GPU RTX PRO 6000 Max-Q

Un recente sviluppo dimostra come il modello DeepSeek-V4-Flash, ottimizzato con MTP self-speculation e tecniche di quantization avanzate, possa raggiungere prestazioni notevoli su hardware on-premise. Utilizzando due NVIDIA RTX PRO 6000 Max-Q con 96 ...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Gemma-4-26b-a4b eccelle nella generazione di codice three.js in un setup locale

Un esperimento condotto da un utente ha messo in luce le notevoli capacità del modello `gemma-4-26b-a4b` nella generazione di codice `three.js` da prompt singoli. Un'applicazione Python personalizzata ha automatizzato il testing, dimostrando come i L...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DS4: Salvatore Sanfilippo ottimizza DeepSeek V4 Flash per l'inference locale

Salvatore Sanfilippo, il creatore di Redis, ha lanciato DS4, un nuovo progetto su GitHub. L'iniziativa mira a eseguire DeepSeek V4 Flash con una finestra di contesto di 1 milione di token su hardware Mac Metal, sfruttando tecniche innovative. Il prog...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Percepire la velocità degli LLM: oltre i numeri di tokens/secondo

La velocità di output degli LLM, misurata in tokens/secondo, è un parametro cruciale per i deployment on-premise, ma spesso difficile da interpretare soggettivamente. Un nuovo strumento web mira a colmare questo divario, offrendo una percezione prati...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

LLM locali per agenti di coding: sfide di performance su hardware consumer

Un utente ha testato Qwen 3.6 35B-A3B su una NVIDIA 5060 Ti (16GB VRAM) per un agente di coding locale. Sebbene le performance iniziali siano discrete, il modello rallenta significativamente con un contesto elevato, raggiungendo solo 9 token/sec. Que...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Dilemma On-Premise: Costruire un Server LLM per Coding Agentico con 100.000 Dollari

Un imprenditore si trova di fronte alla sfida di configurare un server LLM on-premise con un budget di 100.000 dollari. L'obiettivo primario è supportare modelli di coding agentico self-hosted, garantendo la sovranità dei dati e riducendo i costi ope...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Agenti LLM: Navigare la Hype, le Sfide del Deployment Locale e le Applicazioni Reali

Un utente esprime confusione e frustrazione riguardo agli agenti basati su LLM, evidenziando la difficoltà di distinguere soluzioni valide dalla mera hype. La mancanza di una GPU impedisce test locali, mentre l'interesse si concentra su applicazioni ...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

llama.cpp: Tensor Parallelism senza NCCL su GPU Blackwell PCIe consumer

La versione b9095 del framework `llama.cpp` introduce il supporto per il Tensor Parallelism senza la necessità di NCCL, specificamente per configurazioni con due GPU Blackwell PCIe di fascia consumer. Questa novità rappresenta un passo significativo ...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Navigare il codice con l'AI: i grafi semantici con LLM superano gli embeddings

Un team di sviluppatori ha rivelato che gli approcci tradizionali per il retrieval di codice, come gli embeddings vettoriali e il parsing AST, sono insufficienti per una comprensione profonda. La soluzione più efficace si basa su grafi di conoscenza ...

#LLM On-Premise #DevOps #RAG

2026-05-10 • LocalLLaMA

DeepSeek V4 Pro su workstation: un esempio di deployment LLM on-premise

Un utente ha dimostrato la capacità di eseguire il modello DeepSeek V4 Pro, nella sua versione quantizzata Q4_K_M, su una workstation Epyc dotata di una singola GPU NVIDIA RTX PRO 6000 Blackwell Max-Q con quasi 97 GB di VRAM. Questo caso evidenzia la...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • The Next Web

Alibaba potenzia Taobao con Qwen AI per un'esperienza di acquisto 'agentica'

Alibaba sta integrando la sua applicazione Qwen AI con le piattaforme Taobao e Tmall. Questa mossa mira a creare un'esperienza di shopping "agentica" end-to-end, offrendo accesso a un catalogo di oltre 4 miliardi di articoli e un checkout nativo con ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-10 • LocalLLaMA

RTX 3080 da 20GB: la ricerca di hardware custom per LLM on-premise

L'interesse per le GPU modificate, come la NVIDIA RTX 3080 con 20GB di VRAM, evidenzia la crescente domanda di soluzioni hardware economiche per l'esecuzione di Large Language Models (LLM) in locale. Gli utenti cercano alternative alle schede standar...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

La sfida dei framework per LLM on-premise: scegliere la soluzione giusta per llama.cpp

La proliferazione di strumenti per la gestione di Large Language Models in ambienti self-hosted, in particolare per `llama.cpp`, presenta una complessità crescente. Gli specialisti IT si trovano a dover bilanciare funzionalità, stabilità e compatibil...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-10 • LocalLLaMA

LLM on-premise: l'esperienza insegna più della teoria

L'implementazione di Large Language Models (LLM) in ambienti self-hosted rivela una distinzione cruciale tra conoscenza teorica e comprensione pratica. Sebbene l'AI sembri abbassare la barriera d'ingresso, l'esperienza diretta dimostra che l'adozione...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-09 • LocalLLaMA

Un Anno di Progressi nel Deployment Locale di LLM: Il Caso del Progetto MCP

Un anno dopo il suo lancio su Reddit, il progetto open source MCP di u/taylorwilsdon celebra i progressi nel campo dei Large Language Models locali. L'iniziativa evidenzia come l'esecuzione di LLM come Gemma4 e Qwen3.6 su hardware come il Mac Mini si...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Apple ridimensiona l'offerta M3 Ultra: impatto sulle configurazioni per LLM on-premise

Apple ha rimosso il modello Mac Studio M3 Ultra da 256GB dal suo store online, alimentando preoccupazioni tra gli sviluppatori e gli architetti infrastrutturali che puntano a deployment di Large Language Models (LLM) in locale. Questa mossa, che segu...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

BeeLlama.cpp: Ottimizzazione Estrema per LLM Locali su GPU Consumer

BeeLlama.cpp, una derivazione avanzata di llama.cpp, introduce DFlash e TurboQuant per migliorare l'inference di Large Language Models (LLM) su hardware locale. La soluzione permette di eseguire Qwen 3.6 27B Q5 con un contesto di 200.000 token su una...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Ottimizzazione LLM su hardware AMD: Qwen3.6-27B accelera con MTP e Parallelismo Tensoriale

Un recente test ha dimostrato significativi miglioramenti nelle prestazioni di inference per il modello Qwen3.6-27B, quantizzato in Q4_1, eseguito su una configurazione duale di GPU AMD Radeon Instinct Mi50. L'applicazione combinata delle tecniche Mu...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

LLM on-premise: Qwen3.6 35B raggiunge 80 tok/sec con 12GB VRAM

Un recente test dimostra come sia possibile ottenere prestazioni significative per l'inference di Large Language Models (LLM) su hardware consumer. Utilizzando il modello Qwen3.6 35B A3B e il framework llama.cpp con Multi-Token Prediction (MTP), un u...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Agenti LLM locali e Qwen3.6 27B: semplificare la gestione di Archlinux

Un utente ha sperimentato l'uso di un agente LLM, il "pi coding agent", in combinazione con Qwen3.6 27B su hardware locale per configurare un sistema Archlinux. L'approccio ha permesso di gestire complesse impostazioni di sistema, come Bluetooth e ri...

#Hardware #LLM On-Premise

2026-05-09 • LocalLLaMA

Qwen e i costi nascosti del deployment LLM on-premise

Anche i Large Language Models (LLM) apparentemente "gratuiti" o open-weight come Qwen comportano costi significativi per il deployment on-premise. L'analisi del Total Cost of Ownership (TCO) rivela che l'investimento in hardware, l'energia, il raffre...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Quando la poesia anticipa l'AI: Shel Silverstein e le 'allucinazioni' degli LLM

Un utente di Reddit ha riscoperto una poesia di Shel Silverstein del 1981, trovandovi un'inaspettata premonizione sui Large Language Models (LLM) e il loro noto fenomeno delle "allucinazioni". L'osservazione, seppur umoristica, solleva interrogativi ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-09 • LocalLLaMA

Qwen3.6-35B-A3B: un LLM 'uncensored' per deployment on-premise e sovranità dei dati

È stato rilasciato Qwen3.6-35B-A3B, un Large Language Model da 35 miliardi di parametri caratterizzato da una configurazione "uncensored" e dalla piena preservazione dei suoi 19 MTP. Disponibile in formati ottimizzati come Safetensors, GGUF, NVFP4 e ...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Aprile 2026: Una Svolta per i Large Language Models Locali

Il mese di aprile 2026 ha segnato un punto di svolta significativo per i Large Language Models (LLM) destinati a deployment locali. Questa evoluzione apre nuove opportunità per le aziende che cercano maggiore controllo sui dati, sovranità e ottimizza...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Qwen3.6-27B su RTX 4090: 80 t/s con MTP e TurboQuant a 262K di contesto

Un recente esperimento ha dimostrato la capacità di eseguire il Large Language Model Qwen3.6-27B su una singola GPU NVIDIA RTX 4090, raggiungendo performance di 80-87 token al secondo con una finestra di contesto di ben 262K token. L'ottimizzazione è...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Qwen 35B-A3B su 12GB VRAM: prestazioni solide per LLM on-premise

Un'analisi tecnica rivela che 12GB di VRAM, come quelli offerti da una RTX 3060, rappresentano un punto di equilibrio ideale per l'esecuzione locale del modello LLM Qwen 35B-A3B. Questa configurazione permette di mantenere un numero sufficiente di bl...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

AI2 presenta EMO: un nuovo LLM MoE con routing documentale avanzato

AI2 ha rilasciato EMO, un nuovo Large Language Model basato su architettura Mixture of Experts. Addestrato su un trilione di token, EMO presenta 1 miliardo di parametri attivi su un totale di 14 miliardi. La sua innovazione risiede nel routing a live...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Lemonade integra vLLM con supporto ROCm: un nuovo backend sperimentale per LLM on-premise

Lemonade, una piattaforma per l'esecuzione locale di Large Language Models, ha annunciato l'integrazione sperimentale di vLLM con supporto ROCm. Questa novità permette di eseguire LLM in formato `.safetensors` direttamente su hardware AMD, offrendo a...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

z-lab rilascia DFlash per Gemma 4 26B: un nuovo approccio all'inference LLM on-premise

z-lab ha introdotto DFlash, una nuova tecnicia per l'inference di Large Language Models come Gemma 4 26B. Promettendo miglioramenti significativi nella gestione del contesto e nella velocità rispetto ad alternative come MTP, DFlash si propone come so...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Gemma 4 26B: Oltre 570 token/s su una singola RTX 5090 con DFlash

Un recente benchmark ha dimostrato come la decodifica speculativa DFlash in vLLM possa accelerare significativamente l'inference di Large Language Models. Testando Gemma 4 26B su una RTX 5090 con 32GB VRAM, si è raggiunto un throughput di quasi 580 t...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Transformer Lab: fine-tuning di LLM TTS su hardware locale

Transformer Lab, una piattaforma open source per la ricerca in machine learning, ha presentato una demo che illustra il processo di fine-tuning del modello Orpheus 3B per applicazioni text-to-speech. La soluzione permette agli utenti di eseguire l'ad...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Qwen3.6-27B su llama.cpp MTP: le sfide del contesto esteso on-premise

Un'analisi approfondita dell'implementazione di Qwen3.6-27B con llama.cpp MTP rivela sfide significative nella gestione di contesti estesi per i Large Language Models self-hosted. I dati mostrano un calo delle prestazioni di generazione oltre gli 85....

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

NVIDIA Personaplex e il Tool Calling: capacità e implicazioni per i LLM

NVIDIA Personaplex, un modello vocale in tempo reale, solleva interrogativi sul supporto al Tool Calling. Questa capacità, cruciale per l'interazione dei Large Language Models con sistemi esterni, è fondamentale per estendere le loro funzionalità. L'...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Consumi di memoria crescenti in llama.cpp: un'analisi on-premise

Un utente ha segnalato un consumo di memoria progressivamente crescente durante l'esecuzione di un LLM da 105GB con un contesto di 150K token su un sistema locale da 128GB, utilizzando `llama.cpp` e LM Studio. Nonostante i tentativi di liberare la me...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

DS4: un motore di inference ottimizzato per DeepSeek 4 su MacBook da 128GB

Il progetto DS4 introduce un motore di inference specifico per il modello DeepSeek 4, progettato per operare in modo efficiente sui MacBook dotati di 128GB di RAM. Questa iniziativa, guidata da antirez, si concentra sull'ottimizzazione per la memoria...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Il 'Tiny Lab' per LLM: un approccio self-hosted alla sperimentazione AI

L'idea di un 'tiny lab' personale per Large Language Models evidenzia la crescente tendenza verso deployment self-hosted. Questa scelta offre controllo sui dati e costi operativi prevedibili, contrapponendosi alle soluzioni cloud e ponendo l'accento ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • Phoronix

OpenZL 0.2 di Meta: l'evoluzione della compressione consapevole dei formati

Meta ha rilasciato OpenZL 0.2, la nuova versione del suo framework di compressione dati consapevole dei formati. Annunciato lo scorso ottobre, OpenZL punta a offrire velocità elevate e rapporti di compressione superiori, rappresentando il successore ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • Tom's Hardware

DeepMind addestra l'AI su Eve Online: Google investe in Fenris Creations

Google DeepMind avvia un progetto per addestrare l'intelligenza artificiale sulle complesse interazioni dei giocatori nel MMORPG Eve Online. L'iniziativa è supportata da un investimento di Google in Fenris Creations, la società dietro il gioco. L'obi...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • The Next Web

OpenAI introduce GPT-Realtime-2 e nuovi modelli vocali per API

OpenAI ha ampliato la sua offerta di modelli vocali tramite API, introducendo GPT-Realtime-2 con capacità di ragionamento di classe GPT-5 per l'audio in tempo reale. L'azienda ha inoltre rilasciato un modello di traduzione che supporta oltre 70 lingu...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • Phoronix

AMD spinge l'AI locale open source: integrazione con Gmail per GAIA

AMD continua a rafforzare il suo impegno nell'intelligenza artificiale locale e open source, focalizzandosi sull'hardware consumer Radeon e Ryzen. La recente versione 0.17.6 del software AMD GAIA introduce miglioramenti significativi per l'elaborazio...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Ottimizzazione e costi: la sfida dell'addestramento per LLM di piccole dimensioni

Un'iniziativa accademica evidenzia le sfide e i costi associati all'addestramento di Large Language Models (LLM) di dimensioni contenute, con l'obiettivo di migliorarne la coerenza e ridurre le allucinazioni. L'impegno, finanziato da una docente univ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • ArXiv cs.CL

L'IA Generativa Valuta il Pensiero Critico: Uno Studio sui Contro-Argomenti

Uno studio esplora l'uso di LLM per valutare il pensiero critico negli studenti, in particolare la capacità di formulare contro-argomenti. La ricerca ha coinvolto 36 studenti e ha confrontato le valutazioni umane con quelle di sei LLM di frontiera, u...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • ArXiv cs.CL

AdaGATE: RAG multi-hop più robusta con selezione di evidenze token-efficiente

AdaGATE è un nuovo controller per la Retrieval-Augmented Generation (RAG) multi-hop, progettato per affrontare la fragilità dei sistemi attuali con evidenze rumorose o ridondanti e contesti limitati. Senza richiedere training, AdaGATE ottimizza la se...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-08 • ArXiv cs.LG

Minimi piatti: un'illusione nella generalizzazione dei modelli AI?

Una nuova ricerca mette in discussione il ruolo dei "minimi piatti" nella generalizzazione delle reti neurali. Lo studio suggerisce che la "debolezza" (weakness), definita dal comportamento del modello, sia un predittore più robusto e invariante risp...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • ArXiv cs.AI

ZAYA1-8B: L'LLM MoE di Zyphra Affina il Ragionamento su Piattaforma AMD

Zyphra ha presentato ZAYA1-8B, un Large Language Model (LLM) Mixture-of-Experts (MoE) focalizzato sul ragionamento, con 700 milioni di parametri attivi e 8 miliardi totali. Addestrato su una piattaforma AMD completa, il modello dimostra performance c...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • ArXiv cs.AI

APM: Decifrare le Politiche di Sicurezza degli LLM per Deployment Più Trasparenti

Un nuovo approccio, gli Annotator Policy Models (APM), promette di migliorare la comprensione delle politiche di sicurezza degli LLM. Analizzando il comportamento degli annotatori, sia umani che basati su LLM, gli APM identificano ambiguità e differe...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-08 • LocalLLaMA

Decifrare il Pensiero degli LLM: Anthropic Rilascia i Pesi NLA per Gemma 3

Anthropic ha svelato una nuova ricerca che permette di comprendere i processi interni degli LLM durante la generazione di testo. Utilizzando i Natural Language Autoencoders (NLA), è ora possibile visualizzare i "pensieri" di un modello come Gemma 3 2...

#LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

LLMSearchIndex: Ricerca Web Locale Open Source con oltre 200 milioni di pagine per RAG

LLMSearchIndex è una nuova libreria Python open source che offre una soluzione di ricerca web completamente locale, progettata per i sistemi RAG basati su LLM. Con un indice altamente compresso di circa 2 GB, che include oltre 200 milioni di pagine w...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Horus: L'LLM Open Source Egiziano che Punta a Ridefinire il Panorama AI Regionale

Il progetto Horus, sviluppato da Assem Sabry e TokenAI, segna un traguardo significativo come il primo Large Language Model (LLM) interamente creato da zero in Egitto. Open source e disponibile su piattaforme come Hugging Face e GitHub, Horus si prep...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-08 • LocalLLaMA

Ottimizzazione LLaMA.cpp: Multi-Token Prediction accelera Gemma 4 su hardware locale

Un'implementazione di Multi-Token Prediction (MTP) per LLaMA.cpp ha dimostrato un aumento del 40% nella velocità di generazione di token per il modello Gemma 26B, quantizzato in formato GGUF. I test, condotti su un MacBook Pro M5Max, evidenziano il p...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Qwen 3.6 27B su iGPU AMD: un test di Inference locale con LLAMA CPP

Un utente ha testato il modello Qwen 3.6 27B, in formato GGUF e con Quantization Q4.0, su una iGPU AMD dotata di 64GB di memoria unificata, utilizzando il Framework LLAMA CPP. I risultati indicano una performance sorprendente, paragonabile a quella d...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

K2.6 eccelle in un benchmark di coding indipendente, superando modelli noti

Un benchmark di coding indipendente, akitaonrails, ha posizionato il modello K2.6 nella fascia A con un punteggio di 87, superando concorrenti come Qwen 3.6 plus e Deepseek v4 flash. Questo risultato, basato su una metodologia fissa, evidenzia le cap...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

LLM on-premise: Qwen 27B vs 35B MoE su RTX 5080 con 16GB VRAM

Un professionista sta valutando due versioni del modello Qwen3.6, una dense da 27 miliardi di parametri e una MoE da 35 miliardi, per carichi di lavoro di coding e agenti su una GPU RTX 5080 con 16GB di VRAM. La sfida è ottimizzare le performance, la...

#Hardware #LLM On-Premise #DevOps

2026-05-07 • LocalLLaMA

LLM locali: la soglia di 'sufficienza' si alza, cambiano le architetture AI

Una tendenza emergente mostra che i Large Language Models (LLM) locali stanno diventando sufficientemente performanti per molti carichi di lavoro quotidiani, riducendo la dipendenza dai modelli cloud di punta. Questo sposta il focus verso architettur...

#Hardware #LLM On-Premise #DevOps

2026-05-07 • LocalLLaMA

ARC-AGI-2: Un Modello Ricorsivo Sfida i Giganti con una Sola RTX 4090

Un team ha sviluppato TOPAS, un modello ricorsivo da 100 milioni di parametri, dimostrando che l'innovazione architetturale può superare la pura potenza di calcolo. Valutato localmente al 36% e sulla leaderboard pubblica al 11.67% a causa di vincoli ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • LocalLLaMA

ZAYA1-8B: Zyphra punta sull'efficienza per i Large Language Models on-premise

Zyphra ha introdotto ZAYA1-8B, un Large Language Model da 8 miliardi di parametri. Il modello è progettato per offrire un'elevata 'densità di intelligenza', rendendolo particolarmente adatto per deployment on-premise e in ambienti con risorse hardwar...

#Hardware #LLM On-Premise #DevOps

2026-05-07 • LocalLLaMA

MiMo v2.5 arriva su llama.cpp: un LLM multimodale per l'inference locale

L'integrazione del modello MiMo v2.5 in `llama.cpp` segna un passo significativo per l'inference di Large Language Models multimodali su hardware locale. Con un'architettura Sparse MoE da 310 miliardi di parametri totali (di cui 15 miliardi attivati)...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • LocalLLaMA

Qwen 3.6: Nuovi Modelli e le Sfide del Deployment On-Premise

La serie Qwen 3.6 ha visto recenti rilasci di modelli da 27B e 35B parametri, alimentando l'attesa per versioni da 9B e 122B. Questa diversità di scale pone interrogativi cruciali per le strategie di deployment on-premise, influenzando direttamente i...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • LocalLLaMA

Ottimizzazione LLM On-Premise: il Dilemma della Decodifica Speculativa in llama.cpp

La community di `llama.cpp` si interroga sulla possibilità di combinare diverse metodologie di decodifica speculativa, come "mtp speculative decode" e `ngram`. L'impossibilità attuale di utilizzarle simultaneamente, nonostante i benefici specifici di...

#Hardware #LLM On-Premise #DevOps

2026-05-07 • DigiTimes

Il modello ACE-1 di APMIC eccelle nella valutazione AI sovrana di Taiwan

APMIC ha raggiunto un traguardo significativo con il suo Large Language Model ACE-1, che si è classificato tra i primi cinque a livello globale in una recente valutazione di intelligenza artificiale sovrana condotta a Taiwan. Questo risultato sottoli...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • ArXiv cs.CL

APMPO: l'ottimizzazione adattiva che potenzia il ragionamento degli LLM

APMPO (Adaptive Power-Mean Policy Optimization) è una nuova metodologia che affronta i limiti delle attuali tecniche di Reinforcement Learning with Verifiable Rewards (RLVR) per i Large Language Models. Introducendo un obiettivo generalizzato di powe...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-07 • ArXiv cs.CL

FREIA: L'RL non supervisionato che affina il ragionamento degli LLM

Un nuovo algoritmo, FREIA, promette di migliorare le capacità di ragionamento dei Large Language Models (LLM) attraverso il Reinforcement Learning (RL) non supervisionato. Affrontando i limiti dei metodi esistenti, FREIA introduce un sistema di ricom...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • ArXiv cs.LG

MetaAdamW: un ottimizzatore con auto-attenzione per training AI più efficiente

Un nuovo ottimizzatore, MetaAdamW, integra un meccanismo di auto-attenzione per modulare dinamicamente i tassi di apprendimento e il decadimento del peso per gruppi di parametri. Superando i limiti degli ottimizzatori tradizionali, MetaAdamW migliora...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • ArXiv cs.LG

Dinamiche di Apprendimento Irriducibili: Verso un'Intelligenza Artificiale Autonoma

Una nuova ricerca introduce le "dinamiche scalari irriducibili", una classe di meccanismi di apprendimento che si distingue dai tradizionali flussi di gradiente. A differenza dei framework di machine learning attuali, che spesso richiedono interventi...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-07 • ArXiv cs.AI

CreativityBench: Valutare il Ragionamento Creativo degli LLM nel Riuso di Strumenti

CreativityBench è un nuovo benchmark che indaga la capacità degli LLM di risolvere problemi in modo creativo, riutilizzando oggetti in base alle loro proprietà e funzionalità implicite (affordances). I test su dieci Large Language Models, inclusi mod...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-07 • LocalLLaMA

Qwen3.6-27B: Una Nuova Versione 'Uncensored' Ottimizzata per Deployment Locali

È stata rilasciata una nuova versione del modello Qwen3.6-27B, denominata 'uncensored heretic v2 Native MTP Preserved'. Questo LLM da 27 miliardi di parametri si distingue per un tasso di rifiuto estremamente basso (6/100) e per la capacità di manten...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • LocalLLaMA

ParoQuant: Ottimizzare l'Inference degli LLM con la Quantization a Rotazione

ParoQuant introduce una tecnica di quantization innovativa, la "Pairwise Rotation Quantization", progettata per rendere più efficiente l'inference degli LLM, in particolare per i carichi di lavoro di ragionamento. Questa metodologia mira a ridurre i ...

#Hardware #LLM On-Premise #DevOps

2026-05-07 • LocalLLaMA

Ottimizzare Qwen 3.6 27B on-premise: performance e configurazioni su RTX 3090

Un utente ha condiviso una configurazione per accelerare l'inference del modello Qwen 3.6 27B (MTP GGUF) su una GPU NVIDIA RTX 3090. La configurazione, basata su `llama.cpp` e tecniche come la decodifica speculativa e Flash Attention, permette di rag...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-07 • LocalLLaMA

LLM on-premise: il prefill è il vero collo di bottiglia, non la generazione?

Una discussione emersa in una community tecnica solleva un quesito cruciale per i deployment di Large Language Models (LLM) on-premise: la velocità di elaborazione del prompt (prefill) potrebbe essere un fattore limitante più significativo della velo...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

Qwen3.6-35B-A3B con MTP: analisi delle performance su hardware locale

Un'analisi approfondita esplora le performance del modello Qwen3.6-35B-A3B, ottimizzato con MTP (Multi-Token Prediction), su configurazioni hardware locali. I test iniziali mostrano incrementi di velocità modesti (6% per Q4, 2.5% per Q8) rispetto ai ...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

ZAYA1-8B: Un LLM da 8B parametri spinge i confini dell'efficienza su hardware AMD

Zyphra ha presentato ZAYA1-8B, un Large Language Model da 8 miliardi di parametri che promette un'elevata densità di intelligenza. La sua particolarità risiede nell'addestramento su architetture AMD, un dettaglio significativo per il panorama degli L...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • LocalLLaMA

Qwen 3.6 27B: inference 2.5x più rapida con MTP per deployment locali

Un recente aggiornamento a `llama.cpp` introduce il supporto per la Multi-Token Prediction (MTP) nel modello Qwen 3.6 27B, accelerando l'inference fino a 2.5 volte. Questa innovazione, combinata con la compressione della KV cache a 4-bit e un'ampia f...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • Ars Technica AI

Gemma 4 di Google: Multi-Token Prediction Accelera l'Inference Locale fino a 3x

Google ha introdotto Multi-Token Prediction (MTP) per i suoi LLM Gemma 4, ottimizzati per l'esecuzione locale. Questa nuova funzionalità sperimentale, basata su speculative decoding, promette di velocizzare la generazione di token fino a tre volte, a...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

Qwen3.6 27B su RTX 5090: 200k token di contesto con vLLM in locale

Un recente test ha dimostrato la capacità di eseguire il modello Qwen3.6 27B, quantizzato in NVFP4, su una singola GPU NVIDIA RTX 5090 con 32GB di VRAM. Utilizzando il framework vLLM, il setup ha gestito una finestra di contesto di 200.000 token, rag...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

Gemma 4 26B: Un Nuovo Approccio per LLM Locali con Attenzione Decoupled

Una nuova tecnica promette di superare i limiti di scalabilità dei Large Language Models (LLM) su hardware locale. L'approccio prevede il decoupling del meccanismo di attenzione, che richiede pochi gigabyte di memoria, dai pesi del modello, che posso...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

Qwen3-27B e MTP: un boost di throughput del 250% per l'inference LLM on-premise

Un recente sviluppo ha dimostrato come l'implementazione della Multi-Token Prediction (MTP) per il modello Qwen3-27B, tramite una versione modificata di `llama.cpp`, possa incrementare il throughput dei token di circa 2,5 volte. Questa tecnica, che c...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • OpenAI Blog

OpenAI presenta MRC: un nuovo protocollo di rete per l'AI su larga scala

OpenAI ha introdotto MRC (Multipath Reliable Connection), un nuovo protocollo di rete per supercomputer. Rilasciato tramite OCP, mira a migliorare la resilienza e le prestazioni nei cluster di training AI su larga scala, offrendo soluzioni cruciali p...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • LocalLLaMA

Solidity LM supera Opus: un nuovo benchmark per i Large Language Models on-premise

Un progetto indipendente, Solidity LM, ha dimostrato capacità superiori rispetto a Opus 4.7 in specifici compiti di elaborazione del linguaggio. Basato sul modello Qwen3.6-Solidity-27B, questo sviluppo evidenzia il potenziale dei Large Language Model...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • The Register AI

Agenti AI su AWS WorkSpaces: il costo di 500.000 token per interazione

AWS ha abilitato l'uso di agenti AI all'interno dei suoi ambienti WorkSpaces, desktop virtuali basati su cloud. Un benchmark interno suggerisce che l'interazione tramite API è più efficiente e meno costosa rispetto all'automazione basata su interfacc...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • LocalLLaMA

Qwen 3.6 27B: Valutazione delle Quantizzazioni per Deployment On-Premise

Un'analisi approfondita ha esaminato l'impatto della quantization sulla qualità e performance del modello LLM Qwen 3.6 27B, testato su hardware con VRAM limitata. La ricerca ha confrontato diverse configurazioni, dalla precisione BF16 a quantizzazion...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • LocalLLaMA

Gemma 4 vs Qwen 3.6: La Scelta del Modello Locale per l'Enterprise

L'emergere di LLM come Gemma 4 e Qwen 3.6 pone le aziende di fronte a decisioni strategiche per il deployment locale. Nonostante i benchmark possano indicare una superiorità, la scelta ideale dipende da fattori come i requisiti hardware, i casi d'uso...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • ArXiv cs.CL

Autoverifica dei Large Language Models: un segnale di fiducia condizionale

Uno studio recente esplora l'efficacia dell'autoverifica nei Large Language Models come segnale di fiducia condizionale. La ricerca confronta questo approccio con baselines basate sulla probabilità, rivelando che la sua utilità dipende fortemente dal...

#LLM On-Premise #DevOps

2026-05-06 • ArXiv cs.LG

eOptShrinkQ: Compressione quasi lossless per la KV Cache, un boost per gli LLM on-premise

Una nuova ricerca introduce eOptShrinkQ, una pipeline di compressione a due stadi per la KV Cache dei Large Language Models. Basata sulla teoria delle matrici casuali, questa tecnica promette una riduzione quasi lossless delle dimensioni della cache,...

#Hardware #LLM On-Premise #DevOps

2026-05-06 • ArXiv cs.LG

StateSMix: Compressione Lossless On-Premise con Mamba e N-grammi, senza GPU

StateSMix introduce un innovativo compressore lossless che combina un Large Language Model (LLM) di tipo Mamba, addestrato online, con un meccanismo di mixing di contesto basato su n-grammi. Progettato per operare su hardware x86-64 standard senza ri...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-06 • DigiTimes

Aumento dei prezzi AI nel cloud cinese: un segnale per le strategie di deployment

I provider cloud cinesi stanno incrementando i costi dei servizi AI, una mossa che riflette il crescente utilizzo dei Large Language Models e la domanda di risorse computazionali. Questa tendenza evidenzia le pressioni sui costi operativi e spinge le...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

AMD Strix Halo e llama.cpp: MTP accelera l'inference LLM on-premise

Un recente esperimento ha dimostrato un significativo incremento delle performance nell'inference di Large Language Models (LLM) su hardware AMD Strix Halo, utilizzando `llama.cpp` con il supporto Multi-Token Prediction (MTP). La configurazione, basa...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • Tech in Asia

Workflow AI a più fasi: la sfida della stabilità e dell'automazione

Abhishek Das di Yutori sottolinea come l'automazione basata su workflow AI complessi richieda standard rigorosi, non un'eccessiva fiducia nella pazienza degli utenti. La costruzione di sistemi affidabili impone un approccio metodico per superare le s...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Qwen3.6 e l'interfaccia utente: massimizzare la produttività con agenti locali

Un'analisi rivela come la scelta dell'interfaccia utente o "harness" sia cruciale per le prestazioni degli LLM. L'integrazione di Qwen3.6 35B con `pi.dev` su una macchina locale, affiancata da strumenti come Exa web search, trasforma il modello in un...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Gemma 4 31B vs Qwen 27B: l'efficienza dei token ridefinisce la velocità nell'Inference

Un'analisi comparativa tra i Large Language Models Gemma 4 31B e Qwen 27B rivela un trade-off cruciale: nonostante una velocità di Inference grezza inferiore, Gemma dimostra un'efficienza dei token significativamente maggiore. Questo si traduce in un...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Google accelera l'inference LLM su TPU con il decoding speculativo

Google ha annunciato significativi progressi nell'ottimizzazione dell'inference per i Large Language Models (LLM) sulle sue Tensor Processing Units (TPU). Attraverso l'implementazione di una tecnica di decoding speculativo ispirata ai modelli di diff...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • TechCrunch AI

OpenAI introduce GPT-5.5 Instant: il nuovo modello predefinito per ChatGPT

OpenAI ha annunciato il rilascio di GPT-5.5 Instant, un nuovo Large Language Model destinato a diventare il modello predefinito per ChatGPT. Questa mossa segna un'evoluzione nell'offerta di OpenAI, sostituendo il precedente GPT-3.5 Instant. L'aggiorn...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-05 • OpenAI Blog

GPT-5.5 Instant: l'evoluzione del modello predefinito di ChatGPT

OpenAI ha introdotto GPT-5.5 Instant, un aggiornamento significativo per il modello predefinito di ChatGPT. Questa versione promette risposte più intelligenti e accurate, una drastica riduzione delle "allucinazioni" e controlli di personalizzazione a...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-05 • LocalLLaMA

ProgramBench: i Large Language Models possono davvero ricreare software complessi?

Un nuovo benchmark, ProgramBench, sfida i Large Language Models a costruire programmi completi da zero in un ambiente strettamente isolato. Con 200 task e milioni di test comportamentali, il progetto mira a valutare rigorosamente le capacità degli ag...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Gemma 4 MTP: Decodifica Speculativa per LLM On-Device

Sono state rilasciate le implementazioni Multi-Token Prediction (MTP) per i modelli Gemma 4. Questa tecnicia estende il modello base con un drafter più piccolo e veloce, accelerando la decodifica fino a due volte tramite Speculative Decoding. Mantene...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Il "Pensiero" degli LLM On-Premise: Sfide e Requisiti Frameworkli

L'evocativo "pensiero" degli LLM nasconde un'intensa attività computazionale, ponendo sfide significative per le organizzazioni che scelgono il deployment on-premise. Questo approccio, preferito per sovranità dei dati e controllo, richiede un'attenta...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-05 • LocalLLaMA

Heretic 1.3: Riproducibilità, benchmark e ottimizzazione VRAM per LLM on-premise

Heretic 1.3 introduce funzionalità cruciali per la gestione di Large Language Models in ambienti self-hosted. La nuova versione garantisce la riproducibilità dei modelli, integra un sistema di benchmarking standardizzato e riduce il consumo di VRAM, ...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Qwen 3.6 e il "Preserve Thinking": ottimizzare gli LLM on-premise

La community di r/LocalLLaMA discute l'impatto del flag "preserve thinking" sul modello Qwen 3.6. Questa configurazione, cruciale per i deployment on-premise, influenza la gestione del contesto e il consumo di risorse. L'articolo esplora i trade-off ...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Qwen3.6: Un Template di Chat Unificato Migliora l'Interazione con i LLM Locali

Un utente ha unificato due template di chat per il modello Qwen3.6, creati da allanchan339 e froggeric, per ottimizzare l'interazione con gli LLM. Il nuovo template, testato con `llama-server` e Qwen3.6 35B A3B, introduce funzionalità avanzate come r...

#LLM On-Premise #DevOps

2026-05-05 • Tom's Hardware

RTX 5080 e configurazioni locali: un'analisi per l'inference LLM

Un'offerta su un PC consumer con RTX 5080, 64GB di RAM e CPU 9850X3D solleva interrogativi sulla sua idoneità per carichi di lavoro LLM on-premise. Sebbene configurazioni di questo tipo possano offrire un punto di partenza per l'inference locale di m...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

Consumo energetico di un setup dual RTX 3090 per l'inference LLM: un dato concreto

Un'analisi pratica rivela che un sistema equipaggiato con due GPU NVIDIA GeForce RTX 3090, dedicato all'inference di Large Language Models, assorbe circa 760W alla presa sotto carico. Questo dato, misurato in un contesto self-hosted, offre spunti cru...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

MTP in llama.cpp: i modelli supportati e le sfide del deployment locale

L'imminente integrazione di MTP in `llama.cpp` promette di ottimizzare l'esecuzione di Large Language Models su hardware locale. Modelli come Qwen3.5 e GLM4.5+ sono tra quelli che supporteranno questa novità. Attualmente, il processo richiede la conv...

#Hardware #LLM On-Premise #DevOps

2026-05-05 • ArXiv cs.LG

Agentopic: LLM e agenti AI per la modellazione di argomenti spiegabile e controllabile

Agentopic introduce un workflow basato su agenti AI per la modellazione di argomenti, sfruttando le capacità di ragionamento dei Large Language Models (LLM). Il sistema mira a superare la mancanza di trasparenza dei metodi tradizionali, offrendo spie...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-05 • ArXiv cs.CL

Analisi della Perplessità: un metodo per svelare gli obiettivi di Finetuning degli LLM

Un nuovo metodo basato sulla differenza di perplessità promette di rivelare gli obiettivi di finetuning dei Large Language Models. Questa tecnica, che non richiede accesso agli interni del modello o assunzioni pregresse, è cruciale per identificare c...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-05 • ArXiv cs.CL

H-Probes: Svelare le Strutture Gerarchiche Nelle Rappresentazioni Latenti degli LLM

Una nuova ricerca introduce le H-probes, strumenti progettati per estrarre e analizzare le strutture gerarchiche presenti nelle rappresentazioni latenti dei Large Language Models (LLM). Questo studio rivela come gli LLM non solo gestiscano il ragiona...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-05 • ArXiv cs.AI

AgentReputation: Un Nuovo Framework per la Reputazione nell'AI Agente Decentralizzata

Un nuovo framework, AgentReputation, affronta le sfide della gestione della reputazione nei marketplace di AI agente decentralizzati. Proposto per sistemi che operano senza supervisione centralizzata, il framework a tre strati separa esecuzione dei t...

#LLM On-Premise #DevOps

2026-05-05 • LocalLLaMA

vLLM integra la correzione TurboQuant per i modelli Qwen 3.5+

Il framework vLLM ha integrato una correzione cruciale per la funzionalità TurboQuant, risolvendo un errore 'Not Implemented' che affliggeva i modelli Qwen 3.5+ a causa dei layer Mamba. Questo aggiornamento migliora la compatibilità e l'efficienza ne...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • LocalLLaMA

APEX: Nuovi LLM MoE quantizzati e un tier ultra-compresso per l'inference locale

La strategia di quantization APEX, ottimizzata per i Large Language Models (LLM) di tipo Mixture-of-Experts (MoE), ha ampliato la sua offerta con oltre 30 nuovi modelli. L'introduzione del tier I-Nano promette un'ulteriore riduzione dei requisiti di ...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • Tom's Hardware

AMD Ryzen AI 5 435G: Un Nuovo Chip Zen 5 Per l'AI Locale

AMD ha svelato la APU Ryzen AI 5 435G, un processore a sei core basato sull'architettura Zen 5 con capacità AI integrate. Destinato a sistemi a basso costo, si confronta con il Ryzen 5 8600G, promettendo nuove opportunità per l'inference locale e l'e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-04 • LocalLLaMA

Un LLM locale svela un bug critico sfuggito ai giganti del cloud

Un recente confronto ha evidenziato come un LLM self-hosted, Qwen 3.6 27B, abbia identificato un bug critico che modelli di punta basati su cloud, come GPT 5.5 e Claude Opus 4.7, avevano inizialmente trascurato. L'episodio sottolinea i compromessi tr...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • LocalLLaMA

LLM a confronto: Talkie-1930 e Gemma 4 31B tra locale e cloud

Un recente esperimento ha messo a confronto due Large Language Models, Talkie-1930-13b-it e Gemma 4 31b, in una conversazione simulata. L'iniziativa evidenzia le diverse opzioni di deployment per gli LLM, offrendo sia la possibilità di eseguire i mod...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-04 • LocalLLaMA

LocalVQE: Un modello audio da 1M di parametri per la cancellazione di eco e rumore in tempo reale

LocalVQE, un modello audio compatto da circa un milione di parametri, dimostra la capacità di eliminare eco e rumore in tempo reale. Questa soluzione, presentata in una demo live, evidenzia il potenziale dei modelli di piccole dimensioni per applicaz...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • LocalLLaMA

Llama.cpp: il supporto Multi-GPU Tensor Parallelism entra in beta

Il framework Llama.cpp ha introdotto il supporto beta per il Multi-GPU Tensor Parallelism (MTP), un passo significativo per l'ottimizzazione dell'inference di Large Language Models (LLM) su hardware locale. Questa implementazione, che attualmente inc...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-04 • The Register AI

Mainframe IBM: un'alternativa a VMware più economica per le VM Linux?

Secondo Gartner, per le aziende che valutano alternative a VMware dopo le nuove politiche di licenza di Broadcom, il passaggio ai mainframe IBM potrebbe rivelarsi una soluzione più conveniente. Questa opzione, sebbene offra un'infrastruttura robusta ...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • Tech.eu

Nabu raccoglie 3 milioni di euro per scalare la digitalizzazione doganale in Europa

Nabu, azienda francese con sede tra Parigi e Strasburgo, ha ottenuto un finanziamento di 3 milioni di euro per accelerare la propria espansione europea. La sua piattaforma basata su intelligenza artificiale automatizza le formalità doganali, trasform...

#LLM On-Premise #DevOps

2026-05-04 • LocalLLaMA

Aggiornamento Essenziale per i Modelli Gemma 4 GGUF: Migliorata la Gestione delle Chat

Un aggiornamento critico è disponibile per i modelli Gemma 4 in formato GGUF, risolvendo un problema nel "Chat Template". Questo miglioramento è fondamentale per gli utenti che implementano LLM localmente, garantendo interazioni più fluide e risposte...

#Hardware #LLM On-Premise #DevOps

2026-05-04 • LocalLLaMA

La Quantization di Llama.cpp Sotto Esame: Impatto su Performance e Stabilità

La community di LocalLLaMA ha sollevato preoccupazioni significative riguardo alla qualità della Quantization implementata in llama.cpp, evidenziando come questa influenzi direttamente la performance e la stabilità dei Large Language Models. In parti...

#Hardware #LLM On-Premise #DevOps

Progressi nel Deployment Locale e On-Premise di LLM

Articoli Correlati