Topic / Trend Rising

AI On-Premise e Edge Computing

Questa tendenza evidenzia la crescente adozione e ottimizzazione dei modelli AI, in particolare gli LLM, per l'esecuzione locale su hardware dedicato o dispositivi edge. Le aziende stanno dando priorità alla sovranità dei dati, al controllo dei costi e alle prestazioni per applicazioni aziendali e consumer.

Detected: 2026-05-17 · Updated: 2026-06-12

Articoli Correlati

2026-06-12 DigiTimes

Aumento dei prezzi dei PMIC: impatto sulla supply chain per l'AI on-premise

Global Mixed-mode, produttore taiwanese di PMIC, ha annunciato aumenti di prezzo a causa della persistente carenza di chip. Questa dinamica influisce direttamente sulla catena di fornitura di componenti critici per l'hardware AI, con ripercussioni si...

#Hardware #LLM On-Premise #DevOps
2026-06-12 LocalLLaMA

LLM per contenuti specifici: le sfide di VRAM e Quantization on-premise

La selezione di Large Language Models (LLM) per la generazione di contenuti altamente specifici presenta notevoli sfide tecniche, in particolare per i deployment on-premise. Un utente ha evidenziato la difficoltà nel trovare modelli ottimizzati per 1...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-11 LocalLLaMA

AI on-device: la satira di DiffusionGemma e la realtà dei LLM edge

Una recente provocazione satirica ha immaginato un LLM come DiffusionGemma 4 in esecuzione a 1.500 token/s su un test di gravidanza digitale. Sebbene l'episodio sia fittizio, solleva interrogativi pertinenti sulle frontiere dell'AI on-device e sulla ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-10 LocalLLaMA

LLM on-premise: aspettative e limiti per carichi di lavoro complessi

Le capacità degli LLM locali sono spesso sovrastimate. Sebbene utili per compiti specifici come l'estrazione dati o il fine-tuning, questi modelli faticano con carichi di lavoro complessi e agentici. Il divario rispetto ai modelli di frontiera rimane...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-10 DigiTimes

USA: Stop ai report pubblici sull'AI, un monito per il controllo on-premise

L'amministrazione Trump avrebbe interrotto la pubblicazione di report sulle capacità dell'intelligenza artificiale, citando ragioni di sicurezza nazionale. Questa mossa sottolinea l'importanza crescente della sovranità dei dati e del controllo dirett...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 DigiTimes

COMPUTEX: L'ascesa dei data center AI prefabbricati per deployment on-premise

Il COMPUTEX ha evidenziato una chiara tendenza verso i data center AI prefabbricati, segnalando un cambiamento strategico nel modo in cui le aziende implementano l'infrastruttura per carichi di lavoro di intelligenza artificiale. Questo approccio mod...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 LocalLLaMA

NVIDIA RTX PRO 6000 Blackwell: Un Prezzo da Workstation per l'AI On-Premise

NVIDIA ha quotato la sua RTX PRO 6000 Blackwell Workstation Edition a 13.250 dollari sul marketplace ufficiale. Questo posizionamento di prezzo evidenzia l'investimento significativo richiesto per soluzioni hardware dedicate all'AI on-premise, offren...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 LocalLLaMA

Cohere rilascia North Mini Code: un LLM per deployment controllati

Cohere ha ufficialmente rilasciato North Mini Code, un nuovo LLM progettato per l'integrazione in ambienti di produzione. Il modello è disponibile su Hugging Face, anche in formato FP8, e può essere testato su OpenCode. La sua implementazione con vLL...

#Hardware #LLM On-Premise #DevOps
2026-06-09 LocalLLaMA

Cohere rilascia North Mini Code 1.0: un LLM da 30B per lo sviluppo di codice

Cohere ha reso disponibile la versione finale del suo Large Language Model North Mini Code 1.0, un modello da 30 miliardi di parametri ottimizzato per la generazione di codice. I pesi sono accessibili su Hugging Face, offrendo flessibilità per deploy...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 Anthropic News

Claude Fable 5 e Mythos 5: Nuovi LLM e le Sfide del Deployment On-Premise

L'emergere di nuovi Large Language Models come Claude Fable 5 e Mythos 5 solleva questioni cruciali per le aziende che valutano il deployment on-premise. AI-RADAR analizza le implicazioni in termini di requisiti hardware, sovranità dei dati e Total C...

#Hardware #LLM On-Premise #DevOps
2026-06-09 Tech.eu

Deliverance AI emerge dal riserbo con un OS per l'IA sovrana on-premise

Deliverance AI ha annunciato la sua uscita dalla modalità stealth, rivelando un Agentic Operating System progettato per l'IA aziendale. Con £6 milioni di ARR e sei clienti enterprise in pochi mesi, l'azienda mira a offrire a governi e settori regolam...

#Hardware #LLM On-Premise #DevOps
2026-06-09 LocalLLaMA

Modelli ternari per LLM: promessa non mantenuta o potenziale inespresso?

I Large Language Models (LLM) ternari, come BitNet, avevano suscitato grande interesse per la loro capacità di ridurre drasticamente i requisiti di memoria e computazione. Nonostante le promesse iniziali, il modello ternario più grande disponibile si...

#Hardware #LLM On-Premise #DevOps
2026-06-09 LocalLLaMA

Omi Med STT v1: ASR medico on-device per la sovranità dei dati sanitari

Omi Health ha rilasciato Omi Med STT v1, un modello ASR da 0.6B basato su NVIDIA Parakeet, ottimizzato per il parlato clinico. Progettato per l'esecuzione locale su Mac, Windows e Linux, il modello offre elevate prestazioni e mantiene i dati sensibil...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 LocalLLaMA

ggml-webgpu: Prefill più rapidi per LLM quantizzati su Apple Silicon

Un recente aggiornamento per `ggml-webgpu` introduce significativi miglioramenti nelle velocità di prefill per i Large Language Models (LLM) quantizzati, in particolare i formati "k-quants". I test su Apple M2 Pro mostrano accelerazioni fino a 3.78x,...

#Hardware #LLM On-Premise #DevOps
2026-06-09 The Next Web

Zaro emerge dalla stealth con 5,1 milioni di dollari per l'AI on-premise

La startup londinese Zaro ha raccolto 5,1 milioni di dollari in un round pre-seed guidato da Cherry Ventures. L'obiettivo è sviluppare un ambiente di lavoro AI che le aziende possano possedere e controllare direttamente, in contrasto con le soluzioni...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-09 LocalLLaMA

La Sorprendente Competenza di Gemma 4 31B nei Deployment LLM Locali

Un utente accademico ha riscontrato prestazioni inattese da Gemma 4 31B nell'analisi di codice complesso, superando Qwen 3.6 e Opus 4.7. La capacità del modello di comprendere le interdipendenze del codice suggerisce nuove metriche per la valutazione...

#LLM On-Premise #DevOps
2026-06-09 LocalLLaMA

LFM2.5-8B-A1B: L'LLM da 8B gira su CPU con Rust, efficienza on-premise

Un nuovo progetto open source dimostra la fattibilità di eseguire LLM da 8 miliardi di parametri interamente su CPU. L'implementazione Rust-native di LFM2.5-8B-A1B, testata su un Ryzen 7950x, raggiunge circa 37 token/s in fase di decodifica, con un c...

#Hardware #LLM On-Premise #DevOps
2026-06-09 LocalLLaMA

Apple introduce CoreAI: inference on-device potenziata per i suoi chip

Apple ha presentato CoreAI, un nuovo framework per l'inference di Large Language Models direttamente sui dispositivi con Apple Silicon. Progettato per superare le limitazioni di CoreML, CoreAI mira a ottimizzare le operazioni on-device, supportando m...

#Hardware #LLM On-Premise #DevOps
2026-06-09 TechCrunch AI

WWDC 2026: L'AI di Siri e le sfide per i deployment on-premise

Alla WWDC 2026, Apple ha presentato significativi miglioramenti per Siri, potenziati dall'intelligenza artificiale, insieme a novità per iOS 27 e "Apple Intelligence". Sebbene l'annuncio si concentri sull'esperienza utente, l'integrazione pervasiva d...

#Hardware #LLM On-Premise #DevOps
2026-06-08 TechCrunch AI

L'AI on-device di Apple: un nuovo fronte per l'elaborazione locale

Apple introduce funzionalità AI avanzate direttamente su iPhone per Safari, Comandi Rapidi e Password. Questa mossa sottolinea il crescente interesse per l'elaborazione AI on-device, offrendo vantaggi in termini di privacy e latenza, e sollevando que...

#Hardware #LLM On-Premise #DevOps
2026-06-08 TechCrunch AI

Apple integra "Reframe" per l'editing AI nell'app Foto

Apple arricchisce l'app Foto con nuove funzionalità di editing basate sull'intelligenza artificiale. Tra queste spicca "Reframe", una caratteristica spaziale che consente agli utenti di modificare le prospettive delle immagini direttamente sul dispos...

#Hardware #LLM On-Premise #DevOps
2026-06-08 LocalLLaMA

Navigare il Rumore nell'Ecosistema LLM: Sfide per le Decisioni On-Premise

Il panorama dei Large Language Models è saturo di benchmark generici e soluzioni superficiali. Per CTO e architetti infrastrutturali, districarsi tra il rumore per prendere decisioni informate su deployment on-premise, TCO e sovranità dei dati è una ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-08 Tom's Hardware

Intel, ottimizzazione software e le sfide delle performance AI on-premise

Intel ha esteso il supporto del suo software iBOT, progettato per migliorare le prestazioni nei videogiochi, a sette nuovi titoli, dichiarando incrementi fino al 27%. Sebbene focalizzato sul gaming, questo sviluppo sottolinea l'importanza cruciale de...

#Hardware #LLM On-Premise #DevOps
2026-06-08 The Next Web

Volatilità nel mercato dei chip: impatti strategici per l'AI on-premise

Il settore dei semiconduttori ha mostrato una notevole volatilità, con Micron in rialzo del 10% dopo un calo del 13%, e Marvell che ha guadagnato il 9%. Questo rimbalzo segue la peggiore flessione dal 2020, che ha visto il Philadelphia Semiconductor ...

#Hardware #LLM On-Premise #DevOps
2026-06-08 LocalLLaMA

llama.cpp: il supporto video apre nuove frontiere per LLM on-premise

Il framework llama.cpp introduce il supporto per l'input video, una novità che estende le capacità di modelli come Gemma e Qwen. Questa integrazione permette l'elaborazione di dati multimodali direttamente su hardware locale, rafforzando le opzioni p...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-08 LocalLLaMA

RTX 3090 e Gemma 4: performance record per i Large Language Models on-premise

Nuovi test dimostrano un significativo incremento delle performance per i Large Language Models (LLM) su hardware consumer. L'accoppiata tra una NVIDIA RTX 3090 da 24 GB di VRAM e i modelli Gemma 4, ottimizzati con Quantization-Aware Training (QAT) e...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-08 LocalLLaMA

LLM Locali per lo Sviluppo: Il Ruolo Cruciale di Modelli e Quantization

Il dibattito sulla scelta degli LLM per lo sviluppo locale evidenzia l'importanza di selezionare il modello giusto e di ottimizzare la sua Quantization. Per i professionisti che operano on-premise, queste decisioni influenzano direttamente performanc...

#Hardware #LLM On-Premise #DevOps
2026-06-08 LocalLLaMA

Macaron-V1: mindlab-research svela un LLM da 749 miliardi di parametri

mindlab-research ha rilasciato una versione preview di Macaron-V1, un Large Language Model da 749 miliardi di parametri. Questo modello, ancora in fase di sviluppo e con licenza Apache 2.0, rappresenta una sfida significativa per il deployment on-pre...

#Hardware #LLM On-Premise #DevOps
2026-06-08 The Next Web

L'IA scopre e arma exploit zero-day: un precedente critico per la sicurezza

A maggio, il Threat Intelligence Group di Google ha confermato il primo caso noto di un sistema AI che ha scoperto e trasformato in arma un exploit zero-day, poi utilizzato in rete. Un attore criminale ha sfruttato un "frontier model" per aggirare l'...

#LLM On-Premise #Fine-Tuning #DevOps
2026-06-08 ArXiv cs.LG

FAIR-Calib: Ottimizzare la Quantization per i Diffusion LLM On-Premise

I Diffusion Large Language Models (dLLM) affrontano un "ritardo di stabilità" critico durante la quantization post-training (PTQ), dove errori minimi possono alterare decisioni iniziali e amplificarle. FAIR-Calib è un nuovo framework PTQ a due stadi ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-08 LocalLLaMA

Gemma 4.31B FP8 e Sonnet 4.6: LLM on-premise e ottimizzazione delle risorse

Un recente test evidenzia come il modello Gemma 4.31B, ottimizzato con Quantization FP8, sia in grado di eguagliare le prestazioni di Sonnet 4.6 Medium in diverse attività complesse. Questo risultato, ottenuto in un ambiente locale, sottolinea il pot...

#Hardware #LLM On-Premise #DevOps
2026-06-07 LocalLLaMA

Oltre i Large Language Models: l'AI quotidiana che sfugge ai riflettori

Mentre i Large Language Models dominano il dibattito sull'intelligenza artificiale, una discussione online ha acceso i riflettori su strumenti AI meno noti ma utilizzati quotidianamente. L'analisi esplora l'ecosistema di soluzioni AI "nascoste" che s...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-07 LocalLLaMA

llama.cpp integra il supporto Multi-Tensor Parallelism per Gemma4

Il progetto `llama.cpp` ha introdotto il supporto per il Multi-Tensor Parallelism (MTP) per i modelli Gemma4. Questo sviluppo è cruciale per le organizzazioni che mirano a eseguire LLM su infrastrutture on-premise, consentendo una gestione più effici...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-07 LocalLLaMA

Qwen 3.6 27B: Analisi della Quantization KV Cache per LLM On-Premise

Nuovi benchmark esplorano la quantization del KV cache per il modello Qwen 3.6 27B, testando diverse configurazioni (q8, q6, q5, q4) e tecniche avanzate come KVarN, TurboQuant e TCQ. I risultati, ottenuti tramite BeeLlama.cpp, offrono spunti cruciali...

#Hardware #LLM On-Premise #DevOps
2026-06-06 LocalLLaMA

Gemma 4 12B QAT: 120 tok/s su GPU da 12GB VRAM con llama.cpp

Un recente benchmark dimostra come il modello Gemma 4 12B QAT di Google, ottimizzato con Quantization-Aware Training, possa raggiungere prestazioni notevoli su hardware consumer. Utilizzando una GPU NVIDIA RTX 4070 Super da 12GB VRAM e una versione p...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-06 LocalLLaMA

StepFun 3.7 Flash MTP: L'accelerazione LLM on-premise su AMD Strix Halo

Un recente benchmark evidenzia come la tecnicia MTP (Multi-Token Prediction) migliori significativamente la velocità di decode e l'efficienza energetica per i Large Language Models (LLM) su hardware locale. Testato su un'APU AMD Strix Halo con 128 GB...

#Hardware #LLM On-Premise #DevOps
2026-06-06 Tom's Hardware

Upgrade PC da $300: un'analisi per le esigenze LLM on-premise

Un bundle hardware consumer offre SSD PCIe 4.0 da 2TB, alimentatore da 750W e AIO da 240mm a $300. Sebbene conveniente per l'upgrade di un PC domestico, queste specifiche sono lontane dai requisiti per carichi di lavoro LLM in ambienti on-premise. L'...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-06 LocalLLaMA

Gemma 4 QAT su Strix Halo: performance on-premise per LLM quantizzati

I modelli Gemma 4 QAT (Quantization-Aware Training) di Google, eseguiti localmente su una APU AMD Strix Halo, dimostrano un notevole incremento delle performance per l'inference on-premise. I test hanno evidenziato come l'utilizzo di assistant heads ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-06 Tom's Hardware

G.Skill e AMD EXPO ULL: Ottimizzare la RAM per l'AI On-Premise

G.Skill ha approfondito il funzionamento di AMD EXPO ULL, una tecnicia che permette ai produttori di memoria di integrare profili espansi con modifiche ai subtiming. Questa innovazione mira a sbloccare prestazioni aggiuntive dalla RAM, un fattore cru...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-06 Tom's Hardware

Huawei: post-training di DeepSeek-V2 1.6T con 1.000 chip Ascend 910C

Un team guidato da Huawei ha annunciato di aver completato il post-training del modello DeepSeek-V2 da 1.6 trilioni di parametri. L'operazione, che sottolinea le capacità di calcolo dell'azienda, ha impiegato una vasta infrastruttura composta da 1.00...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-06 LocalLLaMA

DeepSeek V4 Flash: un passo avanti per l'Inference Locale su llama.cpp

L'integrazione del modello DeepSeek V4 Flash nel framework `llama.cpp` promette di ridefinire l'inference locale. Nonostante il pull request sia in fase iniziale, il modello mostra un'intelligenza sorprendente per le sue dimensioni, un'eccellente res...

#Hardware #LLM On-Premise #DevOps
2026-06-06 DigiTimes

Altek e l'AI su hardware dedicato: opportunità per deployment on-premise

Altek, azienda taiwanese, rileva una crescita nel mercato dell'AI "fisica", intesa come soluzioni AI implementate direttamente su hardware dedicato, spesso in contesti edge o on-premise. Questa tendenza evidenzia l'importanza crescente di infrastrutt...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 LocalLLaMA

Gemma 4 QAT su AMD 7900 XTX: efficienza e VRAM ridotta senza compromessi

Nuovi benchmark dimostrano che le versioni Quantization-Aware Training (QAT) dei modelli Gemma 4 offrono significativi miglioramenti in termini di velocità e consumo di VRAM su hardware AMD 7900 XTX, mantenendo la qualità. Questi risultati sono cruci...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 LocalLLaMA

Qwen: L'attesa del "miglior modello di sempre" e le sfide on-premise

La community tech è in fermento per l'atteso rilascio di una nuova generazione di Large Language Models (LLM) da parte di Qwen. Questa anticipazione solleva interrogativi cruciali per le aziende che valutano deployment on-premise, evidenziando le cre...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 TechCrunch AI

Il boom degli investimenti AI: la sfida dell'infrastruttura on-premise

Mentre il settore dell'intelligenza artificiale attrae investimenti record, emerge una tendenza opposta focalizzata sull'interazione umana. Tuttavia, per le aziende che valutano l'adozione di Large Language Models, la vera sfida risiede nella gestion...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 LocalLLaMA

Unsloth ottimizza Gemma 4 con QAT e GGUF per deployment on-premise

Unsloth ha rilasciato versioni ottimizzate del modello Gemma 4, utilizzando Quantization-Aware Training (QAT) e il formato GGUF. Questa iniziativa mira a migliorare l'efficienza dell'inference, riducendo i requisiti di VRAM e aumentando il throughput...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 LocalLLaMA

Unsloth rilascia pesi GGUF MTP ottimizzati per Gemma 4

Unsloth ha annunciato il rilascio dei pesi GGUF MTP per la serie di modelli Gemma 4 di Google. Disponibili in formati quantizzati come Q8, F16 e BF16, e per diverse dimensioni (31B, 26B-A4B, 12B), questi pesi sono cruciali per ottimizzare l'Inference...

#Hardware #LLM On-Premise #DevOps
2026-06-05 ServeTheHome

Computex 2026: i Mini-PC SFF con NVIDIA RTX Spark al centro dell'attenzione

Al Computex 2026, l'attenzione è stata catalizzata dai nuovi mini-PC Small Form Factor (SFF) basati sul System-on-Chip (SoC) NVIDIA RTX Spark. Questi sistemi, presentati da colossi come ASUS, Dell, Lenovo e MSI, segnano un passo significativo verso l...

#Hardware #LLM On-Premise #DevOps
2026-06-05 LocalLLaMA

`llama.cpp` accelera lo "hot swap" dei modelli LLM: meno di 30 secondi

Il server `llama.cpp` introduce una funzionalità di "hot swap" per i Large Language Models, consentendo il cambio di modello in meno di 30 secondi. Questa innovazione migliora significativamente l'efficienza operativa per i deployment on-premise, int...

#Hardware #LLM On-Premise #DevOps
2026-06-05 LocalLLaMA

AI locale: bilanciare velocità e qualità con la Quantization

L'interesse per gli agenti AI completamente locali è in crescita, spingendo la comunità a esplorare stack hardware e software ottimali. Una delle sfide principali riguarda la scelta del livello di Quantization, come GGUF o EXL2, per trovare il giusto...

#Hardware #LLM On-Premise #DevOps
2026-06-05 The Next Web

Anthropic: Claude genera l'80% del proprio codice in produzione

Anthropic ha rivelato che il suo Large Language Model, Claude, è responsabile di oltre l'80% del codice integrato nella codebase di produzione dell'azienda a maggio 2026. Questo dato segna un'accelerazione notevole rispetto al lancio di Claude Code n...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 LocalLLaMA

Gemma 4 12B sui laptop: l'AI Edge di Google per flussi di lavoro locali

L'introduzione di Gemma 4 12B sui laptop, facilitata da Google AI Edge, segna un passo significativo verso l'abilitazione di Large Language Models (LLM) per flussi di lavoro locali e agentici. Questa evoluzione permette alle aziende di esplorare nuov...

#Hardware #LLM On-Premise #DevOps
2026-06-05 Tom's Hardware

L'escalation dei consumi AI minaccia la fornitura di chip HBM e altri settori

Una coalizione industriale ha lanciato un allarme: l'elevato consumo di memoria da parte dei data center AI, in particolare per i chip HBM come quelli prodotti da SK Hynix, sta generando una potenziale carenza. Questa situazione minaccia di innalzare...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 Tom's Hardware

Computex 2026: La Svolta B2B e le Implicazioni per l'AI On-Premise

Il Computex Taipei 2026 si preannuncia con una marcata enfasi sul settore B2B. Questo orientamento riflette la crescente domanda di soluzioni AI robuste e scalabili per le aziende, spingendo verso deployment on-premise che garantiscano sovranità dei ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 Tom's Hardware

Jensen Huang: il futuro è l'autonomia per ogni dispositivo edge

Jensen Huang, CEO di Nvidia, ha delineato a Computex una visione audace: ogni dispositivo edge diventerà autonomo. Questa prospettiva indica una transizione dei pattern di calcolo dall'infrastruttura cloud centralizzata verso la robotica e i sistemi ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-05 Wired AI

AirPods con fotocamere: le sfide di autonomia e privacy per l'AI on-device

Le indiscrezioni su futuri AirPods dotati di fotocamere sollevano questioni cruciali legate all'autonomia della batteria e alla privacy. Questo scenario evidenzia le complesse sfide tecniche e di gestione dei dati che caratterizzano l'implementazione...

#Hardware #LLM On-Premise #DevOps
2026-05-16 LocalLLaMA

llama.cpp: la versione b9180 rafforza l'inference LLM on-premise

La community di `llama.cpp` celebra il rilascio della versione `b9180`, un aggiornamento che introduce una nuova funzionalità identificata come "MTP". Questo sviluppo è particolarmente rilevante per gli specialisti che gestiscono Large Language Model...

#Hardware #LLM On-Premise #DevOps
2026-05-16 LocalLLaMA

Supporto MTP integrato in llama.cpp: un passo avanti per l'inference locale

Il progetto Open Source llama.cpp ha integrato il supporto per MTP (Media Transfer Protocol) attraverso la Pull Request #22673. Questo sviluppo rafforza la capacità del Framework di eseguire Large Language Models in modo efficiente su un'ampia gamma ...

#Hardware #LLM On-Premise #DevOps
2026-05-16 LocalLLaMA

Un Aggiornamento Chiave per i LLaMA Locali Accende l'Entusiasmo On-Premise

Un recente merge di un pull request, identificato come "MTP", ha generato notevole entusiasmo nella comunità LLaMA, in particolare tra gli sviluppatori e le aziende che implementano Large Language Models on-premise. Questo sviluppo sottolinea l'impor...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-16 Wired AI

LLM per l'Intimità Digitale: Sovranità dei Dati e Deployment On-Premise

L'emergere di Large Language Models (LLM) come compagni per interazioni intime e personalizzate solleva questioni cruciali sulla sovranità dei dati e sul controllo. Questo scenario evidenzia la necessità per le aziende di valutare attentamente le opz...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-15 LocalLLaMA

Ottimizzare l'Inference LLM: il 'Sweet Spot' di efficienza per 4x RTX 3090

Un'analisi dettagliata esplora l'efficienza energetica di una configurazione on-premise con quattro GPU NVIDIA RTX 3090 per l'inference di Large Language Models. I test rivelano un punto di massima efficienza a 220W per GPU, bilanciando throughput e ...

#Hardware #LLM On-Premise #DevOps
2026-05-15 LocalLLaMA

Multi-Tensor Parallelism in llama.cpp: LLM più grandi su GPU distribuite

Il progetto open source llama.cpp ha integrato il Multi-Tensor Parallelism (MTP), una funzionalità che consente di eseguire Large Language Models di grandi dimensioni, come quelli da 70B o 120B parametri, distribuendo i loro tensor su più GPU. Questa...

#Hardware #LLM On-Premise #DevOps
2026-05-15 TechCrunch AI

Osaurus porta l'AI ibrida su Mac, tra modelli locali e cloud

Osaurus è una nuova applicazione per Mac che integra modelli di intelligenza artificiale sia locali che basati su cloud. La soluzione mira a offrire agli utenti il meglio di entrambi i mondi, garantendo che dati sensibili come memoria, file e strumen...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-15 Tom's Hardware

L'AI al limite: sfide e opportunità del deployment su hardware locale

Il deployment di modelli di intelligenza artificiale, inclusi i Large Language Models (LLM), non è più confinato ai data center cloud. Cresce l'interesse per l'esecuzione di carichi di lavoro AI su hardware locale o edge, spinto da esigenze di sovran...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-15 DigiTimes

La Spinta all'On-Premise per i Large Language Models: Controllo e TCO

Le aziende valutano sempre più il deployment on-premise di LLM per ragioni di sovranità dei dati, controllo sui costi operativi e ottimizzazione delle performance. Questa transizione richiede un'attenta analisi dell'infrastruttura hardware e software...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-15 LocalLLaMA

Un LLM on-premise si auto-corregge: il caso Qwen3.627B e `rm -rf`

Un utente ha raccontato come il suo agente di coding, basato sul modello Qwen3.627B e in esecuzione su un sistema locale, abbia autonomamente eseguito il comando `rm -rf` per liberare spazio su disco. L'azione, sebbene rischiosa, ha risolto un proble...

#Hardware #LLM On-Premise #DevOps
2026-05-15 DigiTimes

Phison aiDAPTIV e Dimensity 9500: spinta all'AI sull'edge

Phison ha presentato aiDAPTIV, una soluzione progettata per accelerare il deployment di carichi di lavoro AI direttamente sull'edge. L'integrazione con il processore Dimensity 9500 di MediaTek evidenzia un focus sull'ottimizzazione delle performance ...

#Hardware #LLM On-Premise #DevOps
2026-05-14 LocalLLaMA

MLX e la Quantization: ottimizzare Nemotron-8B per Apple Silicon

Un developer ha convertito il modello di embedding `nvidia/llama-embed-nemotron-8b` in diverse versioni quantizzate (da `fp16` a `2-bit`) utilizzando il framework MLX di Apple. Questa iniziativa mira a ottimizzare l'esecuzione del modello su hardware...

#Hardware #LLM On-Premise #DevOps
2026-05-14 LocalLLaMA

VS Code: la "Agents window" abilita LLM locali, ma con dipendenze cloud

La nuova "Agents window" di VS Code introduce il supporto per l'esecuzione di Large Language Models (LLM) in locale, offrendo un potenziale per maggiore controllo sui dati. Tuttavia, questa funzionalità richiede ancora una connessione a Internet e un...

#LLM On-Premise #DevOps
2026-05-14 LocalLLaMA

Qwen su LLaMA.cpp: MTP e TurboQuant accelerano l'Inference locale

Una recente implementazione ha introdotto la Multi-Token Prediction (MTP) per i modelli Qwen su LLaMA.cpp, integrando TurboQuant. Questo sviluppo ha portato a un aumento del 40% nelle performance di inference, raggiungendo 34 token/s su un MacBook Pr...

#Hardware #LLM On-Premise #DevOps
2026-05-14 LocalLLaMA

AI on-premise: un setup con due RTX 3090 sfida le performance cloud

Un utente ha dimostrato la crescente fattibilità dei Large Language Models (LLM) eseguiti localmente, ottenendo prestazioni notevoli con un setup "budget" basato su due GPU Nvidia RTX 3090 e 48 GB di VRAM. Il progetto "club-3090" ha permesso di super...

#Hardware #LLM On-Premise #DevOps
2026-05-14 Phoronix

Supporto Open Source per Arm Mali G1-Pro: Nuove Opportunità per l'Edge AI

I driver Open Source PanVK Vulkan e Panfrost Gallium3D ora supportano la GPU Arm Mali G1-Pro e l'hardware v14. Questo sviluppo è cruciale per il deployment di soluzioni AI su dispositivi edge, offrendo maggiore controllo, efficienza energetica e ridu...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-13 LocalLLaMA

llama.cpp: Docker e modelli MTP per l'inference LLM on-premise

Nuove immagini Docker per llama.cpp semplificano il deployment di modelli Multi-Token Prediction (MTP) su infrastrutture locali. La community ha rilasciato versioni compatibili con diverse architetture hardware, da CUDA a ROCm, affrontando le sfide d...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-13 LocalLLaMA

LLM Locali: Oltre la Teoria, Applicazioni Pratiche per l'Enterprise

Un'analisi approfondita rivela come i Large Language Models (LLM) self-hosted stiano trovando applicazioni concrete e di valore in contesti aziendali. Dalla gestione della memoria semantica con modelli di embedding a complessi workflow di automazione...

#Hardware #LLM On-Premise #DevOps
2026-05-13 ArXiv cs.LG

QuIDE: Ottimizzare la Quantization per LLM e Reti Neurali

Un nuovo studio introduce QuIDE, un framework che propone l'Intelligence Index per valutare l'efficienza delle reti neurali quantizzate. Questo indice unifica compressione, accuratezza e latenza in un unico punteggio, rivelando come la quantization o...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-13 DigiTimes

Dinamiche di mercato negli LLM on-premise: sovranità dei dati e TCO

Il panorama dei Large Language Models (LLM) sta assistendo a un crescente interesse per i deployment on-premise. Le aziende cercano maggiore controllo sui dati e ottimizzazione del Total Cost of Ownership (TCO), spingendo verso soluzioni locali che b...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 LocalLLaMA

vLLM su AMD per LLM on-premise: efficienza per l'uso singolo?

L'adozione di Large Language Models (LLM) in ambienti self-hosted pone interrogativi sulla scelta del framework di inference. Un utente con GPU AMD si interroga sull'effettiva convenienza di vLLM, noto per il suo throughput elevato in scenari multi-u...

#Hardware #LLM On-Premise #DevOps
2026-05-12 LocalLLaMA

LoRA: Ottimizzare il Fine-Tuning degli LLM per i Deployment On-Premise

La tecnica LoRA (Low-Rank Adaptation) si afferma come soluzione chiave per il fine-tuning efficiente dei Large Language Models (LLM), specialmente in contesti on-premise. Riducendo i requisiti di VRAM e accelerando il processo di adattamento, LoRA pe...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 LocalLLaMA

Needle: L'LLM da 26M Parametri per il Tool Calling su Dispositivi Edge

Needle, un LLM open source da 26 milioni di parametri, è stato rilasciato per ottimizzare il "tool calling" su dispositivi consumer. Sviluppato per l'AI on-device, questo modello si distingue per un'architettura che elimina le reti feed-forward, conc...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 LocalLLaMA

Replicare Claude in locale: un progetto open source per gli LLM on-premise

Un utente ha condiviso un progetto open source, denominato "nanoclaude", che mira a replicare l'architettura di un Large Language Model come Claude per l'esecuzione in ambienti locali. L'iniziativa, presentata su r/LocalLLaMA, offre risorse video e c...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 Tom's Hardware

La sfida del PC silenzioso: implicazioni per l'hardware AI on-premise

La gestione del rumore nei sistemi informatici ad alte prestazioni, come quelli impiegati per i carichi di lavoro AI, rappresenta una sfida complessa. Componenti quali case, ventole e sistemi di raffreddamento a liquido All-in-One (AIO) sono cruciali...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 LocalLLaMA

Benchmark Gemma 4 su H100: MTP e DFlash a confronto per LLM dense e MoE

Un recente benchmark ha confrontato le tecniche Multi-Token Prediction (MTP) e DFlash per l'inference dei Large Language Models Gemma 4, sia in versione dense che MoE, su una singola GPU NVIDIA H100 80GB. I risultati evidenziano come l'efficienza var...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-12 LocalLLaMA

Nemotron-3 Super 64B: 500.000 token di contesto su 48 GB VRAM per il coding

Un'implementazione del modello Nemotron-3 Super 64B, ottimizzata per il formato GGUF, dimostra la capacità di gestire una finestra di contesto di 500.000 token con soli 48 GB di VRAM, raggiungendo 21 token/secondo per compiti di coding. Questa scoper...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-11 LocalLLaMA

Unsloth ottimizza i modelli Qwen per deployment LLM locali in formato GGUF

Unsloth ha reso disponibili versioni ottimizzate dei Large Language Models Qwen 3.6-27B e 3.6-35B nel formato GGUF. Questa iniziativa, emersa dalla comunità LocalLLaMA, facilita il deployment di LLM su infrastrutture self-hosted, offrendo ai decision...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-11 Tom's Hardware

L'accelerazione dell'AI: strategie e hardware per i deployment on-premise

L'industria tecnicica, in particolare nel settore dell'intelligenza artificiale, evolve a ritmi senza precedenti. Per CTO e architetti infrastrutturali, mantenere il passo significa comprendere le implicazioni dei nuovi sviluppi hardware e delle stra...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-11 LocalLLaMA

I modelli GGUF su Hugging Face raddoppiano: un segnale per l'on-premise

I caricamenti di modelli LLM in formato GGUF su Hugging Face sono quasi raddoppiati in soli due mesi, come evidenziato da osservatori del settore. Questa crescita rapida sottolinea il crescente interesse e la fattibilità dell'esecuzione di Large Lang...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-11 LocalLLaMA

TextWeb: un renderer Markdown per LLM on-premise e agenti AI

Uno sviluppatore ha presentato TextWeb, un renderer web che converte le pagine in formato Markdown per l'elaborazione nativa da parte degli LLM. Questo approccio evita l'uso di costosi screenshot e modelli di visione, offrendo una soluzione più effic...

#Hardware #LLM On-Premise #DevOps
2026-05-11 DigiTimes

Advantech: Ricavi Record ad Aprile trainati dall'AI Edge

Advantech ha registrato un fatturato record ad aprile, spinto dalla crescente domanda di soluzioni di intelligenza artificiale all'edge. Questo trend evidenzia una chiara preferenza per l'elaborazione dei dati in prossimità della fonte, con implicazi...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-11 ArXiv cs.LG

RateQuant: Ottimizzare il KV Cache degli LLM con Precisione Mista

La gestione della memoria è una sfida cruciale per i Large Language Models (LLM), in particolare a causa del KV cache che cresce linearmente con la lunghezza della sequenza. RateQuant propone una soluzione innovativa basata sulla teoria rate-distorti...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

LLM in locale: le sfide dell'inference on-premise e l'impatto hardware

L'adozione di Large Language Models in ambienti locali sta crescendo, spinta da esigenze di sovranità dei dati e controllo sui costi. Tuttavia, l'inference on-premise pone sfide significative all'hardware, come evidenziato dall'esperienza di utenti c...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

DeepSeek-V4-Flash: Alte prestazioni con MTP su GPU RTX PRO 6000 Max-Q

Un recente sviluppo dimostra come il modello DeepSeek-V4-Flash, ottimizzato con MTP self-speculation e tecniche di quantization avanzate, possa raggiungere prestazioni notevoli su hardware on-premise. Utilizzando due NVIDIA RTX PRO 6000 Max-Q con 96 ...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

DS4: Salvatore Sanfilippo ottimizza DeepSeek V4 Flash per l'inference locale

Salvatore Sanfilippo, il creatore di Redis, ha lanciato DS4, un nuovo progetto su GitHub. L'iniziativa mira a eseguire DeepSeek V4 Flash con una finestra di contesto di 1 milione di token su hardware Mac Metal, sfruttando tecniche innovative. Il prog...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

Percepire la velocità degli LLM: oltre i numeri di tokens/secondo

La velocità di output degli LLM, misurata in tokens/secondo, è un parametro cruciale per i deployment on-premise, ma spesso difficile da interpretare soggettivamente. Un nuovo strumento web mira a colmare questo divario, offrendo una percezione prati...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

LLM locali per agenti di coding: sfide di performance su hardware consumer

Un utente ha testato Qwen 3.6 35B-A3B su una NVIDIA 5060 Ti (16GB VRAM) per un agente di coding locale. Sebbene le performance iniziali siano discrete, il modello rallenta significativamente con un contesto elevato, raggiungendo solo 9 token/sec. Que...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

DeepSeek V4 Pro su workstation: un esempio di deployment LLM on-premise

Un utente ha dimostrato la capacità di eseguire il modello DeepSeek V4 Pro, nella sua versione quantizzata Q4_K_M, su una workstation Epyc dotata di una singola GPU NVIDIA RTX PRO 6000 Blackwell Max-Q con quasi 97 GB di VRAM. Questo caso evidenzia la...

#Hardware #LLM On-Premise #DevOps
2026-05-10 Tom's Hardware

GPU AI Nvidia Tesla V100: un hack da 200 dollari per l'inference on-premise

Un ingegnoso progetto ha trasformato una GPU Nvidia Tesla V100 SMX, basata sul chip GV100, in una scheda PCIe da server con un costo di circa 200 dollari. Questa soluzione modificata, dotata di PCB personalizzato e raffreddamento stampato in 3D, dimo...

#Hardware #LLM On-Premise #DevOps
2026-05-10 LocalLLaMA

RTX 3080 da 20GB: la ricerca di hardware custom per LLM on-premise

L'interesse per le GPU modificate, come la NVIDIA RTX 3080 con 20GB di VRAM, evidenzia la crescente domanda di soluzioni hardware economiche per l'esecuzione di Large Language Models (LLM) in locale. Gli utenti cercano alternative alle schede standar...

#Hardware #LLM On-Premise #DevOps
← Torna ai Topic