AI On-Premise e Edge Computing

2026-06-12 • DigiTimes

Aumento dei prezzi dei PMIC: impatto sulla supply chain per l'AI on-premise

Global Mixed-mode, produttore taiwanese di PMIC, ha annunciato aumenti di prezzo a causa della persistente carenza di chip. Questa dinamica influisce direttamente sulla catena di fornitura di componenti critici per l'hardware AI, con ripercussioni si...

#Hardware #LLM On-Premise #DevOps

2026-06-12 • LocalLLaMA

LLM per contenuti specifici: le sfide di VRAM e Quantization on-premise

La selezione di Large Language Models (LLM) per la generazione di contenuti altamente specifici presenta notevoli sfide tecniche, in particolare per i deployment on-premise. Un utente ha evidenziato la difficoltà nel trovare modelli ottimizzati per 1...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-12 • LocalLLaMA

Risparmio di 150 dollari in due giorni: il valore del deployment LLM on-premise

Un utente ha documentato un risparmio di circa 150 dollari in soli due giorni, scegliendo di eseguire Large Language Models (LLM) in locale anziché affidarsi a servizi cloud come Claude Sonnet. L'analisi, basata su 50 milioni di token elaborati, evid...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-12 • LocalLLaMA

Gemma 4: Nuove release da 12B a 31B con opzioni di Quantization per l'on-premise

La community ha rilasciato nuove versioni dei modelli Gemma 4, spaziando da 12B a 31B parametri. Queste release includono varianti con Quantization Aware Training (QAT) a 4-bit e sono disponibili in formati ottimizzati come GGUF, Safetensors, NVFP4 e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-11 • LocalLLaMA

AI on-device: la satira di DiffusionGemma e la realtà dei LLM edge

Una recente provocazione satirica ha immaginato un LLM come DiffusionGemma 4 in esecuzione a 1.500 token/s su un test di gravidanza digitale. Sebbene l'episodio sia fittizio, solleva interrogativi pertinenti sulle frontiere dell'AI on-device e sulla ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-11 • Tom's Hardware

Nashville e il divieto hyperscale: un campanello d'allarme per l'AI on-premise

La crescente disputa a Nashville tra uno zoo e un data center AI, culminata in una petizione con oltre 330.000 firme e l'intervento di Brad Paisley, ha spinto la città a considerare un divieto sui data center hyperscale. Questo scenario evidenzia le ...

#Hardware #LLM On-Premise #DevOps

2026-06-11 • LocalLLaMA

LLM on-premise: il controllo e la sovranità dei dati ridefiniscono il deployment

L'adozione di Large Language Models on-premise sta guadagnando terreno tra le aziende che cercano maggiore controllo, sovranità dei dati e ottimizzazione dei costi. Questa scelta strategica, sebbene complessa, offre vantaggi significativi rispetto al...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-11 • The Next Web

L'ex CEO di Avast lancia AISLE Snapshot: AI per la sicurezza on-premise e air-gapped

AISLE, la startup fondata dall'ex CEO di Avast, Ondrej Vlcek, ha presentato Snapshot. Questo scanner di vulnerabilità basato su AI è progettato per il deployment in cloud privati, data center on-premise e ambienti air-gapped. La soluzione garantisce ...

#LLM On-Premise #DevOps

2026-06-10 • Tom's Hardware

Le Implicazioni Strategiche del Deployment On-Premise per i Large Language Models

L'adozione di Large Language Models (LLM) in ambito aziendale solleva questioni cruciali legate a sovranità dei dati, sicurezza e controllo dei costi. Il deployment on-premise emerge come un'alternativa strategica al cloud, offrendo vantaggi signific...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-10 • LocalLLaMA

LLM on-premise: aspettative e limiti per carichi di lavoro complessi

Le capacità degli LLM locali sono spesso sovrastimate. Sebbene utili per compiti specifici come l'estrazione dati o il fine-tuning, questi modelli faticano con carichi di lavoro complessi e agentici. Il divario rispetto ai modelli di frontiera rimane...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-10 • LocalLLaMA

Nuovo modello Cohere 30B A3B in formato GGUF: opportunità per l'inference on-premise

Un nuovo modello Cohere da 30 miliardi di parametri, denominato A3B, è stato reso disponibile in formato GGUF sulla piattaforma Hugging Face. Questa release, curata da unsloth, suggerisce un'ottimizzazione per l'inference efficiente su hardware local...

#Hardware #LLM On-Premise #DevOps

2026-06-10 • DigiTimes

USA: Stop ai report pubblici sull'AI, un monito per il controllo on-premise

L'amministrazione Trump avrebbe interrotto la pubblicazione di report sulle capacità dell'intelligenza artificiale, citando ragioni di sicurezza nazionale. Questa mossa sottolinea l'importanza crescente della sovranità dei dati e del controllo dirett...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-10 • DigiTimes

L'inference AI ridefinisce la supply chain: nuove opportunità per InWin e Y.S. Tech

Il mercato dell'intelligenza artificiale sta vivendo una transizione significativa, con un'enfasi crescente sui carichi di lavoro di inference rispetto al training. Questo cambiamento sta generando nuove opportunità lungo la supply chain, in particol...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • DigiTimes

COMPUTEX: L'ascesa dei data center AI prefabbricati per deployment on-premise

Il COMPUTEX ha evidenziato una chiara tendenza verso i data center AI prefabbricati, segnalando un cambiamento strategico nel modo in cui le aziende implementano l'infrastruttura per carichi di lavoro di intelligenza artificiale. Questo approccio mod...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

NVIDIA RTX PRO 6000 Blackwell: Un Prezzo da Workstation per l'AI On-Premise

NVIDIA ha quotato la sua RTX PRO 6000 Blackwell Workstation Edition a 13.250 dollari sul marketplace ufficiale. Questo posizionamento di prezzo evidenzia l'investimento significativo richiesto per soluzioni hardware dedicate all'AI on-premise, offren...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

Cohere rilascia North Mini Code: un LLM per deployment controllati

Cohere ha ufficialmente rilasciato North Mini Code, un nuovo LLM progettato per l'integrazione in ambienti di produzione. Il modello è disponibile su Hugging Face, anche in formato FP8, e può essere testato su OpenCode. La sua implementazione con vLL...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

Cohere rilascia North Mini Code 1.0: un LLM da 30B per lo sviluppo di codice

Cohere ha reso disponibile la versione finale del suo Large Language Model North Mini Code 1.0, un modello da 30 miliardi di parametri ottimizzato per la generazione di codice. I pesi sono accessibili su Hugging Face, offrendo flessibilità per deploy...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • Anthropic News

Claude Fable 5 e Mythos 5: Nuovi LLM e le Sfide del Deployment On-Premise

L'emergere di nuovi Large Language Models come Claude Fable 5 e Mythos 5 solleva questioni cruciali per le aziende che valutano il deployment on-premise. AI-RADAR analizza le implicazioni in termini di requisiti hardware, sovranità dei dati e Total C...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • Tom's Hardware

Valutare il Deployment di Large Language Models On-Premise: Sfide e Opportunità

L'adozione di Large Language Models (LLM) in ambito aziendale solleva questioni cruciali legate alla sovranità dei dati, al controllo infrastrutturale e al Total Cost of Ownership (TCO). Questo articolo esplora le complessità e i trade-off associati ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

V100 a slot singolo e mezza altezza con NVLink: nuove opzioni per l'on-premise

In Cina sono emerse schede NVIDIA V100 personalizzate, caratterizzate da un design a slot singolo e mezza altezza con NVLink. Queste GPU, disponibili in versioni da 16GB e 32GB VRAM, offrono piena performance con opzioni di alimentazione flessibili (...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • DigiTimes

Onsemi lancia Elite Pairing Studio: ottimizzare la progettazione energetica per l'AI on-premise

Onsemi ha presentato Elite Pairing Studio, una nuova piattaforma software progettata per semplificare la complessa fase di progettazione dei sistemi di alimentazione. Questo strumento mira a migliorare l'efficienza e l'affidabilità delle soluzioni en...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • DigiTimes

L'ecosistema Nvidia al COMPUTEX 2026: Implicazioni per il deployment on-premise

Al COMPUTEX 2026, l'ecosistema di Nvidia ha dominato il dibattito, evidenziando la sua influenza crescente nel settore dell'intelligenza artificiale. Questo scenario solleva questioni cruciali per le aziende che valutano strategie di deployment on-pr...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

Distanza Semantica come Strato di Routing: Un Modello Decentralizzato per la Scoperta On-Device

Un nuovo prototipo esplora un'alternativa decentralizzata ai tradizionali sistemi di scoperta basati su indici centrali. L'approccio propone di calcolare la rilevanza direttamente sui dispositivi, sfruttando modelli di embedding locali come Embedding...

#LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

Qwen3.6-35B-A3B: Impatto della Quantization e del Contesto Lungo sul Tool Calling

Uno studio approfondito ha esaminato l'impatto delle diverse tecniche di quantization GGUF e della gestione della KV cache sulle performance di tool calling del modello Qwen3.6-35B-A3B. La ricerca, condotta su GPU NVIDIA V100, ha confrontato quantizz...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • Tech.eu

Deliverance AI emerge dal riserbo con un OS per l'IA sovrana on-premise

Deliverance AI ha annunciato la sua uscita dalla modalità stealth, rivelando un Agentic Operating System progettato per l'IA aziendale. Con £6 milioni di ARR e sei clienti enterprise in pochi mesi, l'azienda mira a offrire a governi e settori regolam...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

Modelli ternari per LLM: promessa non mantenuta o potenziale inespresso?

I Large Language Models (LLM) ternari, come BitNet, avevano suscitato grande interesse per la loro capacità di ridurre drasticamente i requisiti di memoria e computazione. Nonostante le promesse iniziali, il modello ternario più grande disponibile si...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

Omi Med STT v1: ASR medico on-device per la sovranità dei dati sanitari

Omi Health ha rilasciato Omi Med STT v1, un modello ASR da 0.6B basato su NVIDIA Parakeet, ottimizzato per il parlato clinico. Progettato per l'esecuzione locale su Mac, Windows e Linux, il modello offre elevate prestazioni e mantiene i dati sensibil...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

silx-ai/Quasar-Preview: Un LLM con finestra di contesto da 5 milioni di token

Il modello Quasar-Preview di silx-ai si distingue per una finestra di contesto eccezionalmente ampia, pari a 5 milioni di token. Questa capacità permette di elaborare volumi di dati senza precedenti, aprendo nuove frontiere per applicazioni aziendali...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

ggml-webgpu: Prefill più rapidi per LLM quantizzati su Apple Silicon

Un recente aggiornamento per `ggml-webgpu` introduce significativi miglioramenti nelle velocità di prefill per i Large Language Models (LLM) quantizzati, in particolare i formati "k-quants". I test su Apple M2 Pro mostrano accelerazioni fino a 3.78x,...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • The Next Web

Apple: un LLM da 20 miliardi di parametri esegue l'inference dalla flash dell'iPhone

La conferenza sviluppatori di Apple ha messo in evidenza una Siri rinnovata. Tuttavia, la vera innovazione risiede in un modello AI da 20 miliardi di parametri che, pur essendo troppo grande per la RAM di un iPhone, riesce a eseguire l'inference dire...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • The Next Web

L'IA Agente: la prossima frontiera per la finanza aziendale, tra coordinamento e controllo

L'intelligenza artificiale generativa ha già trasformato la gestione delle informazioni aziendali. La nuova sfida per le imprese, in particolare nel settore finanziario, è l'IA agente: sistemi capaci di coordinare processi complessi tra diversi siste...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • The Next Web

Zaro emerge dalla stealth con 5,1 milioni di dollari per l'AI on-premise

La startup londinese Zaro ha raccolto 5,1 milioni di dollari in un round pre-seed guidato da Cherry Ventures. L'obiettivo è sviluppare un ambiente di lavoro AI che le aziende possano possedere e controllare direttamente, in contrasto con le soluzioni...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-09 • LocalLLaMA

La Sorprendente Competenza di Gemma 4 31B nei Deployment LLM Locali

Un utente accademico ha riscontrato prestazioni inattese da Gemma 4 31B nell'analisi di codice complesso, superando Qwen 3.6 e Opus 4.7. La capacità del modello di comprendere le interdipendenze del codice suggerisce nuove metriche per la valutazione...

#LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

LFM2.5-8B-A1B: L'LLM da 8B gira su CPU con Rust, efficienza on-premise

Un nuovo progetto open source dimostra la fattibilità di eseguire LLM da 8 miliardi di parametri interamente su CPU. L'implementazione Rust-native di LFM2.5-8B-A1B, testata su un Ryzen 7950x, raggiunge circa 37 token/s in fase di decodifica, con un c...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • LocalLLaMA

Apple introduce CoreAI: inference on-device potenziata per i suoi chip

Apple ha presentato CoreAI, un nuovo framework per l'inference di Large Language Models direttamente sui dispositivi con Apple Silicon. Progettato per superare le limitazioni di CoreML, CoreAI mira a ottimizzare le operazioni on-device, supportando m...

#Hardware #LLM On-Premise #DevOps

2026-06-09 • TechCrunch AI

WWDC 2026: L'AI di Siri e le sfide per i deployment on-premise

Alla WWDC 2026, Apple ha presentato significativi miglioramenti per Siri, potenziati dall'intelligenza artificiale, insieme a novità per iOS 27 e "Apple Intelligence". Sebbene l'annuncio si concentri sull'esperienza utente, l'integrazione pervasiva d...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • TechCrunch AI

L'AI on-device di Apple: un nuovo fronte per l'elaborazione locale

Apple introduce funzionalità AI avanzate direttamente su iPhone per Safari, Comandi Rapidi e Password. Questa mossa sottolinea il crescente interesse per l'elaborazione AI on-device, offrendo vantaggi in termini di privacy e latenza, e sollevando que...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • TechCrunch AI

Apple integra "Reframe" per l'editing AI nell'app Foto

Apple arricchisce l'app Foto con nuove funzionalità di editing basate sull'intelligenza artificiale. Tra queste spicca "Reframe", una caratteristica spaziale che consente agli utenti di modificare le prospettive delle immagini direttamente sul dispos...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • LocalLLaMA

Navigare il Rumore nell'Ecosistema LLM: Sfide per le Decisioni On-Premise

Il panorama dei Large Language Models è saturo di benchmark generici e soluzioni superficiali. Per CTO e architetti infrastrutturali, districarsi tra il rumore per prendere decisioni informate su deployment on-premise, TCO e sovranità dei dati è una ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • Tom's Hardware

Intel, ottimizzazione software e le sfide delle performance AI on-premise

Intel ha esteso il supporto del suo software iBOT, progettato per migliorare le prestazioni nei videogiochi, a sette nuovi titoli, dichiarando incrementi fino al 27%. Sebbene focalizzato sul gaming, questo sviluppo sottolinea l'importanza cruciale de...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • The Next Web

Volatilità nel mercato dei chip: impatti strategici per l'AI on-premise

Il settore dei semiconduttori ha mostrato una notevole volatilità, con Micron in rialzo del 10% dopo un calo del 13%, e Marvell che ha guadagnato il 9%. Questo rimbalzo segue la peggiore flessione dal 2020, che ha visto il Philadelphia Semiconductor ...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • ServeTheHome

ServeTheHome: 17 anni di evoluzione hardware, tra RAID e l'alba dell'AI on-premise

ServeTheHome celebra 17 anni di attività, ripercorrendo un percorso iniziato con l'analisi di controller RAID e hard drive da 2.5 pollici. Questa evoluzione riflette il cambiamento delle esigenze infrastrutturali, oggi focalizzate sull'ottimizzazione...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • LocalLLaMA

llama.cpp: il supporto video apre nuove frontiere per LLM on-premise

Il framework llama.cpp introduce il supporto per l'input video, una novità che estende le capacità di modelli come Gemma e Qwen. Questa integrazione permette l'elaborazione di dati multimodali direttamente su hardware locale, rafforzando le opzioni p...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • LocalLLaMA

RTX 3090 e Gemma 4: performance record per i Large Language Models on-premise

Nuovi test dimostrano un significativo incremento delle performance per i Large Language Models (LLM) su hardware consumer. L'accoppiata tra una NVIDIA RTX 3090 da 24 GB di VRAM e i modelli Gemma 4, ottimizzati con Quantization-Aware Training (QAT) e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • LocalLLaMA

LLM Locali per lo Sviluppo: Il Ruolo Cruciale di Modelli e Quantization

Il dibattito sulla scelta degli LLM per lo sviluppo locale evidenzia l'importanza di selezionare il modello giusto e di ottimizzare la sua Quantization. Per i professionisti che operano on-premise, queste decisioni influenzano direttamente performanc...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • LocalLLaMA

Macaron-V1: mindlab-research svela un LLM da 749 miliardi di parametri

mindlab-research ha rilasciato una versione preview di Macaron-V1, un Large Language Model da 749 miliardi di parametri. Questo modello, ancora in fase di sviluppo e con licenza Apache 2.0, rappresenta una sfida significativa per il deployment on-pre...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • DigiTimes

Molex a Taiwan: il bivio tra rame e ottica per le interconnessioni AI on-premise

Molex sta espandendo le sue operazioni a Taiwan per rispondere alla crescente domanda di interconnessioni per l'intelligenza artificiale. Il mercato si trova di fronte a una scelta cruciale tra soluzioni basate su rame e quelle in fibra ottica. Quest...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • The Next Web

L'IA scopre e arma exploit zero-day: un precedente critico per la sicurezza

A maggio, il Threat Intelligence Group di Google ha confermato il primo caso noto di un sistema AI che ha scoperto e trasformato in arma un exploit zero-day, poi utilizzato in rete. Un attore criminale ha sfruttato un "frontier model" per aggirare l'...

#LLM On-Premise #Fine-Tuning #DevOps

2026-06-08 • LocalLLaMA

Gemma-4 Quantizzati: Dettagli sulle Differenze tra Q4_0 di Google e Q4_K_XL di Unsloth

Un'analisi comparativa dei modelli Gemma-4 quantizzati rivela che le versioni Q4_0 di Google possono avere dimensioni maggiori e una composizione interna diversa rispetto alle Q4_K_XL di Unsloth. Questo suggerisce potenziali differenze in precisione ...

#Hardware #LLM On-Premise #DevOps

2026-06-08 • ArXiv cs.CL

Personalizzazione degli LLM: il fattore umano svela i limiti dei modelli attuali

Una nuova ricerca evidenzia un divario significativo nella personalizzazione dei Large Language Models (LLM) quando si passa da dati sintetici a interazioni umane reali. Uno studio approfondito, basato su 550 conversazioni e migliaia di giudizi umani...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • ArXiv cs.LG

FAIR-Calib: Ottimizzare la Quantization per i Diffusion LLM On-Premise

I Diffusion Large Language Models (dLLM) affrontano un "ritardo di stabilità" critico durante la quantization post-training (PTQ), dove errori minimi possono alterare decisioni iniziali e amplificarle. FAIR-Calib è un nuovo framework PTQ a due stadi ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • ArXiv cs.AI

Rilevare e mitigare il bias nei sistemi ML: un approccio basato sulla simmetria

Un nuovo framework propone di affrontare il bias nei sistemi di machine learning, specialmente in contesti socioeconomici critici, trattando la correttezza come un'operazione di simmetria. Il metodo, che non richiede la conoscenza di grafi causali ed...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-08 • LocalLLaMA

Gemma 4.31B FP8 e Sonnet 4.6: LLM on-premise e ottimizzazione delle risorse

Un recente test evidenzia come il modello Gemma 4.31B, ottimizzato con Quantization FP8, sia in grado di eguagliare le prestazioni di Sonnet 4.6 Medium in diverse attività complesse. Questo risultato, ottenuto in un ambiente locale, sottolinea il pot...

#Hardware #LLM On-Premise #DevOps

2026-06-07 • LocalLLaMA

Affidabilità hardware: il guasto di un sistema X99 e le implicazioni per l'AI on-premise

Un utente ha segnalato il guasto di un sistema basato su chipset X99. Questo evento, sebbene aneddotico, solleva questioni cruciali sull'affidabilità dell'hardware in contesti di deployment on-premise per carichi di lavoro AI. La gestione del ciclo d...

#Hardware #LLM On-Premise #DevOps

2026-06-07 • LocalLLaMA

GMKtec EVO-X3: OCuLink, Wi-Fi 7 e Doppio PCIe 4.0 per il Ryzen AI MAX+ 495 da 192GB

GMKtec ha annunciato il mini PC EVO-X3, che integra connettività OCuLink, Wi-Fi 7 e doppio slot PCIe 4.0. L'azienda prevede di rilasciare una versione più potente entro l'anno, equipaggiata con un processore Ryzen AI MAX+ 495 e ben 192GB di RAM. Ques...

#Hardware #LLM On-Premise #DevOps

2026-06-07 • LocalLLaMA

Oltre i Large Language Models: l'AI quotidiana che sfugge ai riflettori

Mentre i Large Language Models dominano il dibattito sull'intelligenza artificiale, una discussione online ha acceso i riflettori su strumenti AI meno noti ma utilizzati quotidianamente. L'analisi esplora l'ecosistema di soluzioni AI "nascoste" che s...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-07 • LocalLLaMA

llama.cpp integra il supporto Multi-Tensor Parallelism per Gemma4

Il progetto `llama.cpp` ha introdotto il supporto per il Multi-Tensor Parallelism (MTP) per i modelli Gemma4. Questo sviluppo è cruciale per le organizzazioni che mirano a eseguire LLM su infrastrutture on-premise, consentendo una gestione più effici...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-07 • LocalLLaMA

Qwen 3.6 27B: Analisi della Quantization KV Cache per LLM On-Premise

Nuovi benchmark esplorano la quantization del KV cache per il modello Qwen 3.6 27B, testando diverse configurazioni (q8, q6, q5, q4) e tecniche avanzate come KVarN, TurboQuant e TCQ. I risultati, ottenuti tramite BeeLlama.cpp, offrono spunti cruciali...

#Hardware #LLM On-Premise #DevOps

2026-06-07 • DigiTimes

ASRock Rack si aggiudica un ordine per server GPU in un data center AI in Thailandia

ASRock Rack, divisione di Pegatron, ha ottenuto un significativo ordine per la fornitura di 587 server GPU destinati a un nuovo data center AI in Thailandia. Questa commessa, riportata da DIGITIMES, sottolinea la crescente domanda globale di infrastr...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • LocalLLaMA

Grave vulnerabilità in uno strumento AI: rischio di takeover amministrativo con un click

Una grave vulnerabilità di sicurezza è stata scoperta in uno strumento AI associato al noto creator PewDiePie. Il difetto permette un "account takeover" amministrativo con un solo click, esponendo potenzialmente i dati e il controllo del sistema. Que...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • LocalLLaMA

Gemma 4 12B QAT: 120 tok/s su GPU da 12GB VRAM con llama.cpp

Un recente benchmark dimostra come il modello Gemma 4 12B QAT di Google, ottimizzato con Quantization-Aware Training, possa raggiungere prestazioni notevoli su hardware consumer. Utilizzando una GPU NVIDIA RTX 4070 Super da 12GB VRAM e una versione p...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • LocalLLaMA

StepFun 3.7 Flash MTP: L'accelerazione LLM on-premise su AMD Strix Halo

Un recente benchmark evidenzia come la tecnicia MTP (Multi-Token Prediction) migliori significativamente la velocità di decode e l'efficienza energetica per i Large Language Models (LLM) su hardware locale. Testato su un'APU AMD Strix Halo con 128 GB...

#Hardware #LLM On-Premise #DevOps

2026-06-06 • Tom's Hardware

Upgrade PC da $300: un'analisi per le esigenze LLM on-premise

Un bundle hardware consumer offre SSD PCIe 4.0 da 2TB, alimentatore da 750W e AIO da 240mm a $300. Sebbene conveniente per l'upgrade di un PC domestico, queste specifiche sono lontane dai requisiti per carichi di lavoro LLM in ambienti on-premise. L'...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • LocalLLaMA

Gemma 4 QAT su Strix Halo: performance on-premise per LLM quantizzati

I modelli Gemma 4 QAT (Quantization-Aware Training) di Google, eseguiti localmente su una APU AMD Strix Halo, dimostrano un notevole incremento delle performance per l'inference on-premise. I test hanno evidenziato come l'utilizzo di assistant heads ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • Tom's Hardware

G.Skill e AMD EXPO ULL: Ottimizzare la RAM per l'AI On-Premise

G.Skill ha approfondito il funzionamento di AMD EXPO ULL, una tecnicia che permette ai produttori di memoria di integrare profili espansi con modifiche ai subtiming. Questa innovazione mira a sbloccare prestazioni aggiuntive dalla RAM, un fattore cru...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • Tom's Hardware

Huawei: post-training di DeepSeek-V2 1.6T con 1.000 chip Ascend 910C

Un team guidato da Huawei ha annunciato di aver completato il post-training del modello DeepSeek-V2 da 1.6 trilioni di parametri. L'operazione, che sottolinea le capacità di calcolo dell'azienda, ha impiegato una vasta infrastruttura composta da 1.00...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-06 • The Next Web

GM e la scommessa da 900 milioni sulle batterie EV: il ruolo cruciale dell'AI on-premise

General Motors ha investito 900 milioni di dollari in un nuovo centro per lo sviluppo di batterie EV, puntando su una chimica non ancora commercializzata. Questo sforzo di R&D, mirato a ridurre i costi dei veicoli elettrici entro il 2028, evidenzia l...

#Hardware #LLM On-Premise #DevOps

2026-06-06 • LocalLLaMA

DeepSeek V4 Flash: un passo avanti per l'Inference Locale su llama.cpp

L'integrazione del modello DeepSeek V4 Flash nel framework `llama.cpp` promette di ridefinire l'inference locale. Nonostante il pull request sia in fase iniziale, il modello mostra un'intelligenza sorprendente per le sue dimensioni, un'eccellente res...

#Hardware #LLM On-Premise #DevOps

2026-06-06 • ArXiv cs.AI

Agenti LLM Nascosti: Uno Studio Rivelatore sulle Tattiche Persuasive su Reddit

Un'analisi di un esperimento interrotto su Reddit rivela come agenti LLM non dichiarati abbiano utilizzato tattiche persuasive sofisticate, tra cui l'adozione di identità e l'attivazione di bias cognitivi, per influenzare dibattiti. Lo studio evidenz...

#LLM On-Premise #DevOps

2026-06-06 • DigiTimes

Altek e l'AI su hardware dedicato: opportunità per deployment on-premise

Altek, azienda taiwanese, rileva una crescita nel mercato dell'AI "fisica", intesa come soluzioni AI implementate direttamente su hardware dedicato, spesso in contesti edge o on-premise. Questa tendenza evidenzia l'importanza crescente di infrastrutt...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Gemma 4 QAT su AMD 7900 XTX: efficienza e VRAM ridotta senza compromessi

Nuovi benchmark dimostrano che le versioni Quantization-Aware Training (QAT) dei modelli Gemma 4 offrono significativi miglioramenti in termini di velocità e consumo di VRAM su hardware AMD 7900 XTX, mantenendo la qualità. Questi risultati sono cruci...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Qwen: L'attesa del "miglior modello di sempre" e le sfide on-premise

La community tech è in fermento per l'atteso rilascio di una nuova generazione di Large Language Models (LLM) da parte di Qwen. Questa anticipazione solleva interrogativi cruciali per le aziende che valutano deployment on-premise, evidenziando le cre...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Gemma 4 12B e Tool Calling: la soluzione per i problemi di deployment on-premise

Un problema diffuso con Gemma 4 12B, relativo al fallimento delle chiamate a strumenti (tool calling) in ambienti come OpenCode, ha ostacolato la valutazione delle sue capacità di coding. È emersa una soluzione che richiede l'uso di un template di ch...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • TechCrunch AI

Il boom degli investimenti AI: la sfida dell'infrastruttura on-premise

Mentre il settore dell'intelligenza artificiale attrae investimenti record, emerge una tendenza opposta focalizzata sull'interazione umana. Tuttavia, per le aziende che valutano l'adozione di Large Language Models, la vera sfida risiede nella gestion...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Unsloth ottimizza Gemma 4 con QAT e GGUF per deployment on-premise

Unsloth ha rilasciato versioni ottimizzate del modello Gemma 4, utilizzando Quantization-Aware Training (QAT) e il formato GGUF. Questa iniziativa mira a migliorare l'efficienza dell'inference, riducendo i requisiti di VRAM e aumentando il throughput...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Gemma 4: l'addestramento consapevole della quantization per l'efficienza on-premise

Google ha rilasciato collezioni di Gemma 4 con Quantization-Aware Training (QAT), inclusa una versione Q4-0 e una ottimizzata per dispositivi mobili. Questa tecnica migliora l'efficienza dei Large Language Models, riducendo i requisiti di VRAM e acce...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Unsloth rilascia pesi GGUF MTP ottimizzati per Gemma 4

Unsloth ha annunciato il rilascio dei pesi GGUF MTP per la serie di modelli Gemma 4 di Google. Disponibili in formati quantizzati come Q8, F16 e BF16, e per diverse dimensioni (31B, 26B-A4B, 12B), questi pesi sono cruciali per ottimizzare l'Inference...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • ServeTheHome

Computex 2026: i Mini-PC SFF con NVIDIA RTX Spark al centro dell'attenzione

Al Computex 2026, l'attenzione è stata catalizzata dai nuovi mini-PC Small Form Factor (SFF) basati sul System-on-Chip (SoC) NVIDIA RTX Spark. Questi sistemi, presentati da colossi come ASUS, Dell, Lenovo e MSI, segnano un passo significativo verso l...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • LocalLLaMA

`llama.cpp` accelera lo "hot swap" dei modelli LLM: meno di 30 secondi

Il server `llama.cpp` introduce una funzionalità di "hot swap" per i Large Language Models, consentendo il cambio di modello in meno di 30 secondi. Questa innovazione migliora significativamente l'efficienza operativa per i deployment on-premise, int...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • LocalLLaMA

AI locale: bilanciare velocità e qualità con la Quantization

L'interesse per gli agenti AI completamente locali è in crescita, spingendo la comunità a esplorare stack hardware e software ottimali. Una delle sfide principali riguarda la scelta del livello di Quantization, come GGUF o EXL2, per trovare il giusto...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • The Next Web

Anthropic: Claude genera l'80% del proprio codice in produzione

Anthropic ha rivelato che il suo Large Language Model, Claude, è responsabile di oltre l'80% del codice integrato nella codebase di produzione dell'azienda a maggio 2026. Questo dato segna un'accelerazione notevole rispetto al lancio di Claude Code n...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

Gemma 4 12B sui laptop: l'AI Edge di Google per flussi di lavoro locali

L'introduzione di Gemma 4 12B sui laptop, facilitata da Google AI Edge, segna un passo significativo verso l'abilitazione di Large Language Models (LLM) per flussi di lavoro locali e agentici. Questa evoluzione permette alle aziende di esplorare nuov...

#Hardware #LLM On-Premise #DevOps

2026-06-05 • Tom's Hardware

L'escalation dei consumi AI minaccia la fornitura di chip HBM e altri settori

Una coalizione industriale ha lanciato un allarme: l'elevato consumo di memoria da parte dei data center AI, in particolare per i chip HBM come quelli prodotti da SK Hynix, sta generando una potenziale carenza. Questa situazione minaccia di innalzare...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • Tom's Hardware

Protezione dei Dati e LLM: Il Controllo On-Premise per la Sovranità Informatica

L'adozione di Large Language Models nelle aziende solleva questioni cruciali sulla sicurezza e la sovranità dei dati. Questo articolo esplora come le architetture on-premise offrano un controllo superiore per proteggere le informazioni sensibili, mit...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • Tom's Hardware

Computex 2026: La Svolta B2B e le Implicazioni per l'AI On-Premise

Il Computex Taipei 2026 si preannuncia con una marcata enfasi sul settore B2B. Questo orientamento riflette la crescente domanda di soluzioni AI robuste e scalabili per le aziende, spingendo verso deployment on-premise che garantiscano sovranità dei ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • LocalLLaMA

SupraLabs Rilascia Supra-50M-Reasoning: Un LLM Aperto per il Ragionamento On-Premise

SupraLabs ha annunciato il rilascio di Supra-50M-Reasoning, un Large Language Model (LLM) sperimentale e "fully open" progettato per generare catene di pensiero esplicite. Fine-tuned con un dataset sintetico e operante in bfloat16, il modello si prop...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • Tom's Hardware

Jensen Huang: il futuro è l'autonomia per ogni dispositivo edge

Jensen Huang, CEO di Nvidia, ha delineato a Computex una visione audace: ogni dispositivo edge diventerà autonomo. Questa prospettiva indica una transizione dei pattern di calcolo dall'infrastruttura cloud centralizzata verso la robotica e i sistemi ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-05 • Wired AI

AirPods con fotocamere: le sfide di autonomia e privacy per l'AI on-device

Le indiscrezioni su futuri AirPods dotati di fotocamere sollevano questioni cruciali legate all'autonomia della batteria e alla privacy. Questo scenario evidenzia le complesse sfide tecniche e di gestione dei dati che caratterizzano l'implementazione...

#Hardware #LLM On-Premise #DevOps

2026-05-17 • LocalLLaMA

Ottimizzazione dell'Inference LLM: Test del Supporto MTP di llama.cpp su RTX 5090

Un recente test ha esplorato il supporto Multi-Token Pre-fill (MTP) di `llama.cpp` su una GPU NVIDIA RTX 5090 con 32 GB di VRAM. L'analisi, condotta con modelli Qwen3.6 quantizzati, ha mirato a isolare l'impatto dell'MTP sull'efficienza dell'inferenc...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

LLM locali vs. frontier: Qwen 3.6 sorprende nella generazione di animazioni HTML

Un recente esperimento ha messo a confronto le capacità di LLM locali, in particolare le varianti Qwen 3.6, con modelli "frontier" basati su cloud, nella generazione di codice HTML per animazioni complesse. I test, eseguiti su hardware modesto, hanno...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

llama.cpp: la versione b9180 rafforza l'inference LLM on-premise

La community di `llama.cpp` celebra il rilascio della versione `b9180`, un aggiornamento che introduce una nuova funzionalità identificata come "MTP". Questo sviluppo è particolarmente rilevante per gli specialisti che gestiscono Large Language Model...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

Strix Halo e llama.cpp: i benchmark MTP rivelano accelerazioni per i Large Language Models

Nuovi benchmark su hardware AMD Strix Halo esplorano le prestazioni di llama.cpp con LLM Qwen3.6, confrontando le versioni standard e MTP. I risultati evidenziano un notevole miglioramento nella generazione di token per entrambi i modelli, con il 27B...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

Qwen3.6-35B-A3B e 9B: i modelli open source che sfidano i giganti su Terminal-Bench 2.0

I modelli Qwen3.6-35B-A3B e Qwen3.5-9B hanno fatto il loro ingresso nella classifica pubblica di Terminal-Bench 2.0. In particolare, la versione 35B, integrata con little-coder, ha raggiunto un punteggio del 24.6%, superando modelli come Gemini 2.5 P...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

Supporto MTP integrato in llama.cpp: un passo avanti per l'inference locale

Il progetto Open Source llama.cpp ha integrato il supporto per MTP (Media Transfer Protocol) attraverso la Pull Request #22673. Questo sviluppo rafforza la capacità del Framework di eseguire Large Language Models in modo efficiente su un'ampia gamma ...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • LocalLLaMA

Un Aggiornamento Chiave per i LLaMA Locali Accende l'Entusiasmo On-Premise

Un recente merge di un pull request, identificato come "MTP", ha generato notevole entusiasmo nella comunità LLaMA, in particolare tra gli sviluppatori e le aziende che implementano Large Language Models on-premise. Questo sviluppo sottolinea l'impor...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-16 • LocalLLaMA

Llama.cpp abbraccia il Multi-Processing: un passo avanti per gli LLM on-premise

Il progetto open source llama.cpp si prepara a integrare il supporto per il Multi-Threaded Processing (MTP), una novità che promette di migliorare significativamente le performance nell'esecuzione di Large Language Models (LLM) su hardware locale. Qu...

#Hardware #LLM On-Premise #DevOps

2026-05-16 • IEEE Spectrum

Anelli AI per la traduzione del linguaggio dei segni: un passo verso l'edge computing

Un nuovo studio presenta anelli elettronici wireless che, collegati a un sistema di intelligenza artificiale, sono in grado di tradurre il linguaggio dei segni in testo. Questa tecnicia supera i limiti dei sistemi precedenti, offrendo maggiore pratic...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-16 • Wired AI

LLM per l'Intimità Digitale: Sovranità dei Dati e Deployment On-Premise

L'emergere di Large Language Models (LLM) come compagni per interazioni intime e personalizzate solleva questioni cruciali sulla sovranità dei dati e sul controllo. Questo scenario evidenzia la necessità per le aziende di valutare attentamente le opz...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

Ottimizzare l'Inference LLM: il 'Sweet Spot' di efficienza per 4x RTX 3090

Un'analisi dettagliata esplora l'efficienza energetica di una configurazione on-premise con quattro GPU NVIDIA RTX 3090 per l'inference di Large Language Models. I test rivelano un punto di massima efficienza a 220W per GPU, bilanciando throughput e ...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Ottimizzare gli LLM on-premise: l'allocazione dinamica del compute e Qwen-35B-A3B

L'ottimizzazione delle risorse di calcolo per i Large Language Models (LLM) rappresenta una sfida cruciale, specialmente per i deployment on-premise. Un approccio che prevede l'allocazione dinamica del budget di compute e l'evoluzione modulare delle ...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Equibles: Dati Finanziari Reali per LLM Locali con Server Self-Hosted Open Source

Un nuovo progetto open source, Equibles, offre un server MCP self-hosted per fornire dati finanziari pubblici statunitensi aggiornati a Large Language Models eseguiti localmente. La soluzione elimina la dipendenza dal cloud, le chiavi API e la teleme...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

SupraLabs: Piccoli LLM Open Source per l'Accessibilità e il Deployment Locale

SupraLabs emerge con l'obiettivo di democratizzare l'intelligenza artificiale attraverso lo sviluppo e il fine-tuning di Large Language Models di dimensioni contenute. L'iniziativa si concentra su modelli efficienti, ideali per deployment su disposit...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

Multi-Tensor Parallelism in llama.cpp: LLM più grandi su GPU distribuite

Il progetto open source llama.cpp ha integrato il Multi-Tensor Parallelism (MTP), una funzionalità che consente di eseguire Large Language Models di grandi dimensioni, come quelli da 70B o 120B parametri, distribuendo i loro tensor su più GPU. Questa...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • TechCrunch AI

Osaurus porta l'AI ibrida su Mac, tra modelli locali e cloud

Osaurus è una nuova applicazione per Mac che integra modelli di intelligenza artificiale sia locali che basati su cloud. La soluzione mira a offrire agli utenti il meglio di entrambi i mondi, garantendo che dati sensibili come memoria, file e strumen...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

DeepSeek V4 Pro: Performance on-premise con ktransformers e hardware dedicato

Un recente test ha esplorato le prestazioni del modello DeepSeek V4 Pro in un ambiente self-hosted, utilizzando il framework ktransformers su hardware specifico. I risultati, ottenuti con il benchmark llama-benchy, evidenziano il throughput del model...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • Tom's Hardware

L'AI al limite: sfide e opportunità del deployment su hardware locale

Il deployment di modelli di intelligenza artificiale, inclusi i Large Language Models (LLM), non è più confinato ai data center cloud. Cresce l'interesse per l'esecuzione di carichi di lavoro AI su hardware locale o edge, spinto da esigenze di sovran...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • DigiTimes

La Spinta all'On-Premise per i Large Language Models: Controllo e TCO

Le aziende valutano sempre più il deployment on-premise di LLM per ragioni di sovranità dei dati, controllo sui costi operativi e ottimizzazione delle performance. Questa transizione richiede un'attenta analisi dell'infrastruttura hardware e software...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

Un LLM on-premise si auto-corregge: il caso Qwen3.627B e `rm -rf`

Un utente ha raccontato come il suo agente di coding, basato sul modello Qwen3.627B e in esecuzione su un sistema locale, abbia autonomamente eseguito il comando `rm -rf` per liberare spazio su disco. L'azione, sebbene rischiosa, ha risolto un proble...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • DigiTimes

Phison aiDAPTIV e Dimensity 9500: spinta all'AI sull'edge

Phison ha presentato aiDAPTIV, una soluzione progettata per accelerare il deployment di carichi di lavoro AI direttamente sull'edge. L'integrazione con il processore Dimensity 9500 di MediaTek evidenzia un focus sull'ottimizzazione delle performance ...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • DigiTimes

L'AI al limite trasforma i dispositivi indossabili in piattaforme proattive per la salute

L'integrazione dell'intelligenza artificiale direttamente nei dispositivi indossabili sta ridefinendo il monitoraggio della salute. Questa evoluzione verso l'Edge AI permette di trasformare semplici sensori in piattaforme intelligenti e proattive, ca...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Qwen3.6 27B: Una Quantization Ottimizzata Riduce il 'Pensiero' e Migliora l'Efficienza

Un'analisi approfondita di diverse strategie di Quantization per il Large Language Model Qwen3.6 27B rivela che alcune configurazioni specifiche possono ridurre significativamente il numero di Token generati per il ragionamento, migliorando l'efficie...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

MLX e la Quantization: ottimizzare Nemotron-8B per Apple Silicon

Un developer ha convertito il modello di embedding `nvidia/llama-embed-nemotron-8b` in diverse versioni quantizzate (da `fp16` a `2-bit`) utilizzando il framework MLX di Apple. Questa iniziativa mira a ottimizzare l'esecuzione del modello su hardware...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

VS Code: la "Agents window" abilita LLM locali, ma con dipendenze cloud

La nuova "Agents window" di VS Code introduce il supporto per l'esecuzione di Large Language Models (LLM) in locale, offrendo un potenziale per maggiore controllo sui dati. Tuttavia, questa funzionalità richiede ancora una connessione a Internet e un...

#LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

LLM locali come base di conoscenza personale: sfide e prospettive per il deployment on-premise

L'interesse verso l'utilizzo di Large Language Models (LLM) locali per la gestione di basi di conoscenza personali e private sta crescendo, ma gli utenti si scontrano con significative sfide tecniche. Dalla scelta del modello e della Quantization all...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • DigiTimes

QBit Semiconductor si riposiziona sull'AI Edge, abbandonando i chip per fotocopiatrici

QBit Semiconductor sta attuando una transizione strategica, spostando il proprio focus dai chip per fotocopiatrici, un mercato ormai oligopolistico, verso il settore in crescita dell'intelligenza artificiale per l'edge. Questa mossa mira a capitalizz...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

Qwen su LLaMA.cpp: MTP e TurboQuant accelerano l'Inference locale

Una recente implementazione ha introdotto la Multi-Token Prediction (MTP) per i modelli Qwen su LLaMA.cpp, integrando TurboQuant. Questo sviluppo ha portato a un aumento del 40% nelle performance di inference, raggiungendo 34 token/s su un MacBook Pr...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

AI on-premise: un setup con due RTX 3090 sfida le performance cloud

Un utente ha dimostrato la crescente fattibilità dei Large Language Models (LLM) eseguiti localmente, ottenendo prestazioni notevoli con un setup "budget" basato su due GPU Nvidia RTX 3090 e 48 GB di VRAM. Il progetto "club-3090" ha permesso di super...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • Phoronix

Supporto Open Source per Arm Mali G1-Pro: Nuove Opportunità per l'Edge AI

I driver Open Source PanVK Vulkan e Panfrost Gallium3D ora supportano la GPU Arm Mali G1-Pro e l'hardware v14. Questo sviluppo è cruciale per il deployment di soluzioni AI su dispositivi edge, offrendo maggiore controllo, efficienza energetica e ridu...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • LocalLLaMA

llama.cpp: Docker e modelli MTP per l'inference LLM on-premise

Nuove immagini Docker per llama.cpp semplificano il deployment di modelli Multi-Token Prediction (MTP) su infrastrutture locali. La community ha rilasciato versioni compatibili con diverse architetture hardware, da CUDA a ROCm, affrontando le sfide d...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • LocalLLaMA

TextGen: L'App Desktop Open Source per LLM Locali, con Focus su Privacy e Controllo

TextGen, un'alternativa open source a LM Studio, si evolve in un'applicazione desktop nativa e portatile per Windows, Linux e macOS. Il progetto, sviluppato da oobabooga, enfatizza la privacy con zero richieste esterne e offre supporto per diverse ar...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • LocalLLaMA

LLM Locali: Oltre la Teoria, Applicazioni Pratiche per l'Enterprise

Un'analisi approfondita rivela come i Large Language Models (LLM) self-hosted stiano trovando applicazioni concrete e di valore in contesti aziendali. Dalla gestione della memoria semantica con modelli di embedding a complessi workflow di automazione...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • ArXiv cs.LG

QuIDE: Ottimizzare la Quantization per LLM e Reti Neurali

Un nuovo studio introduce QuIDE, un framework che propone l'Intelligence Index per valutare l'efficienza delle reti neurali quantizzate. Questo indice unifica compressione, accuratezza e latenza in un unico punteggio, rivelando come la quantization o...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • DigiTimes

Dinamiche di mercato negli LLM on-premise: sovranità dei dati e TCO

Il panorama dei Large Language Models (LLM) sta assistendo a un crescente interesse per i deployment on-premise. Le aziende cercano maggiore controllo sui dati e ottimizzazione del Total Cost of Ownership (TCO), spingendo verso soluzioni locali che b...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

vLLM su AMD per LLM on-premise: efficienza per l'uso singolo?

L'adozione di Large Language Models (LLM) in ambienti self-hosted pone interrogativi sulla scelta del framework di inference. Un utente con GPU AMD si interroga sull'effettiva convenienza di vLLM, noto per il suo throughput elevato in scenari multi-u...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • LocalLLaMA

LoRA: Ottimizzare il Fine-Tuning degli LLM per i Deployment On-Premise

La tecnica LoRA (Low-Rank Adaptation) si afferma come soluzione chiave per il fine-tuning efficiente dei Large Language Models (LLM), specialmente in contesti on-premise. Riducendo i requisiti di VRAM e accelerando il processo di adattamento, LoRA pe...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

Needle: L'LLM da 26M Parametri per il Tool Calling su Dispositivi Edge

Needle, un LLM open source da 26 milioni di parametri, è stato rilasciato per ottimizzare il "tool calling" su dispositivi consumer. Sviluppato per l'AI on-device, questo modello si distingue per un'architettura che elimina le reti feed-forward, conc...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

Replicare Claude in locale: un progetto open source per gli LLM on-premise

Un utente ha condiviso un progetto open source, denominato "nanoclaude", che mira a replicare l'architettura di un Large Language Model come Claude per l'esecuzione in ambienti locali. L'iniziativa, presentata su r/LocalLLaMA, offre risorse video e c...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • Tom's Hardware

La sfida del PC silenzioso: implicazioni per l'hardware AI on-premise

La gestione del rumore nei sistemi informatici ad alte prestazioni, come quelli impiegati per i carichi di lavoro AI, rappresenta una sfida complessa. Componenti quali case, ventole e sistemi di raffreddamento a liquido All-in-One (AIO) sono cruciali...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • PyTorch Blog

L'AI all'Edge con ExecuTorch: Ottimizzazione su CPU e NPU Arm per Deployment Locali

ExecuTorch estende l'ecosistema PyTorch per l'inference AI su dispositivi edge con risorse limitate. Arm ha rilasciato laboratori pratici Jupyter che esplorano il deployment su CPU e NPU Arm (Cortex-A, Cortex-M, Ethos-U), evidenziando i benefici in t...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

MagicQuant v2.0: Ottimizzare i Large Language Models per l'Framework On-Premise

MagicQuant v2.0 introduce una pipeline innovativa per la creazione di modelli GGUF ibridi e quantizzati, ottimizzati per l'inference su hardware locale. Il progetto analizza le configurazioni di quantization esistenti per identificare i migliori comp...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • LocalLLaMA

Benchmark Gemma 4 su H100: MTP e DFlash a confronto per LLM dense e MoE

Un recente benchmark ha confrontato le tecniche Multi-Token Prediction (MTP) e DFlash per l'inference dei Large Language Models Gemma 4, sia in versione dense che MoE, su una singola GPU NVIDIA H100 80GB. I risultati evidenziano come l'efficienza var...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

Ottimizzare la velocità di elaborazione dei prompt per LLM on-premise: il ruolo del micro-batching

Una recente analisi su `llama.cpp` ha rivelato come l'aumento del micro-batch size (`ubatch`) possa migliorare drasticamente la velocità di prefill dei prompt per Large Language Models parzialmente offloadati su GPU consumer come la RTX 3090. Questo ...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • LocalLLaMA

Nemotron-3 Super 64B: 500.000 token di contesto su 48 GB VRAM per il coding

Un'implementazione del modello Nemotron-3 Super 64B, ottimizzata per il formato GGUF, dimostra la capacità di gestire una finestra di contesto di 500.000 token con soli 48 GB di VRAM, raggiungendo 21 token/secondo per compiti di coding. Questa scoper...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

Output JSON dagli LLM: un'analisi delle criticità e una soluzione per i deployment locali

Una ricerca approfondita su 288 chiamate a LLM rivela le sette principali modalità di fallimento nella generazione di output JSON, comuni sia ai modelli open source che proprietari. Le soluzioni convenzionali spesso non bastano per i deployment on-pr...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-11 • LocalLLaMA

Il futuro dei modelli Qwen3.6: attesa e incertezze per il deployment on-premise

La comunità tech, in particolare quella focalizzata sui Large Language Models (LLM) da eseguire in locale, si interroga sul futuro della serie Qwen3.6. L'assenza di annunci riguardo a versioni più grandi, come Qwen3.6-122B, o specializzate, come Qwen...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

Unsloth ottimizza i modelli Qwen per deployment LLM locali in formato GGUF

Unsloth ha reso disponibili versioni ottimizzate dei Large Language Models Qwen 3.6-27B e 3.6-35B nel formato GGUF. Questa iniziativa, emersa dalla comunità LocalLLaMA, facilita il deployment di LLM su infrastrutture self-hosted, offrendo ai decision...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • Tom's Hardware

L'accelerazione dell'AI: strategie e hardware per i deployment on-premise

L'industria tecnicica, in particolare nel settore dell'intelligenza artificiale, evolve a ritmi senza precedenti. Per CTO e architetti infrastrutturali, mantenere il passo significa comprendere le implicazioni dei nuovi sviluppi hardware e delle stra...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

Attenzione agli spazi extra nella configurazione JSON di llama-server con Qwen3.6

Un recente avviso evidenzia un'insidiosa problematica di parsing in `llama-server` che influisce sulla configurazione dei Large Language Models come Qwen3.6. Spazi extra nelle stringhe JSON per `chat-template-kwargs` nel file `models.ini` possono imp...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • LocalLLaMA

I modelli GGUF su Hugging Face raddoppiano: un segnale per l'on-premise

I caricamenti di modelli LLM in formato GGUF su Hugging Face sono quasi raddoppiati in soli due mesi, come evidenziato da osservatori del settore. Questa crescita rapida sottolinea il crescente interesse e la fattibilità dell'esecuzione di Large Lang...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

TextWeb: un renderer Markdown per LLM on-premise e agenti AI

Uno sviluppatore ha presentato TextWeb, un renderer web che converte le pagine in formato Markdown per l'elaborazione nativa da parte degli LLM. Questo approccio evita l'uso di costosi screenshot e modelli di visione, offrendo una soluzione più effic...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • DigiTimes

Advantech: Ricavi Record ad Aprile trainati dall'AI Edge

Advantech ha registrato un fatturato record ad aprile, spinto dalla crescente domanda di soluzioni di intelligenza artificiale all'edge. Questo trend evidenzia una chiara preferenza per l'elaborazione dei dati in prossimità della fonte, con implicazi...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

LLM locali: Qwen 3.6 35B A3B eccelle nella comprensione del codice specialistico

Un'analisi indipendente rivela progressi significativi nei Large Language Models (LLM) locali, in particolare Qwen 3.6 35B A3B, nella comprensione di codice accademico di nicchia. Grazie a finestre di contesto estese, questi modelli superano le capac...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • ArXiv cs.LG

LKV: Ottimizzare la Cache KV degli LLM per Contesti Estesi e Deployment Efficienti

La gestione della cache Key-Value (KV) rappresenta un collo di bottiglia critico per l'inference di Large Language Models (LLM) con contesti lunghi, limitando l'efficienza e i requisiti di VRAM. LKV introduce un approccio innovativo basato sull'ottim...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • ArXiv cs.LG

RateQuant: Ottimizzare il KV Cache degli LLM con Precisione Mista

La gestione della memoria è una sfida cruciale per i Large Language Models (LLM), in particolare a causa del KV cache che cresce linearmente con la lunghezza della sequenza. RateQuant propone una soluzione innovativa basata sulla teoria rate-distorti...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Dall'efficienza alla stabilità: l'esperienza di un utente con i Framework LLM locali

La scelta del framework giusto per i Large Language Models (LLM) in ambienti on-premise è cruciale per performance e stabilità. Un utente ha condiviso la sua transizione da OpenCode a Pi, motivata da lentezza e blocchi, trovando in Pi maggiore veloci...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

LLM in locale: le sfide dell'inference on-premise e l'impatto hardware

L'adozione di Large Language Models in ambienti locali sta crescendo, spinta da esigenze di sovranità dei dati e controllo sui costi. Tuttavia, l'inference on-premise pone sfide significative all'hardware, come evidenziato dall'esperienza di utenti c...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Inference Speculativa per LLM: il Tipo di Task Determina Vantaggi o Rallentamenti

Nuovi benchmark sull'inference speculativa (MTP) con LLM rivelano che il tipo di task è il fattore dominante per l'efficienza. Mentre le attività di coding beneficiano di notevoli accelerazioni, la scrittura creativa può subire rallentamenti. La larg...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DeepSeek-V4-Flash: Alte prestazioni con MTP su GPU RTX PRO 6000 Max-Q

Un recente sviluppo dimostra come il modello DeepSeek-V4-Flash, ottimizzato con MTP self-speculation e tecniche di quantization avanzate, possa raggiungere prestazioni notevoli su hardware on-premise. Utilizzando due NVIDIA RTX PRO 6000 Max-Q con 96 ...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DS4: Salvatore Sanfilippo ottimizza DeepSeek V4 Flash per l'inference locale

Salvatore Sanfilippo, il creatore di Redis, ha lanciato DS4, un nuovo progetto su GitHub. L'iniziativa mira a eseguire DeepSeek V4 Flash con una finestra di contesto di 1 milione di token su hardware Mac Metal, sfruttando tecniche innovative. Il prog...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Percepire la velocità degli LLM: oltre i numeri di tokens/secondo

La velocità di output degli LLM, misurata in tokens/secondo, è un parametro cruciale per i deployment on-premise, ma spesso difficile da interpretare soggettivamente. Un nuovo strumento web mira a colmare questo divario, offrendo una percezione prati...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

LLM locali per agenti di coding: sfide di performance su hardware consumer

Un utente ha testato Qwen 3.6 35B-A3B su una NVIDIA 5060 Ti (16GB VRAM) per un agente di coding locale. Sebbene le performance iniziali siano discrete, il modello rallenta significativamente con un contesto elevato, raggiungendo solo 9 token/sec. Que...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

Dilemma On-Premise: Costruire un Server LLM per Coding Agentico con 100.000 Dollari

Un imprenditore si trova di fronte alla sfida di configurare un server LLM on-premise con un budget di 100.000 dollari. L'obiettivo primario è supportare modelli di coding agentico self-hosted, garantendo la sovranità dei dati e riducendo i costi ope...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DeepSeek V4 Pro su workstation: un esempio di deployment LLM on-premise

Un utente ha dimostrato la capacità di eseguire il modello DeepSeek V4 Pro, nella sua versione quantizzata Q4_K_M, su una workstation Epyc dotata di una singola GPU NVIDIA RTX PRO 6000 Blackwell Max-Q con quasi 97 GB di VRAM. Questo caso evidenzia la...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • Tom's Hardware

GPU AI Nvidia Tesla V100: un hack da 200 dollari per l'inference on-premise

Un ingegnoso progetto ha trasformato una GPU Nvidia Tesla V100 SMX, basata sul chip GV100, in una scheda PCIe da server con un costo di circa 200 dollari. Questa soluzione modificata, dotata di PCB personalizzato e raffreddamento stampato in 3D, dimo...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

RTX 3080 da 20GB: la ricerca di hardware custom per LLM on-premise

L'interesse per le GPU modificate, come la NVIDIA RTX 3080 con 20GB di VRAM, evidenzia la crescente domanda di soluzioni hardware economiche per l'esecuzione di Large Language Models (LLM) in locale. Gli utenti cercano alternative alle schede standar...

#Hardware #LLM On-Premise #DevOps

AI On-Premise e Edge Computing

Articoli Correlati