Topic / Trend Rising

AI On-Premise e Deployment Locale di LLM

Cresce la spinta a eseguire modelli linguistici di grandi dimensioni su hardware locale, dai GPU consumer ai server aziendali, spinta da sovranità dei dati, controllo dei costi e prestazioni. Strumenti della comunità come llama.cpp, tecniche di quantization e configurazioni ibride NPU/GPU rendono il self-hosting sempre più praticabile.

Detected: 2026-06-25 · Updated: 2026-06-25

AMD Strix Halo: l’NPU ora funziona con ROCm, ibrido GPU+NPU per LLM locali

Il Ryzen AI Max+ 395 di AMD, dotato di NPU, è finalmente utilizzabile per l’inference LLM grazie a strumenti come Lemonade che abilitano la modalità ibrida NPU+iGPU. Questa combinazione sfrutta la velocità dell’NPU per il prompt processing, paralleli...

#Hardware #LLM On-Premise #DevOps

2026-06-22 • LocalLLaMA

Un LLM MoE da 35B su una RTX 3090: velocità e qualità a portata di consumer

Con l’APEX I-Quality e il codec turbo8, Qwen3.6-35B-A3B raggiunge 137 t/s e 128k di contesto su una singola RTX 3090. I test mostrano che il fork spiritbuun regge il confronto con ik_llama, e che il nuovo cache turbo8/turbo4 migliora coerenza e throu...

#Hardware #LLM On-Premise #DevOps

2026-06-22 • LocalLLaMA

Ling-2.6: dall’immenso al fulmineo, l’on-premise trova la sua strada

Il nuovo report tecnico svela modelli fino a 1 trilione di parametri, ma è l’eredità di Ling-mini a far brillare gli occhi a chi punta su hardware ridotto. 160 token al secondo su 8 GB di VRAM diventano un caso di studio per il self-hosting.

#Hardware #LLM On-Premise #DevOps

2026-06-22 • LocalLLaMA

llama.cpp accelera l'inference locale con il supporto Multi-Token Prediction per i modelli Step Flash

Un nuovo pull request nel repository llama.cpp estende il supporto per la previsione multi-token (MTP), una tecnica che accorcia i tempi di inference. La novità, focalizzata sui modelli Step3.5/3.7 Flash, segna un ulteriore passo verso l'efficienza n...

#Hardware #LLM On-Premise #DevOps

2026-06-21 • LocalLLaMA

Llama.cpp, la guida all’ottimizzazione che mancava: un anno di esperimenti condensati

Dopo 12 mesi di test su inference locale, uno sviluppatore pubblica una guida completa per ottimizzare llama.cpp: gestione della VRAM, cache KV, modelli MoE, tuning della CPU e le trappole OOM più frequenti. Un riferimento pratico per chi sceglie il ...

#Hardware #LLM On-Premise #DevOps

2026-06-20 • LocalLLaMA

GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto

Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...

#Hardware #LLM On-Premise #DevOps

2026-06-20 • LocalLLaMA

GLM 5.2: il 'max effort' default è un killer per il self-hosting. Ecco l'alternativa high level

Il passaggio a GLM 5.2 ha raddoppiato i token di ragionamento, rendendo il modello inutilizzabile su un vecchio server Xeon (12 ore di attesa). Un report mostra che la modalità 'high level' usa meno della metà dei token e conserva il 98% delle presta...

#Hardware #LLM On-Premise #DevOps

2026-06-20 • LocalLLaMA

Accesso web per agenti AI locali: niente API a pagamento, solo self-hosting

Un approccio self-hosted per cercare e leggere pagine web con i propri agenti locali, usando SearXNG per la ricerca e Scrapling con Trafilatura per l'estrazione. Funziona, con compromessi chiari su velocità e qualità.

#LLM On-Premise #DevOps

2026-06-18 • LocalLLaMA

North Mini Code in 4-bit: ora eseguibile in locale su Mac e via Ollama

Il team di North Mini Code rilascia una versione a 4 bit del modello su Hugging Face. Con circa 20 GB di memoria richiesta, il modello può girare su hardware locale tramite Ollama e runtime llama.cpp, oltre a essere accessibile via API OpenRouter. Un...

#Hardware #LLM On-Premise #DevOps

2026-06-18 • Tom's Hardware

L'AI locale sfida il cloud: due mini PC gestiscono milioni di token e riducono i costi

Un approccio innovativo dimostra come sia possibile abbandonare il cloud per l'inference di Large Language Models (LLM), sfruttando la potenza di due mini PC. Questa strategia permette di elaborare milioni di token al giorno, generando significativi ...

#Hardware #LLM On-Premise #DevOps

← Torna ai Topic

AI On-Premise e Deployment Locale di LLM

Articoli Correlati