Topic / Trend Rising

AI On-Premise e Deployment Locale di LLM

Cresce la spinta a eseguire modelli linguistici di grandi dimensioni su hardware locale, dai GPU consumer ai server aziendali, spinta da sovranità dei dati, controllo dei costi e prestazioni. Strumenti della comunità come llama.cpp, tecniche di quantization e configurazioni ibride NPU/GPU rendono il self-hosting sempre più praticabile.

Detected: 2026-06-25 · Updated: 2026-06-25

Articoli Correlati

2026-06-24 LocalLLaMA

AMD Strix Halo: l’NPU ora funziona con ROCm, ibrido GPU+NPU per LLM locali

Il Ryzen AI Max+ 395 di AMD, dotato di NPU, è finalmente utilizzabile per l’inference LLM grazie a strumenti come Lemonade che abilitano la modalità ibrida NPU+iGPU. Questa combinazione sfrutta la velocità dell’NPU per il prompt processing, paralleli...

#Hardware #LLM On-Premise #DevOps
2026-06-22 LocalLLaMA

Un LLM MoE da 35B su una RTX 3090: velocità e qualità a portata di consumer

Con l’APEX I-Quality e il codec turbo8, Qwen3.6-35B-A3B raggiunge 137 t/s e 128k di contesto su una singola RTX 3090. I test mostrano che il fork spiritbuun regge il confronto con ik_llama, e che il nuovo cache turbo8/turbo4 migliora coerenza e throu...

#Hardware #LLM On-Premise #DevOps
2026-06-22 LocalLLaMA

Ling-2.6: dall’immenso al fulmineo, l’on-premise trova la sua strada

Il nuovo report tecnico svela modelli fino a 1 trilione di parametri, ma è l’eredità di Ling-mini a far brillare gli occhi a chi punta su hardware ridotto. 160 token al secondo su 8 GB di VRAM diventano un caso di studio per il self-hosting.

#Hardware #LLM On-Premise #DevOps
2026-06-20 LocalLLaMA

GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto

Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...

#Hardware #LLM On-Premise #DevOps
2026-06-18 LocalLLaMA

North Mini Code in 4-bit: ora eseguibile in locale su Mac e via Ollama

Il team di North Mini Code rilascia una versione a 4 bit del modello su Hugging Face. Con circa 20 GB di memoria richiesta, il modello può girare su hardware locale tramite Ollama e runtime llama.cpp, oltre a essere accessibile via API OpenRouter. Un...

#Hardware #LLM On-Premise #DevOps
← Torna ai Topic