Topic / Trend Rising

Movimento verso LLM On-Premise e Locali

I crescenti costi e le preoccupazioni per la sovranità dei dati spingono aziende e appassionati a distribuire large language model su hardware locale. Quantization, progressi di llama.cpp e configurazioni hardware non convenzionali stanno rendendo l'IA on-premise sempre più praticabile.

Detected: 2026-06-22 · Updated: 2026-06-22

GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto

Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...

#Hardware #LLM On-Premise #DevOps

2026-06-19 • LocalLLaMA

GLM-5.2: il LLM da 1,5TB ora gira su un Mac, con l’82% di accuratezza

La versione a 2 bit di GLM-5.2, ridotta da 1,51 TB a 238 GB, conserva circa l’82% dell’accuratezza. Ora eseguibile localmente su Mac con 256 GB di memoria unificata o sistemi con RAM/VRAM equivalenti, grazie al supporto in llama.cpp e Unsloth Studio....

#Hardware #LLM On-Premise #DevOps

2026-06-18 • LocalLLaMA

Cosa fare con 192 GB di VRAM inattiva: il caso del nodo multi-GPU da riconvertire

Un professionista IT scopre un server con 8 GPU Framework RTX 6000 quasi sempre fermo. La domanda al capo: possiamo usarlo per far girare modelli linguistici di grandi dimensioni in locale? AI-RADAR analizza le potenzialità tecniche e gli aspetti str...

#Hardware #LLM On-Premise #DevOps

2026-06-18 • Tom's Hardware

L'AI locale sfida il cloud: due mini PC gestiscono milioni di token e riducono i costi

Un approccio innovativo dimostra come sia possibile abbandonare il cloud per l'inference di Large Language Models (LLM), sfruttando la potenza di due mini PC. Questa strategia permette di elaborare milioni di token al giorno, generando significativi ...

#Hardware #LLM On-Premise #DevOps

2026-06-18 • LocalLLaMA

llama.cpp si evolve: gestione completa dei modelli via API

Un recente aggiornamento di llama.cpp introduce la gestione completa dei modelli tramite API, consentendo il caricamento, lo scaricamento e la gestione del ciclo di vita degli LLM direttamente da un'interfaccia programmatica. Questa novità semplifica...

#Hardware #LLM On-Premise #DevOps

2026-06-17 • LocalLLaMA

GLM 5.2: Un passo avanti per l'AI locale e il potenziale della distillazione

Il rilascio di GLM 5.2, un Large Language Model da 744 miliardi di parametri con licenza MIT, segna un'importante evoluzione per l'AI on-premise. Sebbene il modello completo richieda cluster di livello enterprise, il suo potenziale di distillazione e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-15 • LocalLLaMA

Ollama per l'on-premise: un'analisi critica delle sue implicazioni

Un recente dibattito online ha sollevato interrogativi sull'opportunità di utilizzare Ollama per il deployment di Large Language Models in ambienti on-premise. L'articolo esplora le considerazioni tecniche e operative che le aziende devono valutare, ...

#Hardware #LLM On-Premise #DevOps

2026-06-15 • The Next Web

Gestione LLM on-premise: il peso operativo oltre l'hardware

L'adozione di Large Language Models (LLM) in ambienti self-hosted offre vantaggi in termini di sovranità dei dati e controllo, ma introduce un significativo carico operativo. Questo articolo esplora come il Total Cost of Ownership (TCO) vada ben oltr...

#Hardware #LLM On-Premise #DevOps

← Torna ai Topic

Movimento verso LLM On-Premise e Locali

Articoli Correlati