Topic / Trend Rising

Boom dell’IA On‑Premise e Inference Locale

La domanda di esecuzione locale di LLM esplode grazie a modelli compatti, quantization e strumenti self‑hosted come llama.cpp e Ollama, favorendo risparmi e sovranità dei dati.

Detected: 2026-06-21 · Updated: 2026-06-21

GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto

Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...

#Hardware #LLM On-Premise #DevOps

2026-06-20 • LocalLLaMA

Un pellicano SVG e due GPU: quantization spinta e inference locale su RTX 5090 + 3090

Un appassionato di hardware esegue GLM 5.2 UD IQ2_M su una configurazione dual GPU con RTX 5090 e RTX 3090 in bifurcation x8. Nonostante la quantization molto bassa, il modello produce immagini SVG di qualità elevata, ma con un token rate ridotto. Il...

#Hardware #LLM On-Premise #DevOps

2026-06-19 • LocalLLaMA

GLM-5.2: il LLM da 1,5TB ora gira su un Mac, con l’82% di accuratezza

La versione a 2 bit di GLM-5.2, ridotta da 1,51 TB a 238 GB, conserva circa l’82% dell’accuratezza. Ora eseguibile localmente su Mac con 256 GB di memoria unificata o sistemi con RAM/VRAM equivalenti, grazie al supporto in llama.cpp e Unsloth Studio....

#Hardware #LLM On-Premise #DevOps

2026-06-18 • LocalLLaMA

Cosa fare con 192 GB di VRAM inattiva: il caso del nodo multi-GPU da riconvertire

Un professionista IT scopre un server con 8 GPU Framework RTX 6000 quasi sempre fermo. La domanda al capo: possiamo usarlo per far girare modelli linguistici di grandi dimensioni in locale? AI-RADAR analizza le potenzialità tecniche e gli aspetti str...

#Hardware #LLM On-Premise #DevOps

2026-06-18 • Tom's Hardware

L'AI locale sfida il cloud: due mini PC gestiscono milioni di token e riducono i costi

Un approccio innovativo dimostra come sia possibile abbandonare il cloud per l'inference di Large Language Models (LLM), sfruttando la potenza di due mini PC. Questa strategia permette di elaborare milioni di token al giorno, generando significativi ...

#Hardware #LLM On-Premise #DevOps

2026-06-17 • LocalLLaMA

GLM 5.2: Un passo avanti per l'AI locale e il potenziale della distillazione

Il rilascio di GLM 5.2, un Large Language Model da 744 miliardi di parametri con licenza MIT, segna un'importante evoluzione per l'AI on-premise. Sebbene il modello completo richieda cluster di livello enterprise, il suo potenziale di distillazione e...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-17 • LocalLLaMA

L'Ascesa dei Large Language Models Locali: Da "Giocattoli" a Strumenti Essenziali

In meno di un anno, i Large Language Models (LLM) eseguibili localmente sono passati da soluzioni di nicchia a strumenti concretamente utili per aziende e sviluppatori. Questa trasformazione, evidenziata da esperti del settore, ha aperto nuove possib...

#Hardware #LLM On-Premise #DevOps

2026-06-16 • LocalLLaMA

Il Potenziale Nascosto degli LLM Leggeri per l'Automazione On-Premise

Mentre l'attenzione si concentra spesso su LLM di grandi dimensioni o assistenti alla programmazione, emerge un dibattito sul potenziale inespresso dei modelli più piccoli ed efficienti (da 1 a 4 miliardi di parametri). Questi LLM, integrabili dirett...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-16 • LocalLLaMA

Assemblato un sistema quad-GPU RTX 5060Ti 16GB per LLM on-premise

Un utente ha completato l'assemblaggio di un sistema quad-GPU basato su NVIDIA RTX 5060Ti da 16GB, configurato per l'inference di Large Language Models (LLM) in un ambiente on-premise. La configurazione sfrutta una scheda madre MSI con supporto PCIe ...

#Hardware #LLM On-Premise #DevOps

2026-06-15 • LocalLLaMA

Ollama per l'on-premise: un'analisi critica delle sue implicazioni

Un recente dibattito online ha sollevato interrogativi sull'opportunità di utilizzare Ollama per il deployment di Large Language Models in ambienti on-premise. L'articolo esplora le considerazioni tecniche e operative che le aziende devono valutare, ...

#Hardware #LLM On-Premise #DevOps

2026-06-15 • LocalLLaMA

Qwen 27B: Raddoppia la velocità di generazione, cala il fabbisogno di VRAM

Nuove ottimizzazioni per il modello Qwen 27B hanno raddoppiato la velocità di generazione dei token e ridotto il consumo di VRAM da 21GB a 17.5GB, mantenendo l'accuratezza del contesto. Questi progressi, ottenuti sulla stessa configurazione hardware,...

#Hardware #LLM On-Premise #DevOps

2026-06-14 • LocalLLaMA

Qwen 35B Q4 vs Gemma 12B Q8: La Quantization per LLM su Hardware Locale

Un utente si interroga sull'impatto della quantization nella scelta tra Qwen 3.6 35B-A3B in Q4 e Gemma 4 12B in Q8, su una configurazione con 32GB di memoria unificata. La discussione evidenzia come la riduzione della precisione dei modelli sia cruci...

#Hardware #LLM On-Premise #DevOps

2026-06-14 • LocalLLaMA

Esecuzione di Deepseek 4 Flash su Mac M3 Max: un'analisi delle performance on-premise

Un'analisi dettagliata rivela la fattibilità dell'esecuzione del modello Deepseek 4 Flash su un MacBook Pro con chip M3 Max e 96GB di memoria unificata. L'implementazione, che sfrutta un motore specifico e ottimizzazioni per la gestione della memoria...

#Hardware #LLM On-Premise #DevOps

← Torna ai Topic

Boom dell’IA On‑Premise e Inference Locale

Articoli Correlati