Topic / Trend Rising

Boom dell’IA On‑Premise e Inference Locale

La domanda di esecuzione locale di LLM esplode grazie a modelli compatti, quantization e strumenti self‑hosted come llama.cpp e Ollama, favorendo risparmi e sovranità dei dati.

Detected: 2026-06-21 · Updated: 2026-06-21

Articoli Correlati

2026-06-20 LocalLLaMA

GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto

Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...

#Hardware #LLM On-Premise #DevOps
2026-06-19 LocalLLaMA

GLM-5.2: il LLM da 1,5TB ora gira su un Mac, con l’82% di accuratezza

La versione a 2 bit di GLM-5.2, ridotta da 1,51 TB a 238 GB, conserva circa l’82% dell’accuratezza. Ora eseguibile localmente su Mac con 256 GB di memoria unificata o sistemi con RAM/VRAM equivalenti, grazie al supporto in llama.cpp e Unsloth Studio....

#Hardware #LLM On-Premise #DevOps
2026-06-17 LocalLLaMA

GLM 5.2: Un passo avanti per l'AI locale e il potenziale della distillazione

Il rilascio di GLM 5.2, un Large Language Model da 744 miliardi di parametri con licenza MIT, segna un'importante evoluzione per l'AI on-premise. Sebbene il modello completo richieda cluster di livello enterprise, il suo potenziale di distillazione e...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-16 LocalLLaMA

Il Potenziale Nascosto degli LLM Leggeri per l'Automazione On-Premise

Mentre l'attenzione si concentra spesso su LLM di grandi dimensioni o assistenti alla programmazione, emerge un dibattito sul potenziale inespresso dei modelli più piccoli ed efficienti (da 1 a 4 miliardi di parametri). Questi LLM, integrabili dirett...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-16 LocalLLaMA

Assemblato un sistema quad-GPU RTX 5060Ti 16GB per LLM on-premise

Un utente ha completato l'assemblaggio di un sistema quad-GPU basato su NVIDIA RTX 5060Ti da 16GB, configurato per l'inference di Large Language Models (LLM) in un ambiente on-premise. La configurazione sfrutta una scheda madre MSI con supporto PCIe ...

#Hardware #LLM On-Premise #DevOps
2026-06-15 LocalLLaMA

Ollama per l'on-premise: un'analisi critica delle sue implicazioni

Un recente dibattito online ha sollevato interrogativi sull'opportunità di utilizzare Ollama per il deployment di Large Language Models in ambienti on-premise. L'articolo esplora le considerazioni tecniche e operative che le aziende devono valutare, ...

#Hardware #LLM On-Premise #DevOps
2026-06-15 LocalLLaMA

Qwen 27B: Raddoppia la velocità di generazione, cala il fabbisogno di VRAM

Nuove ottimizzazioni per il modello Qwen 27B hanno raddoppiato la velocità di generazione dei token e ridotto il consumo di VRAM da 21GB a 17.5GB, mantenendo l'accuratezza del contesto. Questi progressi, ottenuti sulla stessa configurazione hardware,...

#Hardware #LLM On-Premise #DevOps
2026-06-14 LocalLLaMA

Qwen 35B Q4 vs Gemma 12B Q8: La Quantization per LLM su Hardware Locale

Un utente si interroga sull'impatto della quantization nella scelta tra Qwen 3.6 35B-A3B in Q4 e Gemma 4 12B in Q8, su una configurazione con 32GB di memoria unificata. La discussione evidenzia come la riduzione della precisione dei modelli sia cruci...

#Hardware #LLM On-Premise #DevOps
← Torna ai Topic