Setup LLM Locale

Eseguire un Large Language Model sul proprio hardware elimina i costi API, protegge la privacy dei dati e offre pieno controllo sulla selezione del modello e sui parametri di inferenza. Questa è la guida principale di AI-Radar — l'argomento più differenziante del sito, costruito sull'esperienza diretta con la propria infrastruttura.

Requisiti Hardware

Dimensione Modello	VRAM Min (quantizzato)	GPU Raccomandata	Modelli
1–3B	2–4 GB	GTX 1660 / integrated	Phi-3 Mini, Qwen2 1.5B
7B	4–6 GB (Q4_K_M)	RTX 3060 12GB / RX 6600 XT	Llama 3.1 8B, Mistral 7B, Qwen2.5 7B
13B	8–10 GB (Q4_K_M)	RTX 3080 10GB / RTX 4070	Llama 2 13B, CodeLlama 13B
30–34B	16–20 GB (Q4_K_M)	RTX 3090 / RTX 4090	Yi-34B, CodeLlama 34B
70B	40 GB (Q4_K_M) / 2×24GB	2× RTX 3090 / A100 40GB	Llama 3.1 70B, Qwen2.5 72B

Per l'inferenza CPU-only: aspettati velocità 5–15× inferiori alla GPU, ma fattibile per modelli 7B–13B su CPU moderne con 32+ GB di RAM. Apple Silicon (M2/M3/M4) è la migliore opzione CPU consumer — la memoria unificata consente 64+ GB di VRAM effettiva ad alta larghezza di banda.

Runtime di Inferenza

Ollama

Il modo più semplice per eseguire LLM in locale. Installazione con un comando, libreria di modelli, API compatibile OpenAI. Ottimo per sviluppo e deployment single-user.

ollama run llama3.2:3b

llama.cpp

Inferenza ad alte prestazioni, miglior supporto GGUF, parallelismo tensor multi-GPU, fallback CPU. Ideale per deployment in server-mode in produzione.

./llama-server -m model.gguf -ngl 35

LM Studio

GUI desktop per esplorare ed eseguire modelli. Ottimo per utenti non tecnici e valutazione rapida dei modelli. Include modalità server API locale.

GUI: lmstudio.ai

vLLM

Continuous batching, PagedAttention — massimo throughput per deployment server multi-utente. Compatibile OpenAI. Richiede GPU NVIDIA, ottimale su A100/H100.

vllm serve llama3-8b-instruct

Quantizzazione

La quantizzazione riduce la precisione del modello (da 16-bit a 4–8 bit) per far stare modelli più grandi in meno VRAM con minima perdita di qualità. Formati di quantizzazione GGUF per llama.cpp / Ollama:

Formato	Dimensione vs FP16	Perdita di Qualità	Caso d'uso
Q4_K_M	~28%	Very Low	Il migliore in assoluto (consigliato)
Q5_K_M	~35%	Minimal	Quando si ha più RAM disponibile
Q3_K_M	~22%	Medium	VRAM molto limitata
Q2_K	~16%	High	Solo per esperimenti

Setup Passo-Passo (Ollama)

Installa Ollama
curl -fsSL https://ollama.com/install.sh | sh

Scarica un modello
ollama pull llama3.2:3b

Esegui l'inferenza
ollama run llama3.2:3b

Avvia il server API
ollama serve # default: http://localhost:11434

Query via curl
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Ciao"}'

Deployment in Produzione

Per la produzione, Ollama o llama.cpp girano dentro Docker insieme alla tua applicazione. Considerazioni chiave per la produzione:

Docker Compose: Esegui Ollama, la tua API (FastAPI) e il database nello stesso stack Compose su una rete condivisa
GPU passthrough: Aggiungi deploy.resources.reservations.devices con capability NVIDIA = "gpu" in Docker Compose
Context window: Imposta OLLAMA_NUM_CTX=8192 per conversazioni più lunghe; più contesto = più VRAM
Concorrenza: Ollama gestisce una richiesta alla volta per default; usa vLLM per workload di produzione multi-utente
Rate limiting: Proteggi il tuo endpoint — una singola inferenza su modello 70B può saturare una GPU per 30+ secondi

Guida alla Scelta del Modello

Uso Generale

Llama 3.1/3.2, Mistral 7B, Qwen2.5

Miglior rapporto qualità/dimensione

Generazione Codice

CodeLlama 13B/34B, DeepSeek Coder, Qwen2.5-Coder

Fine-tuned su dataset codice

Ragionamento

DeepSeek-R1, Qwen3 (thinking), Llama 3.3 70B

Chain-of-thought esteso

Embedding / RAG

nomic-embed-text, all-MiniLM-L6-v2, mxbai-embed-large

Per ricerca vettoriale, non generazione

Setup LLM Locale

In questa pagina

Requisiti Hardware

Runtime di Inferenza

Ollama

llama.cpp

LM Studio

vLLM

Quantizzazione

Setup Passo-Passo (Ollama)

Deployment in Produzione

Guida alla Scelta del Modello

Uso Generale

Generazione Codice

Ragionamento

Embedding / RAG

Risorse Correlate

Ultimi Articoli su LLM Locale

Nvidia Rubin: produzione HBM4 slitta a fine 2026 per specifiche più ambiziose

Meta ed EssilorLuxottica lanciano occhiali AI economici: gamma a quattro modelli

Efficienza energetica e costi spingono la competizione nell'hardware AI

Asus: RTX 5070 Ti e 5060 Ti non saranno dismesse

MediaTek punta sui 2nm di TSMC e sull'AI computing

AMD Ryzen AI 5 435G: Un Nuovo Chip Zen 5 Per l'AI Locale

MSI Afterburner: avviso per connettore 16-pin su PSU MPG AI

Arm punta sulle CPU per l'AI agentica: nuovo chip in arrivo

Intel e il packaging avanzato: la scommessa da miliardi per l'era dell'AI

Intel Nova Lake: 52 core e fino a 474W per il desktop di nuova generazione