Setup LLM Locale
Eseguire un Large Language Model sul proprio hardware elimina i costi API, protegge la privacy dei dati e offre pieno controllo sulla selezione del modello e sui parametri di inferenza. Questa è la guida principale di AI-Radar — l'argomento più differenziante del sito, costruito sull'esperienza diretta con la propria infrastruttura.
In questa pagina
Requisiti Hardware
| Dimensione Modello | VRAM Min (quantizzato) | GPU Raccomandata | Modelli |
|---|---|---|---|
| 1–3B | 2–4 GB | GTX 1660 / integrated | Phi-3 Mini, Qwen2 1.5B |
| 7B | 4–6 GB (Q4_K_M) | RTX 3060 12GB / RX 6600 XT | Llama 3.1 8B, Mistral 7B, Qwen2.5 7B |
| 13B | 8–10 GB (Q4_K_M) | RTX 3080 10GB / RTX 4070 | Llama 2 13B, CodeLlama 13B |
| 30–34B | 16–20 GB (Q4_K_M) | RTX 3090 / RTX 4090 | Yi-34B, CodeLlama 34B |
| 70B | 40 GB (Q4_K_M) / 2×24GB | 2× RTX 3090 / A100 40GB | Llama 3.1 70B, Qwen2.5 72B |
Per l'inferenza CPU-only: aspettati velocità 5–15× inferiori alla GPU, ma fattibile per modelli 7B–13B su CPU moderne con 32+ GB di RAM. Apple Silicon (M2/M3/M4) è la migliore opzione CPU consumer — la memoria unificata consente 64+ GB di VRAM effettiva ad alta larghezza di banda.
Runtime di Inferenza
Ollama
Il modo più semplice per eseguire LLM in locale. Installazione con un comando, libreria di modelli, API compatibile OpenAI. Ottimo per sviluppo e deployment single-user.
ollama run llama3.2:3b
llama.cpp
Inferenza ad alte prestazioni, miglior supporto GGUF, parallelismo tensor multi-GPU, fallback CPU. Ideale per deployment in server-mode in produzione.
./llama-server -m model.gguf -ngl 35
LM Studio
GUI desktop per esplorare ed eseguire modelli. Ottimo per utenti non tecnici e valutazione rapida dei modelli. Include modalità server API locale.
GUI: lmstudio.ai
vLLM
Continuous batching, PagedAttention — massimo throughput per deployment server multi-utente. Compatibile OpenAI. Richiede GPU NVIDIA, ottimale su A100/H100.
vllm serve llama3-8b-instruct
Quantizzazione
La quantizzazione riduce la precisione del modello (da 16-bit a 4–8 bit) per far stare modelli più grandi in meno VRAM con minima perdita di qualità. Formati di quantizzazione GGUF per llama.cpp / Ollama:
| Formato | Dimensione vs FP16 | Perdita di Qualità | Caso d'uso |
|---|---|---|---|
| Q4_K_M | ~28% | Very Low | Il migliore in assoluto (consigliato) |
| Q5_K_M | ~35% | Minimal | Quando si ha più RAM disponibile |
| Q3_K_M | ~22% | Medium | VRAM molto limitata |
| Q2_K | ~16% | High | Solo per esperimenti |
Setup Passo-Passo (Ollama)
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.2:3b
ollama run llama3.2:3b
ollama serve # default: http://localhost:11434
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Ciao"}'
Deployment in Produzione
Per la produzione, Ollama o llama.cpp girano dentro Docker insieme alla tua applicazione. Considerazioni chiave per la produzione:
- Docker Compose: Esegui Ollama, la tua API (FastAPI) e il database nello stesso stack Compose su una rete condivisa
- GPU passthrough: Aggiungi
deploy.resources.reservations.devicescon capability NVIDIA = "gpu" in Docker Compose - Context window: Imposta
OLLAMA_NUM_CTX=8192per conversazioni più lunghe; più contesto = più VRAM - Concorrenza: Ollama gestisce una richiesta alla volta per default; usa vLLM per workload di produzione multi-utente
- Rate limiting: Proteggi il tuo endpoint — una singola inferenza su modello 70B può saturare una GPU per 30+ secondi
Guida alla Scelta del Modello
Uso Generale
Llama 3.1/3.2, Mistral 7B, Qwen2.5
Miglior rapporto qualità/dimensioneGenerazione Codice
CodeLlama 13B/34B, DeepSeek Coder, Qwen2.5-Coder
Fine-tuned su dataset codiceRagionamento
DeepSeek-R1, Qwen3 (thinking), Llama 3.3 70B
Chain-of-thought estesoEmbedding / RAG
nomic-embed-text, all-MiniLM-L6-v2, mxbai-embed-large
Per ricerca vettoriale, non generazioneRisorse Correlate
- Hub LLM On-Premise — guida infrastruttura completa
- Matrice Hardware — compatibilità GPU/CPU
- Calcolatore LLM — verifica quali modelli girano sul tuo hardware
- Guida LLM — architetture e confronti dei modelli
- AI Agents — costruisci sistemi agentici su LLM locali
- Glossario — 50 termini chiave per l'AI locale