Setup LLM Locale

Eseguire un Large Language Model sul proprio hardware elimina i costi API, protegge la privacy dei dati e offre pieno controllo sulla selezione del modello e sui parametri di inferenza. Questa è la guida principale di AI-Radar — l'argomento più differenziante del sito, costruito sull'esperienza diretta con la propria infrastruttura.

In questa pagina

Requisiti Hardware

Dimensione Modello VRAM Min (quantizzato) GPU Raccomandata Modelli
1–3B 2–4 GB GTX 1660 / integrated Phi-3 Mini, Qwen2 1.5B
7B 4–6 GB (Q4_K_M) RTX 3060 12GB / RX 6600 XT Llama 3.1 8B, Mistral 7B, Qwen2.5 7B
13B 8–10 GB (Q4_K_M) RTX 3080 10GB / RTX 4070 Llama 2 13B, CodeLlama 13B
30–34B 16–20 GB (Q4_K_M) RTX 3090 / RTX 4090 Yi-34B, CodeLlama 34B
70B 40 GB (Q4_K_M) / 2×24GB 2× RTX 3090 / A100 40GB Llama 3.1 70B, Qwen2.5 72B

Per l'inferenza CPU-only: aspettati velocità 5–15× inferiori alla GPU, ma fattibile per modelli 7B–13B su CPU moderne con 32+ GB di RAM. Apple Silicon (M2/M3/M4) è la migliore opzione CPU consumer — la memoria unificata consente 64+ GB di VRAM effettiva ad alta larghezza di banda.

Runtime di Inferenza

Ollama

Il modo più semplice per eseguire LLM in locale. Installazione con un comando, libreria di modelli, API compatibile OpenAI. Ottimo per sviluppo e deployment single-user.

ollama run llama3.2:3b

llama.cpp

Inferenza ad alte prestazioni, miglior supporto GGUF, parallelismo tensor multi-GPU, fallback CPU. Ideale per deployment in server-mode in produzione.

./llama-server -m model.gguf -ngl 35

LM Studio

GUI desktop per esplorare ed eseguire modelli. Ottimo per utenti non tecnici e valutazione rapida dei modelli. Include modalità server API locale.

GUI: lmstudio.ai

vLLM

Continuous batching, PagedAttention — massimo throughput per deployment server multi-utente. Compatibile OpenAI. Richiede GPU NVIDIA, ottimale su A100/H100.

vllm serve llama3-8b-instruct

Quantizzazione

La quantizzazione riduce la precisione del modello (da 16-bit a 4–8 bit) per far stare modelli più grandi in meno VRAM con minima perdita di qualità. Formati di quantizzazione GGUF per llama.cpp / Ollama:

Formato Dimensione vs FP16 Perdita di Qualità Caso d'uso
Q4_K_M ~28% Very Low Il migliore in assoluto (consigliato)
Q5_K_M ~35% Minimal Quando si ha più RAM disponibile
Q3_K_M ~22% Medium VRAM molto limitata
Q2_K ~16% High Solo per esperimenti

Setup Passo-Passo (Ollama)

1
Installa Ollama
curl -fsSL https://ollama.com/install.sh | sh
2
Scarica un modello
ollama pull llama3.2:3b
3
Esegui l'inferenza
ollama run llama3.2:3b
4
Avvia il server API
ollama serve # default: http://localhost:11434
5
Query via curl
curl http://localhost:11434/api/generate -d '{"model":"llama3.2","prompt":"Ciao"}'

Deployment in Produzione

Per la produzione, Ollama o llama.cpp girano dentro Docker insieme alla tua applicazione. Considerazioni chiave per la produzione:

  • Docker Compose: Esegui Ollama, la tua API (FastAPI) e il database nello stesso stack Compose su una rete condivisa
  • GPU passthrough: Aggiungi deploy.resources.reservations.devices con capability NVIDIA = "gpu" in Docker Compose
  • Context window: Imposta OLLAMA_NUM_CTX=8192 per conversazioni più lunghe; più contesto = più VRAM
  • Concorrenza: Ollama gestisce una richiesta alla volta per default; usa vLLM per workload di produzione multi-utente
  • Rate limiting: Proteggi il tuo endpoint — una singola inferenza su modello 70B può saturare una GPU per 30+ secondi

Guida alla Scelta del Modello

Uso Generale

Llama 3.1/3.2, Mistral 7B, Qwen2.5

Miglior rapporto qualità/dimensione

Generazione Codice

CodeLlama 13B/34B, DeepSeek Coder, Qwen2.5-Coder

Fine-tuned su dataset codice

Ragionamento

DeepSeek-R1, Qwen3 (thinking), Llama 3.3 70B

Chain-of-thought esteso

Embedding / RAG

nomic-embed-text, all-MiniLM-L6-v2, mxbai-embed-large

Per ricerca vettoriale, non generazione

Risorse Correlate

Ultimi Articoli su LLM Locale