Per molte aziende l'obiettivo è semplice: l'utilità di ChatGPT, ma che risponda dalla conoscenza interna e senza inviare dati riservati a terzi. Oggi è del tutto fattibile con modelli open-weight — ed è diventato il percorso predefinito per i settori regolati. Ecco l'architettura e le decisioni che contano.

I quattro blocchi

  1. Modello — un LLM open-weight (Llama, Mistral, Qwen, ecc.) dimensionato sul tuo hardware: 8–14B per uso single-GPU reattivo, 34–70B per ragionamento più forte.
  2. Motore di serving — Ollama per prototipo o piccolo team; vLLM/TGI per concorrenza in produzione. Entrambi espongono una API compatibile con OpenAI.
  3. Livello RAG — indicizza i tuoi documenti (wiki, PDF, ticket) come embeddings in un DB vettoriale, così l'assistente risponde dalla tua conoscenza e cita le fonti.
  4. UI di chat + controllo accessi — un front-end di chat aperto (es. Open WebUI) collegato a SSO e permessi per team.

Architettura di riferimento

Documenti → ingestione + chunking → embeddings → database vettoriale. Alla query: domanda utente → recupero chunk rilevanti → costruzione prompt → LLM locale (vLLM) → risposta con citazioni → UI di chat. Tutto gira dentro la tua rete; l'unica cosa che esce è niente. Aggiungi logging e controllo accessi al livello UI/API per audit e compliance.

Hardware e costi

Un assistente per piccolo team gira comodamente su una singola GPU 24–48GB con un modello 8–34B quantizzato. Molti utenti concorrenti richiedono vLLM su una scheda 48–80GB (o più) per tenere bassa la latenza sotto batching. Come spiega la nostra guida ai costi, possedere l'hardware conviene con utilizzo costante; per i pilot, noleggia prima una GPU a ore per validare prima di comprare.

Sicurezza, compliance e i rischi reali

Il senso del privato è il controllo: i dati restano nel tuo perimetro, logghi ogni query e puoi ancorare l'elaborazione a una località UE/sovrana per GDPR ed EU AI Act. Ma il self-hosting sposta la responsabilità su di te — patching, controllo accessi, difese da prompt-injection sul livello RAG, ed evitare che l'assistente mostri documenti che un utente non dovrebbe vedere. Tratta i permessi a livello di documento come requisito di prima classe, non come ripensamento.

Un rollout pragmatico

  1. Pilot: una GPU, un modello 8–14B, Ollama + Open WebUI, RAG su un set di documenti ben definito.
  2. Valida qualità e adozione con un team amico prima di scalare.
  3. Produzione: passa a vLLM, aggiungi SSO + permessi documento per team + logging.
  4. Scala dimensione modello / GPU al crescere di concorrenza e qualità richieste.