Posso avere un ChatGPT privato senza inviare dati a OpenAI?

Sì. Fai self-hosting di un modello open-weight (es. Llama, Mistral, Qwen) con un motore come vLLM o Ollama, aggiungi RAG sui tuoi documenti, e i dati non lasciano mai la tua infrastruttura.

Che hardware serve per un assistente aziendale?

Per un piccolo team, una singola GPU da 24-48GB esegue un modello capace 8B-34B. Per molti utenti concorrenti, usa vLLM su una GPU 48-80GB o scala in orizzontale. Dimensiona sulla concorrenza, non solo sul modello.

Cloud o on-premise per un assistente privato?

On-premise (o cloud sovrano/in regione UE) quando residenza dei dati o compliance sono stringenti; cloud gestito per rapidità ed elasticità. Molte aziende usano un ibrido: dati sensibili on-prem, picchi nel cloud.

Come creare un ChatGPT privato per la tua azienda (2026)

Per molte aziende l'obiettivo è semplice: l'utilità di ChatGPT, ma che risponda dalla conoscenza interna e senza inviare dati riservati a terzi. Oggi è del tutto fattibile con modelli open-weight — ed è diventato il percorso predefinito per i settori regolati. Ecco l'architettura e le decisioni che contano.

I quattro blocchi

Modello — un LLM open-weight (Llama, Mistral, Qwen, ecc.) dimensionato sul tuo hardware: 8–14B per uso single-GPU reattivo, 34–70B per ragionamento più forte.
Motore di serving — Ollama per prototipo o piccolo team; vLLM/TGI per concorrenza in produzione. Entrambi espongono una API compatibile con OpenAI.
Livello RAG — indicizza i tuoi documenti (wiki, PDF, ticket) come embeddings in un DB vettoriale, così l'assistente risponde dalla tua conoscenza e cita le fonti.
UI di chat + controllo accessi — un front-end di chat aperto (es. Open WebUI) collegato a SSO e permessi per team.

Architettura di riferimento

Documenti → ingestione + chunking → embeddings → database vettoriale. Alla query: domanda utente → recupero chunk rilevanti → costruzione prompt → LLM locale (vLLM) → risposta con citazioni → UI di chat. Tutto gira dentro la tua rete; l'unica cosa che esce è niente. Aggiungi logging e controllo accessi al livello UI/API per audit e compliance.

Hardware e costi

Un assistente per piccolo team gira comodamente su una singola GPU 24–48GB con un modello 8–34B quantizzato. Molti utenti concorrenti richiedono vLLM su una scheda 48–80GB (o più) per tenere bassa la latenza sotto batching. Come spiega la nostra guida ai costi, possedere l'hardware conviene con utilizzo costante; per i pilot, noleggia prima una GPU a ore per validare prima di comprare.

Sicurezza, compliance e i rischi reali

Il senso del privato è il controllo: i dati restano nel tuo perimetro, logghi ogni query e puoi ancorare l'elaborazione a una località UE/sovrana per GDPR ed EU AI Act. Ma il self-hosting sposta la responsabilità su di te — patching, controllo accessi, difese da prompt-injection sul livello RAG, ed evitare che l'assistente mostri documenti che un utente non dovrebbe vedere. Tratta i permessi a livello di documento come requisito di prima classe, non come ripensamento.

Un rollout pragmatico

Pilot: una GPU, un modello 8–14B, Ollama + Open WebUI, RAG su un set di documenti ben definito.
Valida qualità e adozione con un team amico prima di scalare.
Produzione: passa a vLLM, aggiungi SSO + permessi documento per team + logging.
Scala dimensione modello / GPU al crescere di concorrenza e qualità richieste.