"Quanto costa eseguire un LLM in locale?" non ha una risposta unica — dipende quasi interamente da quanto tieni occupato l'hardware. L'errore più comune è confrontare il prezzo d'acquisto della GPU con una tariffa oraria cloud. Il confronto giusto è il costo totale di possesso sulla vita utile della GPU, diviso per i token che generi davvero.

Cosa compone il costo locale

Voce di costo Note
Hardware GPU Costo iniziale maggiore; ammortizza su 2-4 anni
Elettricità Una GPU da 700W attiva 24/7 pesa, soprattutto in UE
Raffreddamento e alimentazione Alimentatore, raffreddamento, eventuale sala/rack
Manutenzione Tempo ingegneri: driver, uptime, aggiornamenti
Utilizzo LA variabile chiave — GPU inattive sprecano tutto l'investimento

Quando vince il locale

Carico alto, prevedibile e costante; requisiti stringenti di privacy o residenza dei dati; o voler avere un costo mensile fisso e prevedibile invece di bollette cloud variabili.

Quando vince il cloud

Carichi a picchi, occasionali o sperimentali; voler le GPU più recenti senza capex; o scalare su e giù velocemente. Le GPU cloud al secondo fatturano solo ciò che usi.

Domande frequenti

Locale o cloud — più economico?
Locale solo con utilizzo alto e costante; cloud per uso sporadico/a picchi.

Costi nascosti?
Elettricità, raffreddamento, ammortamento, downtime, tempo ingegneri.