"Quanto costa eseguire un LLM in locale?" non ha una risposta unica — dipende quasi interamente da quanto tieni occupato l'hardware. L'errore più comune è confrontare il prezzo d'acquisto della GPU con una tariffa oraria cloud. Il confronto giusto è il costo totale di possesso sulla vita utile della GPU, diviso per i token che generi davvero.
Cosa compone il costo locale
| Voce di costo | Note |
|---|---|
| Hardware GPU | Costo iniziale maggiore; ammortizza su 2-4 anni |
| Elettricità | Una GPU da 700W attiva 24/7 pesa, soprattutto in UE |
| Raffreddamento e alimentazione | Alimentatore, raffreddamento, eventuale sala/rack |
| Manutenzione | Tempo ingegneri: driver, uptime, aggiornamenti |
| Utilizzo | LA variabile chiave — GPU inattive sprecano tutto l'investimento |
Quando vince il locale
Carico alto, prevedibile e costante; requisiti stringenti di privacy o residenza dei dati; o voler avere un costo mensile fisso e prevedibile invece di bollette cloud variabili.
Quando vince il cloud
Carichi a picchi, occasionali o sperimentali; voler le GPU più recenti senza capex; o scalare su e giù velocemente. Le GPU cloud al secondo fatturano solo ciò che usi.
Domande frequenti
Locale o cloud — più economico?
Locale solo con utilizzo alto e costante; cloud per uso sporadico/a picchi.
Costi nascosti?
Elettricità, raffreddamento, ammortamento, downtime, tempo ingegneri.