Per Jane Fraser, numero uno di Citigroup, il settore finanziario non sta affrontando una, ma due corse all’intelligenza artificiale. Lo ha dichiarato al South China Morning Post, spiegando che la prima corsa è offensiva: applicare l’AI ai modelli di business per aumentare i ricavi, accorciare i cicli di sviluppo prodotto e migliorare il servizio clienti. La seconda corsa, invece, è difensiva. Fraser ha sintetizzato il compito di Citi con un verbo semplice: proteggere la banca.

Se la prima gara cattura i titoli e le presentazioni agli investitori, la seconda, quella difensiva, è forse la più critica per la tenuta del sistema. Proteggere un istituto oggi significa fronteggiare minacce che l’AI stessa contribuisce ad amplificare: frodi sempre più sofisticate, deepfake che imitano dirigenti, attacchi informatici automatizzati. È una partita che si gioca lontano dai riflettori, nei centri di calcolo dove vengono prese decisioni infrastrutturali che pesano più di molte strategie di business.

Qui il dibattito su dove far girare i modelli diventa centrale. Le banche custodiscono dati estremamente sensibili — transazioni, patrimoni, profili comportamentali. Mandarli in cloud pubblico a terze parti per fare inference con un Large Language Model (LLM) può violare normative come il GDPR o le disposizioni di vigilanza delle banche centrali. Ecco perché molte realtà guardano al deployment on-premise, o al più a cloud privati gestiti internamente.

Portare un LLM in casa non è uno scherzo. Richiede GPU con decine di gigabyte di VRAM, storage veloce, e la capacità di orchestrare pipeline di inference senza colli di bottiglia. Tecniche come la quantization diventano essenziali: ridurre il modello da FP16 a INT8 o addirittura a 4-bit consente di eseguire modelli di grandi dimensioni su hardware meno esoterico, ma introduce un trade-off tra velocità e qualità delle risposte. Per compiti difensivi — rilevamento di anomalie, monitoraggio della compliance, threat intelligence — un calo contenuto di accuratezza può essere accettabile, purché i dati rimangano sotto controllo.

Il Total Cost of Ownership (TCO) di uno stack self-hosted non si limita all’acquisto di server. Include competenze interne per la manutenzione, aggiornamenti continui, costi energetici. Rispetto al cloud, l’on-premise offre vantaggi di prevedibilità della spesa e sovranità effettiva sui dati, ma richiede investimenti iniziali considerevoli. La corsa difensiva spinge verso un ripensamento dell’architettura IT: non si tratta più solo di compliance, ma di resistere a un avversario che usa l’AI in modo offensivo.

Anche la corsa offensiva, con l’applicazione di LLM per personalizzare prodotti o accelerare lo sviluppo, può trarre vantaggio dal fine-tuning su dati proprietari in totale sicurezza. Le due gare, benché distinte, convergono sullo stesso problema: quale stack adottare per bilanciare performance, costo e sovranità dei dati. Le parole di Fraser arrivano in un momento in cui il settore è spinto a investire massicciamente. La domanda non è più se adottare l’AI, ma come farlo senza compromettere la fiducia dei clienti e la resilienza dell’infrastruttura. Una partita che si gioca, sempre più, sui server della propria sala macchine.