La NASA porta l'inference LLM a bordo: l'assistente medico per lo spazio profondo

Quando un astronauta in viaggio verso Marte avverte un forte dolore addominale, non può chiamare il medico di Houston. Il ritardo delle comunicazioni e i blackout rendono impraticabile la telemedicina tradizionale. La NASA sta affrontando questa criticità con il Crew Medical Officer Digital Assistant (CMO-DA), un sistema di intelligenza artificiale che gira interamente a bordo del veicolo spaziale, basandosi su Large Language Models in esecuzione locale.

L’architettura del silenzio: AI senza nuvole

Il progetto, nato come proof-of-concept connesso al cloud, è stato migrato verso un deployment edge completamente disconnesso. Il CMO-DA opera su hardware HPE, testandone la controparte terrestre del computer spaziale già attivo sulla Stazione Spaziale Internazionale. L’obiettivo è fornire a un membro dell’equipaggio – non necessariamente un medico – la capacità di diagnosticare e trattare sintomi consultando letteratura medica spaziale tramite Retrieval-Augmented Generation (RAG).

RamaLama: il modello come artefatto portabile

Lo stack di inference si appoggia a llama.cpp attraverso RamaLama, uno strumento open source a riga di comando sostenuto da Red Hat. RamaLama incapsula diversi motori di inference (tra cui llama.cpp, MLX e vLLM) e permette di scaricare ed eseguire modelli con la stessa logica delle immagini container: pull, verifica crittografica, esecuzione con rilevamento automatico della GPU. In questo modo i modelli AI diventano artefatti portabili e riproducibili, un aspetto cruciale quando il deployment avviene su hardware irraggiungibile che richiede aggiornamenti verificabili senza possibilità di intervento manuale.

Perché la scelta on-premise conta anche sulla Terra

La decisione della NASA non è solo una necessità imposta dallo spazio profondo, ma segnala una direzione più ampia per i deployment enterprise. Architetture local-first che trattano i modelli come componenti immutabili e crittograficamente verificabili rispondono a esigenze simili in settori come la finanza, la difesa e la sanità, dove ambienti air-gapped o regolati richiedono controllo totale dei dati. La riproducibilità del deployment e l’assenza di dipendenze cloud riducono il rischio operativo e semplificano la conformità.

Frontiera locale: cosa ci insegna lo spazio

Il CMO-DA dimostra che l’inference LLM può funzionare in condizioni estreme, su hardware contenuto e senza connessione esterna. Per chi valuta soluzioni self-hosted, questo caso d’uso mette in luce trade-off tra autonomia e complessità di gestione, ma anche il valore strategico di un’infrastruttura AI che non delega a terzi né i dati né le decisioni critiche. L’esperimento spaziale della NASA è un test estremo di sovranità tecnicica che parla direttamente a ogni organizzazione che oggi si interroga su come portare l’intelligenza artificiale dentro i propri confini fisici.