Una simulazione ha visto 12 modelli linguistici di grandi dimensioni (LLM) competere nella gestione di un food truck virtuale, con un budget iniziale di 2.000 dollari. L'obiettivo era valutare la loro capacità di prendere decisioni in autonomia su aspetti cruciali come la scelta della location, la definizione del menu, la politica dei prezzi, la gestione del personale e dell'inventario.

Risultati a sorpresa

Dei 12 LLM partecipanti, solo 4 sono riusciti a evitare la bancarotta nel corso dei 30 giorni della simulazione. Un modello, in particolare, ha generato un profitto di 49.000 dollari. Un dato interessante è che tutti i modelli che hanno optato per un prestito sono falliti, suggerendo una difficoltà nella gestione del debito.

Gemini e i loop decisionali

Un altro risultato degno di nota riguarda Gemini 3 Flash Thinking, che si è dimostrato incline a bloccarsi in loop decisionali infiniti, rendendo impossibile il completamento della simulazione. Questo problema di stabilità è emerso nel 100% dei test effettuati con questo modello.

Un banco di prova per l'AI

La simulazione offre anche una modalità giocabile, permettendo agli utenti di cimentarsi nella gestione del food truck virtuale e confrontare le proprie performance con quelle degli LLM. Questo tipo di benchmark può essere utile per valutare le capacità degli agenti AI in contesti aziendali e identificare aree di miglioramento. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.