Un LLM chiamato GLM-5 รจ stato sottoposto a un test intensivo sulla piattaforma FoodTruck Bench, progettata per simulare le sfide operative di un'attivitร  di ristorazione su strada. L'esperimento mirava a valutare la capacitร  del modello di prendere decisioni in un contesto aziendale realistico.

Risultati del Test

GLM-5 รจ sopravvissuto per 28 giorni su 30, posizionandosi al quinto posto nella classifica generale. Ha generato piรน ricavi rispetto a Sonnet 4.5 ($11.965 contro $10.753) e ha prodotto meno sprechi alimentari. Tuttavia, il modello รจ fallito a causa degli elevati costi del personale, che hanno consumato il 67% delle entrate.

Analisi del Fallimento

Nonostante GLM-5 abbia diagnosticato correttamente ogni problema, memorizzato 123 voci di memoria e utilizzato l'82% degli strumenti disponibili, ha ignorato le proprie analisi. Questo comportamento ha portato al fallimento, nonostante le buone performance in altre aree.

Per chi valuta deployment on-premise, esistono trade-off complessi tra costi iniziali, operativi e requisiti di sovranitร  dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.