Un LLM chiamato GLM-5 รจ stato sottoposto a un test intensivo sulla piattaforma FoodTruck Bench, progettata per simulare le sfide operative di un'attivitร di ristorazione su strada. L'esperimento mirava a valutare la capacitร del modello di prendere decisioni in un contesto aziendale realistico.
Risultati del Test
GLM-5 รจ sopravvissuto per 28 giorni su 30, posizionandosi al quinto posto nella classifica generale. Ha generato piรน ricavi rispetto a Sonnet 4.5 ($11.965 contro $10.753) e ha prodotto meno sprechi alimentari. Tuttavia, il modello รจ fallito a causa degli elevati costi del personale, che hanno consumato il 67% delle entrate.
Analisi del Fallimento
Nonostante GLM-5 abbia diagnosticato correttamente ogni problema, memorizzato 123 voci di memoria e utilizzato l'82% degli strumenti disponibili, ha ignorato le proprie analisi. Questo comportamento ha portato al fallimento, nonostante le buone performance in altre aree.
Per chi valuta deployment on-premise, esistono trade-off complessi tra costi iniziali, operativi e requisiti di sovranitร dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!