Un nuovo studio ha confrontato le prestazioni di diversi modelli linguistici di grandi dimensioni (LLM) nel settore farmaceutico, con un'attenzione particolare alla generazione di allucinazioni, ovvero la tendenza a produrre informazioni false o non supportate dai dati di addestramento.

Risultati del Benchmark

Il benchmark, denominato Placebo Bench, ha rivelato che Kimi K2.5 ha ottenuto risultati migliori rispetto a Opus 4.6 nella riduzione delle allucinazioni. Il test è stato condotto su un caso d'uso realistico, utilizzando dati specifici del settore farmaceutico. È interessante notare che Opus 4.6 ha mostrato il tasso di allucinazione più elevato tra i modelli testati.

Analisi delle Allucinazioni

Secondo quanto riportato, Opus 4.6 tendeva a inventare protocolli clinici o test che non erano presenti nei dati originali, probabilmente nel tentativo di fornire risposte più complete. Kimi K2.5, pur non essendo perfetto, ha dimostrato una maggiore accuratezza.

Dataset e Accessibilità

Il dataset utilizzato per il benchmark è disponibile su Hugging Face, consentendo a ricercatori e sviluppatori di replicare i risultati e di valutare ulteriormente le prestazioni dei modelli LLM in questo ambito specifico. Per chi valuta deployment on-premise, esistono trade-off da considerare, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.