Un recente studio ha valutato le prestazioni di diversi modelli linguistici di grandi dimensioni (LLM) in un compito specifico: un test a scelta multipla nel campo delle neuroscienze e delle interfacce cervello-computer (BCI). Il set di dati, composto da 500 domande, รจ stato generato automaticamente con rigide limitazioni, senza revisione umana.
Risultati principali
I risultati hanno mostrato che i modelli piรน avanzati, incluso LLaMA-3.3 70B, raggiungono un'accuratezza simile, attestandosi intorno all'88%. Sorprendentemente, il modello Qwen3 235B MoE ha superato questo limite, raggiungendo il 90.4% di accuratezza. I modelli piรน piccoli (14B-8B) mostrano un calo di prestazioni graduale, senza bruschi crolli.
Analisi delle limitazioni
Gli errori comuni tra i modelli suggeriscono che le difficoltร non derivano tanto dalla mancanza di conoscenza, quanto da problemi di calibrazione epistemica, ovvero la capacitร di valutare l'affidabilitร delle proprie risposte in contesti con vincoli reali come latenza, rumore biologico e fattibilitร metodologica. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.
Metodologia
I test sono stati condotti con parametri rigorosi: temperatura impostata a 0, numero massimo di token a 5 e output limitato a una singola lettera. Un elemento del set di dati รจ stato escluso a causa di una formulazione errata.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!