GhazalBench: Un Nuovo Benchmark per i LLM e la Poesia Persiana
Un nuovo studio introduce GhazalBench, un benchmark progettato per valutare come i modelli linguistici di grandi dimensioni (LLM) interagiscono con i ghazal persiani. La poesia persiana, in particolare i ghazal, riveste un ruolo culturale significativo in Iran, con versi di poeti come Hafez frequentemente citati e parafrasati.
GhazalBench valuta due abilità complementari: la produzione di parafrasi fedeli in prosa dei distici e l'accesso a versi canonici in base a diversi indizi semantici e formali. I test hanno rivelato una dissociazione nei modelli: pur comprendendo il significato poetico, faticano con il richiamo esatto dei versi in contesti di completamento. Compiti di riconoscimento riducono questo divario.
Un confronto con sonetti inglesi ha mostrato prestazioni di richiamo significativamente superiori, suggerendo che le limitazioni osservate sono legate all'esposizione durante l'addestramento piuttosto che a vincoli architetturali intrinseci. GhazalBench è disponibile su GitHub per ulteriori analisi e sviluppi.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!