I modelli linguistici di grandi dimensioni (LLM) continuano a evolversi, dimostrando capacità sempre maggiori in diversi ambiti. Un recente test ha messo in luce le performance dei modelli Little Qwen 3.5 da 27B e Qwen 35B-A3B nel ragionamento logico.

Dettagli del Benchmark

I risultati sono stati ottenuti utilizzando il benchmark lineage-bench e sono disponibili pubblicamente. La particolarità di questi modelli risiede nella loro capacità di gestire un elevato numero di premesse, aprendo nuove prospettive per applicazioni che richiedono ragionamenti complessi.

Considerazioni

La capacità di modelli relativamente piccoli di gestire ragionamenti complessi è un aspetto significativo. Per chi valuta deployment on-premise, esistono trade-off tra dimensioni del modello, requisiti hardware e performance. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.