Un utente ha condiviso la propria esperienza con il modello linguistico Nemo 30B, sottolineando le sue capacitร  di gestione di finestre di contesto estese su hardware consumer.

Prestazioni e Hardware

Il test รจ stato eseguito su una singola scheda grafica RTX 3090, abbinata a 32 GB di RAM. L'utente ha riportato una velocitร  di elaborazione di 35 token al secondo, considerata adeguata per attivitร  di riepilogo di testi lunghi come libri o articoli scientifici. L'utilizzo di CPU offloading รจ indicato per utenti esperti.

Confronto con altri modelli

Nemo 30B รจ stato confrontato con il modello Seed OSS 36B, evidenziando una velocitร  superiore di circa 20 token al secondo. Questo rende Nemo 30B una soluzione interessante per chi cerca di eseguire modelli linguistici di grandi dimensioni localmente con finestre di contesto ampie. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.