Un utente di Reddit ha condiviso un test interessante su Qwen-35B, un modello linguistico di grandi dimensioni (LLM). L'esperimento si è concentrato sulle capacità di analisi visiva e di tool calling del modello.
Dettagli del test
All'LLM è stata fornita un'immagine di bassa qualità e gli è stato chiesto di individuare un anello. Qwen-35B è stato in grado di analizzare l'immagine, comprendere la posizione esatta dell'anello e, cosa ancora più notevole, utilizzare un terminale Linux per cerchiare l'area corrispondente.
Performance
L'utente ha evidenziato la velocità di elaborazione del modello, che raggiunge i 100 token al secondo (tk/s) su hardware consumer, nello specifico una GPU 3090. Questo suggerisce un'ottimizzazione significativa per l'inference su hardware meno costoso rispetto alle soluzioni enterprise.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!