AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 Hardware AI generated

Qwen 3.5 35B MoE: 40+ token/s su RTX 5060 Ti con contesto 100k

Pubblicato il 2026-02-26 08:59 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware 🏷️ LLM On-Premise 🏷️ DevOps

Qwen 3.5 35B MoE: 40+ token/s su RTX 5060 Ti con contesto 100k

Qwen 3.5 35B MoE: Performance su RTX 5060 Ti

Un utente ha riportato risultati di performance impressionanti per il modello linguistico Qwen 3.5 35B MoE, eseguito su una scheda grafica NVIDIA GeForce RTX 5060 Ti con 16GB di VRAM. Il test ha utilizzato un contesto di 100.000 token.

Dettagli della configurazione

Modello: Qwen 3.5 35B MoE
GPU: NVIDIA GeForce RTX 5060 Ti (16GB VRAM)
CPU: AMD Ryzen 7 9700X
Backend: CUDA e Vulkan
Lunghezza contesto: 100.000 token

Risultati

I test hanno mostrato una velocità di generazione di circa 40 token al secondo (tps) con entrambi i backend CUDA e Vulkan. In particolare, con CUDA è stata raggiunta una velocità di 44.32 tps, mentre con Vulkan 41.35 tps. Durante l'elaborazione del prompt (fill) con un testo di 99961 token, la velocità ha raggiunto i 1154.31 tps.

Comando llama.cpp utilizzato

llama-server.exe -m "/Qwen3.5-35B-A3B-MXFP4_MOE.gguf" --port 6789 --ctx-size 131072 -n 32768 --flash-attn on -ngl 40 --n-cpu-moe 24 -b 2048 -ub 2048 -t 8 --kv-offload --cont-batching --temp 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

Questi risultati suggeriscono che l'inference di modelli linguistici di grandi dimensioni sta diventando sempre più accessibile su hardware consumer. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.

Takeaway AI-Radar

Test di performance del modello linguistico Qwen 3.5 35B MoE con una RTX 5060 Ti da 16GB. I risultati mostrano una velocità di generazione di oltre 40 token al secondo con un contesto di 100.000 token, aprendo nuove possibilità per l'inference di LLM su hardware consumer. Le prove sono state eseguite con backend CUDA e Vulkan.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Qwen3 Coder: performance migliorata con Llama.cpp

Frameworks Feb 15

Qwen3 Coder: performance migliorata con Llama.cpp

Un recente aggiornamento a Llama.cpp sembra aver significativamente migliorato le prestazioni del modello Qwen3 Coder Next. I test indicano un aumento del throu

Confronto GPU per carichi AI: RTX 5090 vs RTX 6000 PRO tra potenza e efficienza

Hardware May 27

Confronto GPU per carichi AI: RTX 5090 vs RTX 6000 PRO tra potenza e efficienza

Un'analisi comparativa delle prestazioni di NVIDIA RTX 5090 e RTX 6000 PRO (MaxQ e WS/SE) per carichi di lavoro di diffusione AI, evidenzia i trade-off tra pote

Un LLM MoE da 35B su una RTX 3090: velocità e qualità a portata di consumer

Un LLM MoE da 35B su una RTX 3090: velocità e qualità a portata di consumer

Con l’APEX I-Quality e il codec turbo8, Qwen3.6-35B-A3B raggiunge 137 t/s e 128k di contesto su una singola RTX 3090. I test mostrano che il fork spiritbuun reg

Nvidia RTX 5050: 9GB GDDR7 su bus a 96-bit in arrivo?

Hardware Mar 05

Nvidia RTX 5050: 9GB GDDR7 su bus a 96-bit in arrivo?

Indiscrezioni suggeriscono che Nvidia stia sviluppando la RTX 5050 con 9GB di VRAM GDDR7 su un bus a 96-bit, affiancata da una RTX 5060 con GPU GB205 ridotta. L

Nvidia RTX 5060 Ti 8GB: unica GPU di serie 50 al prezzo di listino

Hardware Feb 20

Nvidia RTX 5060 Ti 8GB: unica GPU di serie 50 al prezzo di listino

La domanda elevata per le GPU Nvidia dedicate all'intelligenza artificiale sta influenzando i prezzi di mercato. La RTX 5060 Ti 8GB rimane l'unica scheda della

Altri articoli in Hardware

Intel Nova Lake: 52 core e fino a 474W per il desktop di nuova generazione

4090 e 5090 con 96 GB di VRAM? L'alert dal mondo dei laboratori GPU

Dal mercato di Shenzhen una RTX 5090 con 96 GB di VRAM: costa 8.200 dollari

Chip AI: la strozzatura logistica minaccia i piani on-premise

JCET investe 1,1 miliardi: la svolta cinese per i chip AI passa dal packaging

Wiwynn e TE Connectivity raffreddano a liquido le sbarre DC a 800V per i datacenter AI

→ Vedi tutti in Hardware →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi