Una nuova quantization GGUF per il modello Qwen3.5-35B-A3B è stata sviluppata con l'obiettivo di ottimizzare le prestazioni su schede grafiche dotate di 24GB di VRAM.
Dettagli della Quantization
La particolarità di questa versione GGUF risiede nell'utilizzo esclusivo di tipi di quantization q8_0/q4_0/q4_1, considerati più veloci con backend Vulkan/ROCm. La dimensione del modello quantizzato è di 19.776 GiB con 4.901 bit per peso (BPW).
Performance e Test
I primi risultati indicano una buona perplexity per le dimensioni del modello, suggerendo un potenziale miglioramento delle prestazioni rispetto ad altre quantizzazioni, in particolare con il backend Vulkan. L'autore invita la comunità a effettuare benchmark con tool come llama-sweep-bench su diverse configurazioni hardware, tra cui Strix Halo e 7900XTX. Sono benvenuti anche test su Mac, per valutare l'efficacia con il framework mlx.
Chi fosse interessato può trovare il modello su Hugging Face, compatibile con llama.cpp, ik_llama.cpp e altri progetti derivati.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!