Unsloth ha annunciato un aggiornamento finale per i suoi modelli Qwen3.5 in formato GGUF (GPT-Generated Unified Format), con l'obiettivo di migliorare il rapporto tra dimensione del modello e divergenza di Kullback-Leibler (KLD), un indicatore di quanto la distribuzione di probabilitร del modello quantizzato si discosta da quella del modello originale.
Novitร principali
- Dataset di calibrazione: Tutti i GGUF utilizzano un nuovo dataset di calibrazione imatrix, che dovrebbe portare a piccoli miglioramenti nelle performance in scenari di chat, coding, gestione di contesti lunghi e tool-calling.
- Riduzione della divergenza KLD: ร stato ulteriormente affinato il metodo di quantization per i modelli Qwen3.5 Mixture of Experts (MoE) per ridurre direttamente la divergenza massima KLD. In particolare, la variante UD-Q4_K_XL รจ piรน grande dell'8%, ma riduce la divergenza massima KLD del 51% rispetto alla versione precedente al 5 marzo.
- Aggiornamenti modelli: Sono stati aggiornati e resi disponibili per il re-download i modelli Qwen3.5-35B-A3B, 27B e 122B-A10B. Il modello 397B-A17B sarร aggiornato a breve.
- Inference: I layer BF16 (BFloat16) sono stati sostituiti con F16 (Float16) per velocizzare l'inference su dispositivi non supportati.
Quantization e performance
La tabella seguente riassume le variazioni di dimensione e divergenza KLD per diverse configurazioni di quantization:
| Quant | Old GB | New GB | Max KLD Old | Max KLD New |
|---|---|---|---|---|
| UD-Q2_K_XL | 12.0 | 11.3 (-6%) | 8.237 | 8.155 (-1%) |
| UD-Q3_K_XL | 16.1 | 15.5 (-4%) | 5.505 | 5.146 (-6.5%) |
| UD-Q4_K_XL | 19.2 | 20.7 (+8%) | 5.894 | 2.877 (-51%) |
| UD-Q5_K_XL | 23.2 | 24.6 (+6%) | 5.536 | 3.210 (-42%) |
Questi aggiornamenti mirano a rendere i modelli Qwen3.5 piรน efficienti e performanti, soprattutto in contesti di utilizzo locale. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente; AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!