Ottimizzazioni GGUF per Qwen3.5: Unsloth punta all'efficienza

Unsloth ha annunciato un aggiornamento finale per i suoi modelli Qwen3.5 in formato GGUF (GPT-Generated Unified Format), con l'obiettivo di migliorare il rapporto tra dimensione del modello e divergenza di Kullback-Leibler (KLD), un indicatore di quanto la distribuzione di probabilità del modello quantizzato si discosta da quella del modello originale.

Novità principali

Dataset di calibrazione: Tutti i GGUF utilizzano un nuovo dataset di calibrazione imatrix, che dovrebbe portare a piccoli miglioramenti nelle performance in scenari di chat, coding, gestione di contesti lunghi e tool-calling.
Riduzione della divergenza KLD: È stato ulteriormente affinato il metodo di quantization per i modelli Qwen3.5 Mixture of Experts (MoE) per ridurre direttamente la divergenza massima KLD. In particolare, la variante UD-Q4_K_XL è più grande dell'8%, ma riduce la divergenza massima KLD del 51% rispetto alla versione precedente al 5 marzo.
Aggiornamenti modelli: Sono stati aggiornati e resi disponibili per il re-download i modelli Qwen3.5-35B-A3B, 27B e 122B-A10B. Il modello 397B-A17B sarà aggiornato a breve.
Inference: I layer BF16 (BFloat16) sono stati sostituiti con F16 (Float16) per velocizzare l'inference su dispositivi non supportati.

Quantization e performance

La tabella seguente riassume le variazioni di dimensione e divergenza KLD per diverse configurazioni di quantization:

Quant	Old GB	New GB	Max KLD Old	Max KLD New
UD-Q2_K_XL	12.0	11.3 (-6%)	8.237	8.155 (-1%)
UD-Q3_K_XL	16.1	15.5 (-4%)	5.505	5.146 (-6.5%)
UD-Q4_K_XL	19.2	20.7 (+8%)	5.894	2.877 (-51%)
UD-Q5_K_XL	23.2	24.6 (+6%)	5.536	3.210 (-42%)

Questi aggiornamenti mirano a rendere i modelli Qwen3.5 più efficienti e performanti, soprattutto in contesti di utilizzo locale. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente; AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.

Ottimizzazioni GGUF per Qwen3.5: Unsloth punta all'efficienza

Novità principali

Quantization e performance

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3.5-35B-A3B: GGUF ottimizzato per GPU da 24GB

Nuovo framework di allenamento migliora la ragione multimodale con dataset più piccoli

GPT-5.2: il modello di OpenAI più potente per matematica e scienza