Unsloth ha annunciato un aggiornamento finale per i suoi modelli Qwen3.5 in formato GGUF (GPT-Generated Unified Format), con l'obiettivo di migliorare il rapporto tra dimensione del modello e divergenza di Kullback-Leibler (KLD), un indicatore di quanto la distribuzione di probabilitร  del modello quantizzato si discosta da quella del modello originale.

Novitร  principali

  • Dataset di calibrazione: Tutti i GGUF utilizzano un nuovo dataset di calibrazione imatrix, che dovrebbe portare a piccoli miglioramenti nelle performance in scenari di chat, coding, gestione di contesti lunghi e tool-calling.
  • Riduzione della divergenza KLD: รˆ stato ulteriormente affinato il metodo di quantization per i modelli Qwen3.5 Mixture of Experts (MoE) per ridurre direttamente la divergenza massima KLD. In particolare, la variante UD-Q4_K_XL รจ piรน grande dell'8%, ma riduce la divergenza massima KLD del 51% rispetto alla versione precedente al 5 marzo.
  • Aggiornamenti modelli: Sono stati aggiornati e resi disponibili per il re-download i modelli Qwen3.5-35B-A3B, 27B e 122B-A10B. Il modello 397B-A17B sarร  aggiornato a breve.
  • Inference: I layer BF16 (BFloat16) sono stati sostituiti con F16 (Float16) per velocizzare l'inference su dispositivi non supportati.

Quantization e performance

La tabella seguente riassume le variazioni di dimensione e divergenza KLD per diverse configurazioni di quantization:

Quant Old GB New GB Max KLD Old Max KLD New
UD-Q2_K_XL 12.0 11.3 (-6%) 8.237 8.155 (-1%)
UD-Q3_K_XL 16.1 15.5 (-4%) 5.505 5.146 (-6.5%)
UD-Q4_K_XL 19.2 20.7 (+8%) 5.894 2.877 (-51%)
UD-Q5_K_XL 23.2 24.6 (+6%) 5.536 3.210 (-42%)

Questi aggiornamenti mirano a rendere i modelli Qwen3.5 piรน efficienti e performanti, soprattutto in contesti di utilizzo locale. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente; AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.