Qwen3.5-27B: Un modello locale potenziato
Una nuova versione del modello Qwen3.5-27B è stata rilasciata, frutto di un lavoro di ottimizzazione che include la rimozione di censure e il miglioramento della gestione del contesto. Questa versione è basata sul modello fine-tunato da Jackrong su un dataset specifico e ulteriormente modificata per ridurre la divergenza di Kullback-Leibler, un parametro che indica la similarità tra distribuzioni di probabilità.
Ottimizzazioni e performance
Le modifiche implementate mirano a ripristinare la funzionalità dei livelli attn_v e ffn_gate_exps, cruciali per la gestione del contesto durante le conversazioni. Il modello risultante, quantizzato in formato Q4_K_M, promette di mantenere un contesto di 262K. Tuttavia, le prestazioni su hardware meno recente, come una RTX 3060 da 12 GB, potrebbero risultare limitate (circa 4 token/sec) a causa della densità del modello e dell'assenza di un'architettura MoE (Mixture of Experts).
Per chi valuta deployment on-premise, esistono trade-off tra dimensione del modello, accuratezza e requisiti hardware. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!