È stata annunciata la pubblicazione di versioni non censurate dei modelli linguistici Qwen3.5, con varianti da 27 miliardi (27B) e 2 miliardi (2B) di parametri.
Qwen3.5-27B
Il modello da 27B è descritto come l'evento principale, dotato di 64 livelli, architettura ibrida DeltaNet + softmax, finestra di contesto di 262.000 token e funzionalità multimodali. L'autore dichiara l'assenza di rifiuti (0/465) e una rimozione completa delle censure. Sono disponibili diverse quantizzazioni, tra cui IQ2_M (8.8 GB), IQ3_M (12 GB), Q3_K_M (13 GB), IQ4_XS (14 GB), Q4_K_M (16 GB), Q5_K_M (19 GB), Q6_K (21 GB), Q8_0 (27 GB) e BF16 (51 GB). Le quantizzazioni IQ utilizzano la calibrazione della matrice di importanza.
Qwen3.5-2B
La versione da 2B è presentata come una prova di concetto. Pur essendo un modello più piccolo, si afferma che la rimozione delle censure non ne ha degradato la qualità. Anche in questo caso, non si sono verificati rifiuti (0/465). Le quantizzazioni disponibili sono Q4_K_M (1.2 GB), Q6_K (1.5 GB), Q8_0 (1.9 GB) e BF16 (3.6 GB).
Entrambi i modelli includono file mmproj per il supporto di funzionalità di visione artificiale. L'autore raccomanda di utilizzare una build recente di llama.cpp e sconsiglia l'uso di Ollama. È previsto il rilascio di una versione da 35B-A3B in futuro.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!