รˆ stata annunciata la pubblicazione di versioni non censurate dei modelli linguistici Qwen3.5, con varianti da 27 miliardi (27B) e 2 miliardi (2B) di parametri.

Qwen3.5-27B

Il modello da 27B รจ descritto come l'evento principale, dotato di 64 livelli, architettura ibrida DeltaNet + softmax, finestra di contesto di 262.000 token e funzionalitร  multimodali. L'autore dichiara l'assenza di rifiuti (0/465) e una rimozione completa delle censure. Sono disponibili diverse quantizzazioni, tra cui IQ2_M (8.8 GB), IQ3_M (12 GB), Q3_K_M (13 GB), IQ4_XS (14 GB), Q4_K_M (16 GB), Q5_K_M (19 GB), Q6_K (21 GB), Q8_0 (27 GB) e BF16 (51 GB). Le quantizzazioni IQ utilizzano la calibrazione della matrice di importanza.

Qwen3.5-2B

La versione da 2B รจ presentata come una prova di concetto. Pur essendo un modello piรน piccolo, si afferma che la rimozione delle censure non ne ha degradato la qualitร . Anche in questo caso, non si sono verificati rifiuti (0/465). Le quantizzazioni disponibili sono Q4_K_M (1.2 GB), Q6_K (1.5 GB), Q8_0 (1.9 GB) e BF16 (3.6 GB).

Entrambi i modelli includono file mmproj per il supporto di funzionalitร  di visione artificiale. L'autore raccomanda di utilizzare una build recente di llama.cpp e sconsiglia l'uso di Ollama. รˆ previsto il rilascio di una versione da 35B-A3B in futuro.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.