ร stata annunciata la pubblicazione di versioni non censurate dei modelli linguistici Qwen3.5, con varianti da 27 miliardi (27B) e 2 miliardi (2B) di parametri.
Qwen3.5-27B
Il modello da 27B รจ descritto come l'evento principale, dotato di 64 livelli, architettura ibrida DeltaNet + softmax, finestra di contesto di 262.000 token e funzionalitร multimodali. L'autore dichiara l'assenza di rifiuti (0/465) e una rimozione completa delle censure. Sono disponibili diverse quantizzazioni, tra cui IQ2_M (8.8 GB), IQ3_M (12 GB), Q3_K_M (13 GB), IQ4_XS (14 GB), Q4_K_M (16 GB), Q5_K_M (19 GB), Q6_K (21 GB), Q8_0 (27 GB) e BF16 (51 GB). Le quantizzazioni IQ utilizzano la calibrazione della matrice di importanza.
Qwen3.5-2B
La versione da 2B รจ presentata come una prova di concetto. Pur essendo un modello piรน piccolo, si afferma che la rimozione delle censure non ne ha degradato la qualitร . Anche in questo caso, non si sono verificati rifiuti (0/465). Le quantizzazioni disponibili sono Q4_K_M (1.2 GB), Q6_K (1.5 GB), Q8_0 (1.9 GB) e BF16 (3.6 GB).
Entrambi i modelli includono file mmproj per il supporto di funzionalitร di visione artificiale. L'autore raccomanda di utilizzare una build recente di llama.cpp e sconsiglia l'uso di Ollama. ร previsto il rilascio di una versione da 35B-A3B in futuro.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!