AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

Qwen3.5-122B-A10B: versione non censurata e quantization K_P

Pubblicato il 2026-03-22 03:22 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ LLM On-Premise 🏷️ DevOps

Qwen3.5-122B-A10B: versione non censurata e quantization K_P

È stata rilasciata una versione non censurata di Qwen3.5-122B-A10B, denominata "Aggressive", che mira a fornire risposte senza filtri e senza modifiche alla personalità del modello.

Caratteristiche principali

Assenza di censure: La versione "Aggressive" è progettata per non rifiutare alcuna richiesta, offrendo una risposta completa senza limitazioni.
Quantization K_P: Introduce nuove quantizzazioni K_P che, tramite un'analisi specifica del modello, preservano la qualità dove è più importante, offrendo prestazioni superiori rispetto alle quantizzazioni standard con un incremento di dimensioni limitato (5-15%).
Supporto multimodale: Il modello supporta input di testo, immagini e video.
Contesto esteso: Finestra di contesto di 262K token.

Dettagli tecnici

Il modello ha un totale di 122 miliardi di parametri, con circa 10 miliardi attivi (MoE).
Architettura ibrida di attenzione: Gated DeltaNet + softmax (rapporto 3:1).
48 livelli.
Sono disponibili diverse quantizzazioni, tra cui Q8_K_P, Q6_K_P, Q6_K, Q5_K_M, Q4_K_P, Q4_K_M, IQ4_XS, Q3_K_M, Q3_K_P, IQ3_M, IQ3_XXS, IQ2_M.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Takeaway AI-Radar

Disponibile una versione non censurata di Qwen3.5-122B-A10B, progettata per evitare rifiuti nelle consegne. Introduce le nuove quantizzazioni K_P, che offrono un miglioramento della qualità con un incremento contenuto delle dimensioni del file. Sono incluse diverse quantizzazioni e supporto per la visione. Prossimamente, è previsto il rilascio di Gemma3.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Vast.ai Marketplace GPU

Marketplace GPU decentralizzato con prezzi ultra-competitivi. Noleggia da una rete globale di provider. Perfetto per sperimentazione, sviluppo e carichi ottimizzati sui costi.

✓ Prezzi minimi ✓ Rete globale ✓ Opzioni flessibili

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Quantizzazione LLM spiegata

Come la quantizzazione riduce VRAM e costi mantenendo la qualità del modello.

Qwen3.5-40B: Fine-tuning e Varianti Non Censurate

Qwen3.5-40B: Fine-tuning e Varianti Non Censurate

Disponibili nuove versioni fine-tuned del modello Qwen3.5-40B, con varianti "regolari", "non censurate" (Heretic) e "Rough House". Sono stati rilasciati 43 mode

GLM 4.7 Flash: versioni non censurate "Balanced" e "Aggressive"

GLM 4.7 Flash: versioni non censurate "Balanced" e "Aggressive"

Disponibili versioni non censurate del modello GLM 4.7 Flash di Z.ai, un modello MoE da 30B con circa 3B di parametri attivi e un contesto di 200K token. Le var

Qwen 3.5 Max in anteprima su Arena.ai: cosa sappiamo

Qwen 3.5 Max in anteprima su Arena.ai: cosa sappiamo

Una discussione su Reddit rivela un'anteprima del modello linguistico Qwen 3.5 Max su Arena.ai. La notizia ha suscitato interesse nella comunità LocalLLaMA, foc

Qwen3.6-27B e Gemma 4 31B nella classifica SWE-rebench: le prestazioni dei modelli locali

Qwen3.6-27B e Gemma 4 31B nella classifica SWE-rebench: le prestazioni dei modelli locali

La classifica SWE-rebench si aggiorna con nuovi modelli, tra cui spiccano i local LLM Qwen3.6-27B (36,5%, 1,88M token) e Gemma 4 31B (16,5%). L'efficienza in to

Qwen3-14B affinato con DeepSeek: boost del 20% nella sicurezza

Qwen3-14B affinato con DeepSeek: boost del 20% nella sicurezza

Un ricercatore ha affinato il modello linguistico Qwen3-14B utilizzando 10.000 tracce di DeepSeek, ottenendo un miglioramento del 20% nelle prestazioni di un be

Altri articoli in LLM

Quantization statisticamente lossless: il paper che cambia il trade-off per i modelli on-premise

Apertus 1.5: il modello AI totalmente aperto che abilita multimodalità e ragionamento on-premise

Gli esperti svelati: come i MoE smascherano le allucinazioni senza cambiare il modello

L'estetica dei LLM: come DeepSeek valuta la scrittura e cosa significa per il deployment on-premise

DataPrep-Bench valuta gli LLM come addetti alla preparazione dati per l’addestramento

LLM watermarking in medicina: quando la tracciabilità degrada le diagnosi

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi