Qwen 3.5: analisi dell'architettura e distribuzione dei parametri

Analisi Architetturale di Qwen 3.5

Un'analisi recente si è concentrata sull'architettura dei modelli Qwen 3.5, confrontando la distribuzione dei parametri tra il modello dense da 27B e i modelli Mixture of Experts (MoE) da 122B e 35B. Tutti e tre condividono un'architettura simile, alternando tre livelli Gated DeltaNet con un livello Gated Attention, ciascuno seguito dalla rispettiva rete Feed Forward.

La principale differenza risiede nella distribuzione dei parametri. I modelli MoE utilizzano più parametri negli esperti della rete Feed Forward (FFN). Al contrario, il modello dense da 27B, grazie all'uso di una FFN dense che richiede meno parametri, può allocare più risorse ad altre parti della rete.

Distribuzione dei Parametri

Quantificando i parametri utilizzati nei livelli FFN, si osserva che:

Modello MoE 122B: 77,3 B (attivi 2,7) -> 63% (2,2%)
Modello MoE 35B: 21,5 B (attivi 0,8) -> 61% (2,3%)
Modello dense 27B: 9,1 B -> 34%

Il modello dense utilizza una percentuale inferiore di parametri nei livelli FFN, compensando con:

Maggiore profondità: 64 livelli rispetto ai 48 e 40 dei modelli MoE, migliorando le capacità di ragionamento.
Più chiavi e valori nei livelli gated attention: 4 rispetto ai 2 dei modelli MoE, per catturare più sfumature.
Più heads nei livelli Gated DeltaNet rispetto al modello 35B.

Inoltre, il modello dense utilizza attivamente una porzione maggiore dei suoi parametri, incrementando la potenza computazionale per token.

Conclusioni

Il modello dense da 27B può essere considerato una rete più profonda e ampia rispetto al modello MoE da 35B, e per certi aspetti anche rispetto al modello da 122B. Queste differenze gli consentono di raggiungere prestazioni comparabili con un footprint parametrico 4,5 volte inferiore. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Qwen 3.5: analisi dell'architettura e distribuzione dei parametri

Analisi Architetturale di Qwen 3.5

Distribuzione dei Parametri

Conclusioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Imminente rilascio del modello Qwen3.5 Small Dense?

Qwen3 vs Qwen3.5: un confronto delle performance

Qwen3.5B: un salto di qualità rispetto ai modelli di 2 anni fa

👥 Unisciti a 160+ appassionati di AI