Analisi Architetturale di Qwen 3.5
Un'analisi recente si è concentrata sull'architettura dei modelli Qwen 3.5, confrontando la distribuzione dei parametri tra il modello dense da 27B e i modelli Mixture of Experts (MoE) da 122B e 35B. Tutti e tre condividono un'architettura simile, alternando tre livelli Gated DeltaNet con un livello Gated Attention, ciascuno seguito dalla rispettiva rete Feed Forward.
La principale differenza risiede nella distribuzione dei parametri. I modelli MoE utilizzano più parametri negli esperti della rete Feed Forward (FFN). Al contrario, il modello dense da 27B, grazie all'uso di una FFN dense che richiede meno parametri, può allocare più risorse ad altre parti della rete.
Distribuzione dei Parametri
Quantificando i parametri utilizzati nei livelli FFN, si osserva che:
- Modello MoE 122B: 77,3 B (attivi 2,7) -> 63% (2,2%)
- Modello MoE 35B: 21,5 B (attivi 0,8) -> 61% (2,3%)
- Modello dense 27B: 9,1 B -> 34%
Il modello dense utilizza una percentuale inferiore di parametri nei livelli FFN, compensando con:
- Maggiore profondità: 64 livelli rispetto ai 48 e 40 dei modelli MoE, migliorando le capacità di ragionamento.
- Più chiavi e valori nei livelli gated attention: 4 rispetto ai 2 dei modelli MoE, per catturare più sfumature.
- Più heads nei livelli Gated DeltaNet rispetto al modello 35B.
Inoltre, il modello dense utilizza attivamente una porzione maggiore dei suoi parametri, incrementando la potenza computazionale per token.
Conclusioni
Il modello dense da 27B può essere considerato una rete più profonda e ampia rispetto al modello MoE da 35B, e per certi aspetti anche rispetto al modello da 122B. Queste differenze gli consentono di raggiungere prestazioni comparabili con un footprint parametrico 4,5 volte inferiore. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!