Correzione cruciale per Qwen3.5 35B A3B: stabilità e coerenza on-premise

Un Bug Silenzioso Comprometteva Qwen3.5 35B A3B

Il modello Qwen3.5 35B A3B, una versione non censurata sviluppata da HauhauCS, ha attirato l'attenzione per la sua architettura avanzata, che include un design MoE (Mixture of Experts) con 256 esperti, una struttura ibrida DeltaNet + Attention e 40 strati. Riconosciuto per la sua capacità di elaborare informazioni recenti e la sua compatibilità con hardware consumer come una GPU RTX 3060 da 12GB, si è affermato come una risorsa interessante per i deployment locali di Large Language Models (LLM). Tuttavia, nonostante le sue promettenti caratteristiche, il modello presentava un comportamento anomalo: nelle conversazioni prolungate, tendeva a perdere il contesto, a ripetere frasi e a generare codice frammentato o con commenti incoerenti, un fenomeno descritto come “filosofeggiare”.

Questa instabilità, particolarmente evidente con prompt lunghi, ha spinto un ricercatore a indagare a fondo nei pesi del modello. L'obiettivo era comprendere la causa di queste deviazioni e ripristinare la piena funzionalità del modello per applicazioni che richiedono coerenza e affidabilità, specialmente in contesti di utilizzo on-premise dove il controllo sulle performance è cruciale.

La Scoperta e la Correzione di un Difetto Architetturale

Dopo due settimane di analisi approfondita, il ricercatore ha identificato la radice del problema in due specifici tensor, ssm_conv1d.weight, situati nei blocchi 36 e 37 dell'architettura. Questi tensor mostravano una scala anomala, circa il 60% superiore al normale (σ=0.102 rispetto a una mediana di 0.063). Questa discrepanza era attribuibile al funzionamento dell'algoritmo AdamW, che, in presenza di esperti rari negli strati finali, può applicare un tasso di apprendimento effettivo eccessivo, causando un drift dei pesi. In un'architettura ricorrente come DeltaNet, tale deriva compromette lo stato nascosto del modello, portando a una rapida perdita di contesto dopo pochi token.

La soluzione implementata è stata diretta: i due tensor problematici sono stati riscalati ai loro valori normali, senza alterare gli altri 489 tensor, la cui scala è intrinseca all'architettura (come i gate_inp). È interessante notare che un'analisi comparativa del modello Gemma 4 26B A4B non ha rivelato problemi simili, con tutte le scale dei tensor correttamente allineate. Questa scoperta sottolinea la complessità del fine-tuning e dell'ottimizzazione degli LLM, specialmente quelli che combinano architetture MoE con componenti ricorrenti.

Implicazioni per i Deployment On-Premise e la Sovranità dei Dati

I risultati della correzione sono stati significativi: una riduzione degli errori dell'88,6%. Il modello ora mantiene la coerenza nelle conversazioni lunghe, genera codice funzionale e ha eliminato il comportamento di “filosofeggiare”. Questa maggiore stabilità è di fondamentale importanza per CTO, DevOps lead e architetti infrastrutturali che considerano il deployment di LLM in ambienti self-hosted o air-gapped. La capacità di un modello di funzionare in modo affidabile su hardware come una RTX 3060 da 12GB, combinata con la sua stabilità migliorata, offre un'alternativa valida alle soluzioni basate su cloud, con implicazioni dirette sul Total Cost of Ownership (TCO) e sulla sovranità dei dati.

Per chi valuta deployment on-premise, la stabilità e l'efficienza di un LLM sono parametri chiave. Un modello che richiede meno risorse per mantenere la coerenza riduce i costi operativi e migliora l'esperienza utente. AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off tra soluzioni self-hosted e cloud, considerando fattori come la compliance, la latenza e il throughput. La possibilità di eseguire modelli complessi localmente, con prestazioni prevedibili, rafforza la strategia di controllo e sicurezza dei dati aziendali.

Lezioni Apprese e Prospettive Future per gli LLM Ibridi

La vicenda del Qwen3.5 35B A3B offre una lezione preziosa: anche un singolo bug in pochi tensor può bloccare il potenziale di un'architettura complessa e di grandi dimensioni. Questo evidenzia la necessità di una verifica rigorosa e di un'attenta calibrazione, specialmente per gli LLM che combinano architetture MoE con componenti ricorrenti come DeltaNet o Mamba. Gli sviluppatori e gli implementatori sono invitati a esaminare attentamente gli ultimi blocchi di questi modelli, poiché AdamW potrebbe aver introdotto silenziosamente delle anomalie.

La comunità Open Source gioca un ruolo cruciale in questo processo di raffinamento, permettendo l'identificazione e la risoluzione collaborativa di problemi che altrimenti potrebbero rimanere nascosti. La disponibilità di modelli in formato GGUF, insieme a configurazioni ottimizzate per strumenti come LM Studio, facilita l'adozione e l'ottimizzazione per l'inference locale, spingendo avanti l'innovazione nel campo degli LLM on-premise. Questo episodio rafforza l'importanza di un approccio metodico alla validazione dei modelli, garantendo che il loro pieno potenziale sia sbloccato per le applicazioni enterprise.