MoE a 4 esperti: cosa insegna una pipeline automatica su RTX 4090 dopo 28 giorni

Quando l’automazione incontra la progettazione di reti neurali, il diavolo si nasconde nei dettagli dell’implementazione. Il team del progetto NNGPT ha messo alla prova questa verità con una campagna sistematica di 28 giorni su una singola NVIDIA RTX 4090, mirata a esplorare architetture MoE a 4 esperti eterogenee. Il risultato? Oltre 4.400 modelli candidati generati, ma anche un errore di enumerazione che ha vincolato il 95,2% delle combinazioni teoriche fuori dalla porta.

Un generatore deterministico al posto del design manuale

La pipeline parte da un modello MoE eterogeneo realizzato a mano e lo sostituisce con un assemblatore automatico di codice. Il sistema attinge alle famiglie di architetture del database LEMUR, combinandole in ensemble MoE a quattro esperti. Ogni ensemble è governato da una rete di gating convoluzionale con temperature scaling, mixup augmentation e cosine annealing del learning rate. L’obiettivo: setacciare lo spazio delle possibili miscele senza l’intervento umano.

La scelta dell’hardware non è banale: una GPU GeForce RTX 4090, consumer ma capace di sostenere carichi di training significativi, rivela quanto oggi sia possibile fare ricerca architetturale senza ricorrere a cluster server. Per chi valuta deployment on-premise, la campagna dimostra che strumenti di questo tipo possono girare su macchine accessibili, riducendo il divario tra sperimentazione e produzione.

La trappola dell’ordine alfabetico

Il dato più interessante non è nelle performance medie degli ensemble – che pure vedono ShuffleNet e MobileNetV3 primeggiare con un’accuratezza fino a 0,632 – ma nella scoperta di un vizio metodologico. Il generatore usa itertools.combinations per enumerare le famiglie: un approccio deterministico che segue l’ordine alfabetico. Poiché la prima famiglia in elenco è AirNet, tutte le combinazioni esplorate – un misero 4,8% delle 23.751 possibili – la includono. In pratica, l’intera campagna è ancorata ad AirNet.

Questa distorsione emerge solo grazie alla trasparenza del progetto, che documenta batch per batch cosa è stato generato e valutato. È un monito per chiunque sviluppi framework automatici di ricerca architetturale: la scelta di un algoritmo di combinazione apparentemente innocuo può silenziosamente invalidare le conclusioni. La soluzione proposta – un campionamento stratificato casuale – è incorporata nella versione corretta del generatore.

Cosa resta valido (e cosa no)

Nell’universo AirNet-centrico, i numeri parlano chiaro: gli ensemble che includono ShuffleNet o MobileNetV3 ottengono regolarmente le accuratezze più alte, mentre FractalNet e MNASNet si rivelano famiglie a basso rendimento, candidate a essere escluse da campagne future. Questi risultati, per quanto condizionati dal bias, offrono indicazioni utili per chi vuole comporre MoE efficienti su hardware simile.

Sul fronte metodologico, la pipeline si candida come strumento replicabile e open-source. Il rilascio completo su GitHub (NNGPT) include non solo il codice, ma anche gli artefatti dell’analisi e il generatore emendato. Un approccio che sposa la filosofia della scienza aperta e che, per gli ambienti on-premise, significa auditability completa del processo di generazione dei modelli.

Perché interessa chi lavora on-premise

AI-RADAR segue con attenzione le iniziative che democratizzano l’automazione del design neurale su hardware alla portata di team piccoli e medi. Una GPU singola, un dataset come LEMUR e una pipeline deterministica bastano per esplorare spazi architetturali complessi – ma a patto di non cadere in bias come quello qui documentato. Per i responsabili tecnici, la lezione è duplice: verificare sempre i presupposti statistici degli strumenti che si adottano, e considerare che anche l’automazione più spinta non esonera da un controllo umano attento. Sul fronte dei costi, l’uso di una RTX 4090 per 28 giorni fornisce un metro di confronto utile per stimare TCO di campagne simili, soprattutto se si confrontano con soluzioni cloud equivalenti.