L’aggiornamento della leaderboard SWE-rebench, punto di riferimento per misurare le capacità di coding degli LLM, ha portato in scena un terzetto di modelli pensati per il self-hosting: Qwen3.6-27B, Qwen3.6-35B-A3B e Gemma 4 31B. Non sono ancora in vetta – le prime posizioni restano saldamente in mano a Claude Opus 4.8 con il 56,5% e a GLM-5.2 con il 51,1% – ma il loro ingresso dice molto sulla direzione che il settore sta prendendo.

La fotografia della classifica

Nel benchmark che simula attività reali di sviluppo software, Qwen3.6-27B ha raggiunto il 36,5% consumando in media 1,88 milioni di token per task. La variante MoE Qwen3.6-35B-A3B – dove la sigla indica appena 3 miliardi di parametri attivi per token – ha ottenuto il 33,8% con 2,23 milioni di token. Più staccata Gemma 4 31B, ferma al 16,5% e 2,24 milioni di token. Numeri che, letti accanto ai pesi massimi da migliaia di miliardi di parametri, mostrano un divario ancora sensibile ma non abissale, specie considerando il rapporto fra costo computazionale e risultato.

Token economy: il costo nascosto dell’agente di codice

In un contesto on-premise o self-hosted, il numero di token consumati non è solo un indice di efficienza: si traduce in tempo di calcolo, consumo energetico e dimensionamento dell’hardware. I 1,88 milioni di token di Qwen3.6-27B rappresentano un carico più leggero rispetto, per esempio, ai 6,89 milioni di MiniMax M3 (45,6%) o ai 2,62 milioni di GLM-5.2 (51,1%). Per chi deve far girare un assistente di codice su GPU consumer o su server aziendali senza ricorrere alle API cloud, questa metrica diventa dirimente: meno token equivalgono a latenze inferiori e a una finestra di contesto più gestibile, riducendo la necessità di costose accelerazioni hardware.

L’architettura MoE come alleata del self-hosting

La sigla “35B-A3B” di Qwen3.6 svela un’architettura a mistura di esperti (MoE), in cui solo 3 miliardi di parametri vengono attivati per ogni token. È una scelta progettuale che incide positivamente sulla memory footprint e sulla velocità di inference, permettendo di eseguire il modello su macchine con risorse di VRAM limitate – una caratteristica cruciale per i deployment locali. Qwen3.6-27B, pur essendo un modello denso, dimostra comunque che un taglio da 27 miliardi di parametri può reggere il confronto con modelli molto più grandi in scenari di software engineering, offrendo un punto di equilibrio tra qualità e gestibilità.

Il framework Harbor e la spinta all’autonomia

Non è un caso che l’annuncio menzioni Harbor, il framework che permette di eseguire agenti di coding sul proprio hardware. Strumenti di questo tipo stanno rendendo concreta la possibilità di costruire pipeline di sviluppo interamente locali, dove il codice non esce mai dal perimetro aziendale. SWE-rebench, con la sua attenzione ai modelli self-hosted e alla trasparenza dei dati di consumo, diventa così uno strumento di valutazione non solo per i laboratori di ricerca, ma anche per i team IT che devono decidere se e quali LLM integrare nei propri flussi di lavoro.

Cosa aspettarsi dopo

La richiesta alla community di suggerire altri modelli locali da testare indica che la classifica è destinata ad arricchirsi. Mentre i modelli di fascia alta continuano a spingere sulle performance, la fascia media e bassa sta vivendo un’accelerazione che potrebbe presto tradursi in agenti di codice utilizzabili in produzione su infrastrutture di proprietà. Per le organizzazioni attente alla sovranità dei dati e al Total Cost of Ownership, la direzione è tracciata: misurare, confrontare e scegliere con metriche che vadano oltre il semplice tasso di successo.