Test di Qwen3-code-next su Mac Studio Ultra: un'analisi

Un utente ha condiviso la sua esperienza nell'utilizzo di Qwen3-code-next, un modello linguistico di grandi dimensioni (LLM) focalizzato sulla generazione di codice, su un Mac Studio Ultra dotato di 128GB di RAM.

Configurazione e Test Iniziali

Il test è stato eseguito in locale, sfruttando le risorse del Mac Studio Ultra. I primi risultati sono stati positivi, con il modello in grado di eseguire task di base come lettura e scrittura di file, navigazione web e verifica dell'ora di sistema.

Sfida di Sviluppo Reale

La sfida principale consisteva nel riscrivere KittenTTS-IOS per Windows, un progetto di media difficoltà che coinvolgeva l'utilizzo di ONYX e librerie Swift come Misaki per la fonetica inglese. L'obiettivo era creare una semplice CLI con il modello KittenTTS, evitando manipolazioni fonetiche complesse.

Problematiche Riscontrate

Nonostante un inizio promettente, sono emersi diversi problemi con l'aumentare della complessità del progetto. In particolare, il modello ha mostrato difficoltà nella gestione di contesti più ampi, portando a timeout frequenti e alla necessità di riavvii manuali. L'utente ha anche notato che il modello sprecava token cercando di capire come salvare i file, riempiendo il contesto con lavoro non necessario. La gestione della memoria e l'elaborazione dei prompt sono diventate un collo di bottiglia, rallentando notevolmente il processo.

Ottimizzazioni Tentate

L'utente ha tentato di migliorare le prestazioni aumentando il timeout e quantizzando la KV_cache a 8 bit in LM studio, ma con risultati incerti. Nonostante le difficoltà, il modello è riuscito a produrre un file audio con voce, sebbene privo di significato a causa della mancanza di un dizionario fonetico adeguato.

Valutazione Finale

L'utente ha assegnato al modello un punteggio di 5/10, sottolineando che, sebbene il modello sia in grado di funzionare con una notevole pazienza, non è paragonabile alle prestazioni offerte dai modelli più grandi, anche a pagamento. La lentezza nell'elaborazione dei prompt, soprattutto con contesti ampi, rappresenta un limite significativo.