Inference più rapida con MLX e Qwen-3.5

Il framework mlx-lm sta per ricevere un aggiornamento significativo: l'introduzione della predizione multi-token (MTP) per i modelli della serie Qwen-3.5. Questa funzionalità permette di generare più token per ogni forward pass, incrementando notevolmente il throughput.

Incremento di performance

I primi test, eseguiti su un M4 Pro con un modello Qwen3.5-27B quantizzato a 4-bit, mostrano un aumento di velocità da 15.3 a 23.3 token/s, corrispondente a un miglioramento di circa il 50%. L'acceptance rate si attesta intorno all'80.6%.

Questo miglioramento è particolarmente rilevante per chi esegue inference di modelli linguistici di grandi dimensioni (LLM) in locale, poiché consente di sfruttare al meglio le risorse hardware disponibili. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.

Dettagli implementativi

La PR che introduce questa funzionalità è disponibile su GitHub all'indirizzo https://github.com/ml-explore/mlx-lm/pull/990.