MLX: Inference Multi-Token per Qwen-3.5 accelera l'output

Inference più rapida con MLX e Qwen-3.5

Il framework mlx-lm sta per ricevere un aggiornamento significativo: l'introduzione della predizione multi-token (MTP) per i modelli della serie Qwen-3.5. Questa funzionalità permette di generare più token per ogni forward pass, incrementando notevolmente il throughput.

Incremento di performance

I primi test, eseguiti su un M4 Pro con un modello Qwen3.5-27B quantizzato a 4-bit, mostrano un aumento di velocità da 15.3 a 23.3 token/s, corrispondente a un miglioramento di circa il 50%. L'acceptance rate si attesta intorno all'80.6%.

Questo miglioramento è particolarmente rilevante per chi esegue inference di modelli linguistici di grandi dimensioni (LLM) in locale, poiché consente di sfruttare al meglio le risorse hardware disponibili. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.

Dettagli implementativi

La PR che introduce questa funzionalità è disponibile su GitHub all'indirizzo https://github.com/ml-explore/mlx-lm/pull/990.

MLX: Inference Multi-Token per Qwen-3.5 accelera l'output

Inference più rapida con MLX e Qwen-3.5

Incremento di performance

Dettagli implementativi

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Tokenomics AI: scalare l'inference è più complesso di più GPU

MiniMax M2.7 disponibile su OpenRouter: finestra di contesto da 204.800 token

Qwen3.5: performance promettenti per carichi di lavoro reali