AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 Frameworks AI generated

MLX: Inference Multi-Token per Qwen-3.5 accelera l'output

Pubblicato il 2026-03-21 11:52 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware 🏷️ LLM On-Premise 🏷️ DevOps

MLX: Inference Multi-Token per Qwen-3.5 accelera l'output

Inference più rapida con MLX e Qwen-3.5

Il framework mlx-lm sta per ricevere un aggiornamento significativo: l'introduzione della predizione multi-token (MTP) per i modelli della serie Qwen-3.5. Questa funzionalità permette di generare più token per ogni forward pass, incrementando notevolmente il throughput.

Incremento di performance

I primi test, eseguiti su un M4 Pro con un modello Qwen3.5-27B quantizzato a 4-bit, mostrano un aumento di velocità da 15.3 a 23.3 token/s, corrispondente a un miglioramento di circa il 50%. L'acceptance rate si attesta intorno all'80.6%.

Questo miglioramento è particolarmente rilevante per chi esegue inference di modelli linguistici di grandi dimensioni (LLM) in locale, poiché consente di sfruttare al meglio le risorse hardware disponibili. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.

Dettagli implementativi

La PR che introduce questa funzionalità è disponibile su GitHub all'indirizzo https://github.com/ml-explore/mlx-lm/pull/990.

Takeaway AI-Radar

Il framework mlx-lm introduce la predizione multi-token (MTP) per i modelli Qwen-3.5, incrementando significativamente la velocità di generazione. I primi benchmark su un M4 Pro mostrano un aumento di throughput di circa il 50%, aprendo nuove prospettive per l'inference efficiente di LLM su hardware Apple Silicio. Questo aggiornamento promette di migliorare le performance dei modelli open source in locale.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

PeerPush Piattaforma Community AI

Scopri e condividi strumenti e progetti AI. Connettiti con sviluppatori, ottieni feedback e fai crescere la tua startup AI in una community vibrante di innovatori.

✓ Community AI ✓ Vetrina Progetti ✓ Rete Sviluppatori

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Gemma 4 31B vs Qwen 27B: l'efficienza dei token ridefinisce la velocità nell'Inference

Gemma 4 31B vs Qwen 27B: l'efficienza dei token ridefinisce la velocità nell'Inference

Un'analisi comparativa tra i Large Language Models Gemma 4 31B e Qwen 27B rivela un trade-off cruciale: nonostante una velocità di Inference grezza inferiore, G

Qwen3-27B e MTP: un boost di throughput del 250% per l'inference LLM on-premise

Qwen3-27B e MTP: un boost di throughput del 250% per l'inference LLM on-premise

Un recente sviluppo ha dimostrato come l'implementazione della Multi-Token Prediction (MTP) per il modello Qwen3-27B, tramite una versione modificata di `llama.

z-lab rilascia DFlash per Gemma 4 26B: un nuovo approccio all'inference LLM on-premise

Frameworks May 08

z-lab rilascia DFlash per Gemma 4 26B: un nuovo approccio all'inference LLM on-premise

z-lab ha introdotto DFlash, una nuova tecnicia per l'inference di Large Language Models come Gemma 4 26B. Promettendo miglioramenti significativi nella gestione

TokenSpeed e Qwen3.5-397B-A17B: un nuovo record di 580 tps per LLM on-premise

Frameworks May 27

TokenSpeed e Qwen3.5-397B-A17B: un nuovo record di 580 tps per LLM on-premise

L'engine di Inference open-source TokenSpeed ha stabilito un nuovo record di 580 tps con il modello Qwen3.5-397B-A17B su GPU NVIDIA Blackwell. Questa performanc

Qwen 3.6 27B: inference 2.5x più rapida con MTP per deployment locali

Qwen 3.6 27B: inference 2.5x più rapida con MTP per deployment locali

Un recente aggiornamento a `llama.cpp` introduce il supporto per la Multi-Token Prediction (MTP) nel modello Qwen 3.6 27B, accelerando l'inference fino a 2.5 vo

Altri articoli in Frameworks

ZLUDA v6 porta PhysX su GPU AMD, ma perde il finanziamento commerciale

RANSAC senza parametri di scala: il punteggio che elimina la calibrazione manuale

DeepSeek accelera l’inference con DSpark: fino all’85% di risposte più rapide

DeepSpec: DeepSeek open-source per accelerare l'inference con speculative decoding

Llama.cpp adotta DFlash: attenzione ottimizzata per l'inference locale

GNOME ora ha un assistente AI che genera immagini: Newelle 1.4.5

→ Vedi tutti in Frameworks →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi