Benchmark M5 Max vs M3 Max: Inference Qwen3.5 su MacBook Pro

Benchmark di Inference: M5 Max vs M3 Max

Un recente benchmark ha confrontato le performance di inference dei chip M5 Max e M3 Max di Apple, utilizzando modelli Qwen 3.5 su MacBook Pro da 16 pollici. Entrambi i sistemi erano dotati di 40 core GPU e 128GB di memoria unificata. I test sono stati condotti con oMLX v0.2.23, valutando modelli di diverse dimensioni (122B-A10B MoE, 35B-A3B MoE, 27B dense).

Risultati Principali

Il chip M5 Max ha dimostrato un throughput significativamente superiore. Ad esempio, con il modello 35B-A3B, ha raggiunto 134.5 token/s rispetto agli 80.3 token/s del M3 Max.
Il divario tra i due chip si accentua con contesti più lunghi. A 65K, il modello 27B dense scende a 6.8 token/s sull'M3 Max, contro i 19.6 token/s dell'M5 Max.
Il batching è cruciale per i carichi di lavoro agentic. L'M5 Max scala fino a 2.54x throughput con batch di dimensione 4 sul modello 35B-A3B, mentre l'M3 Max mostra un degrado delle performance con modelli dense.
L'efficienza dei modelli MoE è notevole. Il modello 122B (10B attivo) genera più velocemente del modello 27B dense su entrambe le macchine.

La larghezza di banda di memoria (614 GB/s vs 400 GB/s) sembra essere un fattore limitante, specialmente per cicli agent multi-step o chiamate a strumenti parallele.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Benchmark M5 Max vs M3 Max: Inference Qwen3.5 su MacBook Pro

Benchmark di Inference: M5 Max vs M3 Max

Risultati Principali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

M5 Max di Apple surclassa Ryzen Threadripper Pro in Geekbench

Inferenza LLM: 8 GPU AMD MI50 per prestazioni e convenienza

Apple M5 Max e Ultra in arrivo? Indiscrezioni sul nuovo hardware

👥 Unisciti a 160+ appassionati di AI