Benchmark di Inference: M5 Max vs M3 Max
Un recente benchmark ha confrontato le performance di inference dei chip M5 Max e M3 Max di Apple, utilizzando modelli Qwen 3.5 su MacBook Pro da 16 pollici. Entrambi i sistemi erano dotati di 40 core GPU e 128GB di memoria unificata. I test sono stati condotti con oMLX v0.2.23, valutando modelli di diverse dimensioni (122B-A10B MoE, 35B-A3B MoE, 27B dense).
Risultati Principali
- Il chip M5 Max ha dimostrato un throughput significativamente superiore. Ad esempio, con il modello 35B-A3B, ha raggiunto 134.5 token/s rispetto agli 80.3 token/s del M3 Max.
- Il divario tra i due chip si accentua con contesti piรน lunghi. A 65K, il modello 27B dense scende a 6.8 token/s sull'M3 Max, contro i 19.6 token/s dell'M5 Max.
- Il batching รจ cruciale per i carichi di lavoro agentic. L'M5 Max scala fino a 2.54x throughput con batch di dimensione 4 sul modello 35B-A3B, mentre l'M3 Max mostra un degrado delle performance con modelli dense.
- L'efficienza dei modelli MoE รจ notevole. Il modello 122B (10B attivo) genera piรน velocemente del modello 27B dense su entrambe le macchine.
La larghezza di banda di memoria (614 GB/s vs 400 GB/s) sembra essere un fattore limitante, specialmente per cicli agent multi-step o chiamate a strumenti parallele.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!