Un recente thread online ha sollevato un interrogativo interessante riguardo l'assenza di implementazioni per i formati NVFP8 e MXFP8 all'interno di framework popolari come llama.cpp e VLLM, e piรน in generale nella comunitร  open source che si occupa di quantization di modelli.

Il contesto

NVFP8 e MXFP8 sono formati a virgola mobile a 8 bit che promettono una maggiore accuratezza rispetto al tradizionale FP8, specialmente se sfruttati con le nuove architetture Blackwell di NVIDIA. La domanda posta รจ perchรฉ non ci sia un maggiore interesse nello sviluppare e integrare questi formati, considerando i potenziali benefici in termini di performance e accuratezza.

Per chi valuta deployment on-premise, esistono trade-off tra performance, accuratezza e supporto hardware che vanno considerati attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.