Un recente thread online ha sollevato un interrogativo interessante riguardo l'assenza di implementazioni per i formati NVFP8 e MXFP8 all'interno di framework popolari come llama.cpp e VLLM, e più in generale nella comunità open source che si occupa di quantization di modelli.

Il contesto

NVFP8 e MXFP8 sono formati a virgola mobile a 8 bit che promettono una maggiore accuratezza rispetto al tradizionale FP8, specialmente se sfruttati con le nuove architetture Blackwell di NVIDIA. La domanda posta è perché non ci sia un maggiore interesse nello sviluppare e integrare questi formati, considerando i potenziali benefici in termini di performance e accuratezza.

Per chi valuta deployment on-premise, esistono trade-off tra performance, accuratezza e supporto hardware che vanno considerati attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.