Ottimizzazione Llama.cpp: -90% dequantization, +22% velocità
Un affinamento open source per Llama.cpp riduce drasticamente il tempo di dequantization della cache KV, accelerando l'inference del modello Qwen3.5-35B-A3B fino al 22.8% su un M5 Max. La tecnica sfrutta la sparsità dell'attenzione, saltando la dequantization per posizioni irrilevanti, con impatto minimo sulla perplexity.