Ottimizzare la velocità di elaborazione dei prompt per LLM on-premise: il ruolo del micro-batching
Una recente analisi su `llama.cpp` ha rivelato come l'aumento del micro-batch size (`ubatch`) possa migliorare drasticamente la velocità di prefill dei prompt per Large Language Models parzialmente offloadati su GPU consumer come la RTX 3090. Questo ...