LLM on-premise: quando la VRAM non basta e il modello 'spilla' in RAM
L'esecuzione di Large Language Models (LLM) in ambienti self-hosted presenta sfide significative, in particolare quando la VRAM della GPU è insufficiente. Un utente ha sperimentato questo problema con un modello Gemma 26B (21GB) su una GPU AMD RX6600XT, costringendo il modello a 'spillare' nella RAM di sistema. Questo scenario solleva interrogativi cruciali sul meccanismo di ripartizione del carico tra CPU e GPU e sull'impatto della velocità del bus PCIe e della RAM sulle performance di inference, un aspetto fondamentale per chi valuta deployment on-premise.