Mini-cluster con 192GB di VRAM per carichi di lavoro AI locali

Un appassionato ha condiviso la propria configurazione hardware per l'esecuzione di modelli di linguaggio di grandi dimensioni (LLM) in locale. Il sistema è composto da quattro workstation Lenovo P620, ciascuna dotata di due schede grafiche NVIDIA RTX 3090, per un totale di 192 GB di VRAM.

Dettagli della configurazione

Hardware: 4 x Lenovo P620
GPU: 8 x NVIDIA RTX 3090 (2 per workstation)
VRAM Totale: 192 GB
Interconnessione: Rete 10Gbit (upgrade previsto a 100Gbit)
Framework: vLLM con Ray
Limitazioni: GPU limitate a 200W

Utilizzo

Il cluster viene utilizzato per attività di sviluppo e test di codice, con l'obiettivo di sfruttare la capacità di VRAM per l'esecuzione di LLM. L'utente prevede di integrare le CPU (4x 3975WX) e 1TB di RAM in futuro, potenzialmente con llama.cpp o IK-llama.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Mini-cluster con 192GB di VRAM per carichi di lavoro AI locali

Dettagli della configurazione

Utilizzo

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Workstation LLM locale con 6 GPU: scalabilità e orchestrazione

Configurazione hardware con 3 GPU V620 per 96GB di VRAM

Workstation dual RTX PRO 6000: benchmark multi-utente e contesti lunghi

👥 Unisciti a 160+ appassionati di AI