Un appassionato ha condiviso la propria configurazione hardware per l'esecuzione di modelli di linguaggio di grandi dimensioni (LLM) in locale. Il sistema รจ composto da quattro workstation Lenovo P620, ciascuna dotata di due schede grafiche NVIDIA RTX 3090, per un totale di 192 GB di VRAM.
Dettagli della configurazione
- Hardware: 4 x Lenovo P620
- GPU: 8 x NVIDIA RTX 3090 (2 per workstation)
- VRAM Totale: 192 GB
- Interconnessione: Rete 10Gbit (upgrade previsto a 100Gbit)
- Framework: vLLM con Ray
- Limitazioni: GPU limitate a 200W
Utilizzo
Il cluster viene utilizzato per attivitร di sviluppo e test di codice, con l'obiettivo di sfruttare la capacitร di VRAM per l'esecuzione di LLM. L'utente prevede di integrare le CPU (4x 3975WX) e 1TB di RAM in futuro, potenzialmente con llama.cpp o IK-llama.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!