Un appassionato ha condiviso la propria configurazione hardware per l'esecuzione di modelli di linguaggio di grandi dimensioni (LLM) in locale. Il sistema รจ composto da quattro workstation Lenovo P620, ciascuna dotata di due schede grafiche NVIDIA RTX 3090, per un totale di 192 GB di VRAM.

Dettagli della configurazione

  • Hardware: 4 x Lenovo P620
  • GPU: 8 x NVIDIA RTX 3090 (2 per workstation)
  • VRAM Totale: 192 GB
  • Interconnessione: Rete 10Gbit (upgrade previsto a 100Gbit)
  • Framework: vLLM con Ray
  • Limitazioni: GPU limitate a 200W

Utilizzo

Il cluster viene utilizzato per attivitร  di sviluppo e test di codice, con l'obiettivo di sfruttare la capacitร  di VRAM per l'esecuzione di LLM. L'utente prevede di integrare le CPU (4x 3975WX) e 1TB di RAM in futuro, potenzialmente con llama.cpp o IK-llama.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.