Un appassionato di LLM ha condiviso la propria soluzione per monitorare un server LLM domestico, focalizzandosi sulla visibilitร  delle prestazioni e sulla diagnostica dei crash.

Architettura del sistema

L'architettura si basa su container Docker, includendo:

  • Grafana: per la visualizzazione dei dati.
  • Prometheus: per la raccolta delle metriche.
  • dcgm-exporter: per l'esposizione delle metriche DCGM (Data Center GPU Manager) di NVIDIA.
  • llama-server: il server LLM.
  • go-tapo-exporter: per il monitoraggio del consumo energetico.
  • Un'immagine Docker personalizzata: per l'esposizione dello stato di caricamento dei modelli e per estrarre statistiche dai processi nvidia-smi.

Funzionalitร  del dashboard

Il dashboard di Grafana offre una panoramica completa delle prestazioni del server LLM, con le seguenti metriche:

  • Velocitร  di elaborazione di prompt e token.
  • Utilizzo della GPU e paging della memoria.
  • Consumo energetico.
  • Utilizzo di VRAM e RAM per processo.
  • Throughput di rete e disco.

Inoltre, il dashboard permette di caricare e scaricare direttamente i modelli LLM tramite un'interfaccia grafica interattiva. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.