NanoChat: un LLM economico

Andrej Karpathy ha presentato NanoChat, un modello di linguaggio che, secondo quanto riportato, supera le performance di GPT-2 con un costo inferiore a 100 dollari. L'addestramento รจ stato eseguito su 8 GPU H100 in sole tre ore.

Dettagli tecnici

Karpathy ha condiviso i dettagli relativi all'architettura del modello, agli ottimizzatori utilizzati e alla configurazione dei dati. รˆ disponibile anche uno script per riprodurre i risultati ottenuti. Questo permette ad altri tecnici di replicare l'esperimento e potenzialmente sviluppare ulteriormente il modello.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.