FlashLM v5: modello linguistico addestrato su CPU supera la baseline GPU
FlashLM v5, un modello linguistico con 29.7 milioni di parametri, è stato addestrato su una CPU AMD Ryzen 7950X3D in circa 40 ore. Il modello ha raggiunto una perplexity di 1.36, superando la baseline TinyStories-1M (PPL 1.59). L'architettura Parall...