GLM 5.2, velocità in locale: 7.8 token/s con sei RTX 3090 e 90K di contesto
Un utente ha condiviso su Reddit le prime metriche di inference locale del modello GLM 5.2: su sei RTX 3090 con quantization UD-IQ2_M e 90K contesto, genera 7,8 token al secondo. Numeri che accendono il dibattito su cosa serva per eseguire LLM di gra...