Scoperta dei modelli locali

Un utente ha condiviso la propria esperienza nell'utilizzo di modelli linguistici di grandi dimensioni (LLM) in locale, sottolineando come un solo mese di sperimentazione abbia portato a una comprensione piรน profonda rispetto a due anni di utilizzo di modelli basati su cloud.

L'esperienza รจ iniziata con il modello Qwen2.5, affrontando subito problematiche legate all'overflow del contesto. Questo ha richiesto l'ottimizzazione di parametri come la dimensione del contesto, la temperatura, top-K e top-P. Successivamente, il passaggio a Qwen3 (MLX) ha evidenziato la velocitร  offerta dall'architettura Mixture of Experts (MoE).

Sfide e approfondimenti tecnici

L'utente ha poi approfondito la comprensione della crescita lineare della cache KV e la necessitร  di rilasciare periodicamente il modello dalla memoria. Un'altra scoperta interessante รจ stata la riproducibilitร  degli stati del modello riproponendo lo stesso prompt a un'istanza "fresca" del modello.

Attualmente, l'utente sta sperimentando con Qwen3.5 e osserva che l'utilizzo di memoria non sembra aumentare, nonostante la disabilitazione del reset automatico in LM Studio. Sta valutando la possibilitร  di creare una soluzione condivisa per altri utenti, ma รจ preoccupato per il potenziale consumo di memoria da parte della cache KV.

L'utente esprime il desiderio di avere a disposizione un monitor delle risorse in LM Studio, che fornisca informazioni sul flusso di token, sulla cache KV e sugli expert attivati. Nonostante la conoscenza limitata all'architettura transformer di base, senza ottimizzazioni MoE, l'utente รจ interessato al fine-tuning LoRa, ma non รจ sicuro di avere il tempo necessario.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.