Automazione di task con Qwen2-0.5B su CPU

Un tecnico ha presentato i risultati del fine-tuning del modello Qwen2-0.5B per l'automazione di task. Il sistema riceve task in linguaggio naturale (es: "copia i log nel backup"), ne identifica il tipo (atomico, ripetitivo, di chiarimento) e genera piani di esecuzione composti da comandi CLI e hotkey.

L'inference avviene interamente in locale su CPU, senza necessitร  di GPU o API cloud. Il modello base รจ Qwen2-0.5B, affinato tramite LoRA su circa 1000 esempi di task personalizzati. La quantization รจ GGUF Q4_K_M (300MB) e l'inference รจ gestita da llama.cpp, con tempi di risposta tra 3 e 10 secondi su processori i3/i5.

Sfide e limitazioni

Le principali sfide durante il training hanno riguardato la qualitร  dei dati, l'overfitting e la gestione del token EOS. La conversione in formato GGUF ha richiesto l'uso del tipo di dato BF16 e la quantization imatrix per ottenere risultati stabili.

Attualmente, il sistema richiede percorsi completi per i file (senza ricerca intelligente), supporta solo l'inference su CPU ed esegue task basilari senza comprensione visiva. Le performance variano: 3-5 secondi su i5 (2018+) con SSD, 5-10 secondi su i3 (2015+) con SSD, e 30-90 secondi su hardware piรน datato (Pentium + HDD).

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare questo processo decisionale.