Fine-tuning locale di LLM per autocompletamento
Un appassionato ha dimostrato come sia possibile effettuare il fine-tuning di un modello linguistico di grandi dimensioni (LLM) come Qwen 14B sui propri dati personali per ottenere funzionalitร di autocompletamento su misura. In questo caso, l'utente ha utilizzato la cronologia delle proprie conversazioni su Discord.
Il processo prevede l'estrazione dei dati da Discord tramite uno strumento di scraping, la formattazione dei dati in un formato compatibile con l'addestramento del modello e il fine-tuning del modello utilizzando librerie come Unsloth.ai e QLoRA. L'addestramento รจ stato eseguito su una GPU Kaggle.
Il modello risultante รจ stato poi integrato con Ollama per l'inference locale, consentendo all'utente di ricevere suggerimenti di autocompletamento mentre digita su Discord. Un'estensione di Chrome intercetta l'input dell'utente e lo invia al modello Ollama per generare i suggerimenti.
Il codice del progetto รจ disponibile su GitHub per chi volesse replicare l'esperimento o adattarlo alle proprie esigenze. Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!