Unsloth ha introdotto una nuova funzionalità che velocizza l'ottimizzazione fine degli embedding nei modelli di linguaggio. Secondo quanto riportato, l'ottimizzazione risulta da 1.8 a 3.3 volte più rapida, con un consumo di VRAM inferiore del 20% rispetto alle configurazioni FA2.
Dettagli Tecnici
La nuova implementazione di Unsloth permette di gestire contesti più ampi senza sacrificare la precisione. Per l'esecuzione di QLoRA a 4 bit sono sufficienti 3GB di VRAM, mentre per LoRA a 16 bit ne servono 6GB. L'ottimizzazione fine completa, LoRA (16 bit) e QLoRA (4 bit) sono tutte più veloci.
L'ottimizzazione fine dei modelli di embedding può migliorare il retrieval e il RAG, allineando i vettori alla nozione di similarità specifica del dominio, migliorando la ricerca, il clustering e i suggerimenti sui dati.
Modelli Supportati
Unsloth supporta nativamente diversi modelli, tra cui ModernBERT, Qwen Embedding, Embedding Gemma, MiniLM-L6-v2, mpnet e BGE. Altri modelli sono supportati automaticamente.
Dopo l'ottimizzazione fine, è possibile distribuire il modello ottimizzato ovunque: transformers, LangChain, Ollama, vLLM, llama.cpp.
Come Iniziare
Per iniziare, è possibile provare il notebook EmbeddingGemma in un'istanza Colab T4 gratuita. Per ottenere gli ultimi aggiornamenti, è necessario aggiornare Unsloth tramite pip install --upgrade unsloth unsloth_zoo.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!