Unsloth ha introdotto una nuova funzionalità che velocizza l'ottimizzazione fine degli embedding nei modelli di linguaggio. Secondo quanto riportato, l'ottimizzazione risulta da 1.8 a 3.3 volte più rapida, con un consumo di VRAM inferiore del 20% rispetto alle configurazioni FA2.

Dettagli Tecnici

La nuova implementazione di Unsloth permette di gestire contesti più ampi senza sacrificare la precisione. Per l'esecuzione di QLoRA a 4 bit sono sufficienti 3GB di VRAM, mentre per LoRA a 16 bit ne servono 6GB. L'ottimizzazione fine completa, LoRA (16 bit) e QLoRA (4 bit) sono tutte più veloci.

L'ottimizzazione fine dei modelli di embedding può migliorare il retrieval e il RAG, allineando i vettori alla nozione di similarità specifica del dominio, migliorando la ricerca, il clustering e i suggerimenti sui dati.

Modelli Supportati

Unsloth supporta nativamente diversi modelli, tra cui ModernBERT, Qwen Embedding, Embedding Gemma, MiniLM-L6-v2, mpnet e BGE. Altri modelli sono supportati automaticamente.

Dopo l'ottimizzazione fine, è possibile distribuire il modello ottimizzato ovunque: transformers, LangChain, Ollama, vLLM, llama.cpp.

Come Iniziare

Per iniziare, è possibile provare il notebook EmbeddingGemma in un'istanza Colab T4 gratuita. Per ottenere gli ultimi aggiornamenti, è necessario aggiornare Unsloth tramite pip install --upgrade unsloth unsloth_zoo.