Ottimizzazione di Qwen3.5 per inference locale
Un utente della community ha condiviso i parametri che sta utilizzando per il modello Qwen3.5, con l'obiettivo di trovare la configurazione ottimale per l'inference in locale. La discussione si concentra sull'utilizzo del modello per attivitร di conversazione generica, escludendo casi d'uso legati alla programmazione.
Parametri e configurazione
I parametri specificati includono:
- Temperatura: 0.7
- Top-p: 0.8
- Top-k: 20
- Min-p: 0.00
- Penalitร di presenza: 1.5
- Penalitร di ripetizione: 1.0
- Reasoning-budget: 1000
- Reasoning-budget-message: "... reasoning budget exceeded, need to answer.\n"
L'utente utilizza una quantization Q4_K_M e il motore di inference llama.cpp v8400. Nonostante la configurazione, l'utente riscontra che il modello tende a "pensare troppo", rallentando le consegne.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!