Ottimizzazione di Qwen3.5 per inference locale

Un utente della community ha condiviso i parametri che sta utilizzando per il modello Qwen3.5, con l'obiettivo di trovare la configurazione ottimale per l'inference in locale. La discussione si concentra sull'utilizzo del modello per attivitร  di conversazione generica, escludendo casi d'uso legati alla programmazione.

Parametri e configurazione

I parametri specificati includono:

  • Temperatura: 0.7
  • Top-p: 0.8
  • Top-k: 20
  • Min-p: 0.00
  • Penalitร  di presenza: 1.5
  • Penalitร  di ripetizione: 1.0
  • Reasoning-budget: 1000
  • Reasoning-budget-message: "... reasoning budget exceeded, need to answer.\n"

L'utente utilizza una quantization Q4_K_M e il motore di inference llama.cpp v8400. Nonostante la configurazione, l'utente riscontra che il modello tende a "pensare troppo", rallentando le consegne.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.