È stata rilasciata una versione non censurata del modello linguistico open-source GPT-OSS 120B. Questa versione "aggressiva" è progettata per non rifiutare alcuna query.
Specifiche Tecniche
- Parametri totali: 117 miliardi
- Parametri attivi: ~5.1 miliardi (MoE con 128 esperti, top-4 routing)
- Finestra di contesto: 128K
- Formato: MXFP4 (precisione nativa del modello)
Il modello è fornito in un singolo file da 61GB e può essere eseguito su una singola GPU H100. Per configurazioni con VRAM inferiore, è possibile scaricare i livelli MoE sulla CPU tramite l'opzione --n-cpu-moe N in llama.cpp. Funziona con llama.cpp, LM Studio, Ollama e altri.
Altri Modelli
Sono disponibili anche versioni non censurate di GPT-OSS 20B, GLM 4.7 Flash e Qwen3 8b VL.
Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!