È stata rilasciata una versione non censurata del modello linguistico open-source GPT-OSS 120B. Questa versione "aggressiva" è progettata per non rifiutare alcuna query.

Specifiche Tecniche

  • Parametri totali: 117 miliardi
  • Parametri attivi: ~5.1 miliardi (MoE con 128 esperti, top-4 routing)
  • Finestra di contesto: 128K
  • Formato: MXFP4 (precisione nativa del modello)

Il modello è fornito in un singolo file da 61GB e può essere eseguito su una singola GPU H100. Per configurazioni con VRAM inferiore, è possibile scaricare i livelli MoE sulla CPU tramite l'opzione --n-cpu-moe N in llama.cpp. Funziona con llama.cpp, LM Studio, Ollama e altri.

Altri Modelli

Sono disponibili anche versioni non censurate di GPT-OSS 20B, GLM 4.7 Flash e Qwen3 8b VL.

Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off.