GPT-OSS (20B) eseguito localmente in browser con WebGPU

Pubblicato il 2026-02-13 21:11 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

Esecuzione locale di LLM in browser

È stata rilasciata una demo che dimostra la capacità di eseguire il modello GPT-OSS (20B) completamente in locale all'interno di un browser web. Questa implementazione sfrutta l'API WebGPU, offrendo un'alternativa all'esecuzione remota su server.

Dettagli tecnici

La demo è basata su Transformers.js v4 (in versione di anteprima) e ONNX Runtime Web. Il modello GPT-OSS (20B) è stato ottimizzato e convertito nel formato ONNX per garantire prestazioni adeguate nell'ambiente browser. Sia il codice sorgente della demo che il modello ONNX ottimizzato sono disponibili su Hugging Face.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.

Takeaway AI-Radar

Una demo mostra l'esecuzione di GPT-OSS (20B) interamente in locale all'interno di un browser, sfruttando WebGPU. Il sistema è basato su Transformers.js v4 (anteprima) e ONNX Runtime Web. Il codice sorgente e il modello ONNX ottimizzato sono disponibili su Hugging Face.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

🚂

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.