📁 Frameworks AI generated

GPT-OSS (20B) eseguito localmente in browser con WebGPU

Pubblicato il 2026-02-13 21:11 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

Esecuzione locale di LLM in browser

È stata rilasciata una demo che dimostra la capacità di eseguire il modello GPT-OSS (20B) completamente in locale all'interno di un browser web. Questa implementazione sfrutta l'API WebGPU, offrendo un'alternativa all'esecuzione remota su server.

Dettagli tecnici

La demo è basata su Transformers.js v4 (in versione di anteprima) e ONNX Runtime Web. Il modello GPT-OSS (20B) è stato ottimizzato e convertito nel formato ONNX per garantire prestazioni adeguate nell'ambiente browser. Sia il codice sorgente della demo che il modello ONNX ottimizzato sono disponibili su Hugging Face.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.

Takeaway AI-Radar

Una demo mostra l'esecuzione di GPT-OSS (20B) interamente in locale all'interno di un browser, sfruttando WebGPU. Il sistema è basato su Transformers.js v4 (anteprima) e ONNX Runtime Web. Il codice sorgente e il modello ONNX ottimizzato sono disponibili su Hugging Face.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

🌐

Vast.ai Marketplace GPU

Marketplace GPU decentralizzato con prezzi ultra-competitivi. Noleggia da una rete globale di provider. Perfetto per sperimentazione, sviluppo e carichi ottimizzati sui costi.

✓ Prezzi minimi ✓ Rete globale ✓ Opzioni flessibili

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Osservatorio

Osservatorio LLM On-Premise

Hardware, stack, governance e architetture di riferimento per l'AI in locale.

Leggi →

LLM Jan 24

LLM: quale modello locale su GPU 24GB nel 2026?

Un utente di LocalLLaMA si interroga sull'evoluzione dei modelli di linguaggio di grandi dimensioni (LLM) eseguibili in locale. Nello specifico, chiede se, a di

Leggi →

LLM May 10

Gemma-4-26b-a4b eccelle nella generazione di codice three.js in un setup locale

Un esperimento condotto da un utente ha messo in luce le notevoli capacità del modello `gemma-4-26b-a4b` nella generazione di codice `three.js` da prompt singol

Leggi →

LLM Jan 19

Agente browser on-device con Qwen: demo in locale su Chrome

Una nuova demo mostra un agente browser locale, basato su Web GPU Liquid LFM e sui modelli Qwen di Alibaba, in esecuzione come estensione di Chrome. L'agente ap

Leggi →

LLM May 11

MiMo-V2.5-GGUF su Hugging Face: le sfide del deployment locale di LLM

Il rilascio del modello MiMo-V2.5 in formato GGUF su Hugging Face, segnalato dalla community LocalLLaMA, solleva interrogativi cruciali sulle capacità hardware

Leggi →

Altro May 06

Gemma 4 26B: Un Nuovo Approccio per LLM Locali con Attenzione Decoupled

Una nuova tecnica promette di superare i limiti di scalabilità dei Large Language Models (LLM) su hardware locale. L'approccio prevede il decoupling del meccani

Leggi →