Esecuzione locale di LLM in browser

È stata rilasciata una demo che dimostra la capacità di eseguire il modello GPT-OSS (20B) completamente in locale all'interno di un browser web. Questa implementazione sfrutta l'API WebGPU, offrendo un'alternativa all'esecuzione remota su server.

Dettagli tecnici

La demo è basata su Transformers.js v4 (in versione di anteprima) e ONNX Runtime Web. Il modello GPT-OSS (20B) è stato ottimizzato e convertito nel formato ONNX per garantire prestazioni adeguate nell'ambiente browser. Sia il codice sorgente della demo che il modello ONNX ottimizzato sono disponibili su Hugging Face.

Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.