AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

Ouro-2.6B-Thinking: inference funzionante per il modello di ByteDance

Pubblicato il 2026-02-21 13:26 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware

Ouro-2.6B-Thinking: inference funzionante per il modello di ByteDance

ByteDance ha rilasciato Ouro-2.6B-Thinking, un modello Universal Transformer ricorrente, che ha presentato difficoltà nell'esecuzione dell'inference.

Architettura e Sfide

L'architettura di Ouro è inusuale: esegue tutti i 48 layer quattro volte per token, per un totale di 192 passaggi effettivi. Le implementazioni GGUF esistenti producevano risultati errati a causa di questa particolarità.

Correzioni Implementate

Sono stati corretti due bug nel file modeling_ouro.py che causavano incompatibilità con Transformers 4.55:

Ereditarietà errata della cache, che generava un AttributeError.
Assenza del metodo get_mask_sizes() richiesto da create_causal_mask().

Performance

Dopo le correzioni, il modello è stato testato con successo. Su una NVIDIA L4, si sono ottenute prestazioni di circa 3.8 token/s con un utilizzo di 5.3 GB di VRAM (float16).

È importante notare che il modello utilizza use_cache=False, il che implica un ricalcolo completo del contesto. Il passaggio della cache KV non funziona correttamente con l'architettura UT a 4 loop.

Takeaway AI-Radar

Risolti i problemi di inference con Ouro-2.6B-Thinking di ByteDance, un modello Universal Transformer ricorrente. La correzione riguarda incompatibilità con Transformers 4.55. Le consegne ora producono risultati validi. Testato su NVIDIA L4 con prestazioni di 3.8 token/s e 5.3 GB di VRAM.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

Transformers v5: Nuova release stabile con boost prestazionale

Frameworks Jan 26

Transformers v5: Nuova release stabile con boost prestazionale

Hugging Face ha rilasciato la versione stabile 5 di Transformers, focalizzata su performance migliorate (in particolare per Mixture-of-Experts), API semplificat

PyTorch per sistemi di raccomandazione: inference ad alta efficienza

Frameworks Feb 05

PyTorch per sistemi di raccomandazione: inference ad alta efficienza

Meta ha sviluppato un sistema di inference per raccomandazioni basato su PyTorch, cruciale per tradurre la ricerca avanzata in servizi di produzione. L'articolo

DeepSpec: DeepSeek open-source per accelerare l'inference con speculative decoding

Frameworks Jun 28

DeepSpec: DeepSeek open-source per accelerare l'inference con speculative decoding

DeepSeek ha rilasciato DeepSpec, una codebase completa per addestrare e valutare modelli “draft” per speculative decoding. I checkpoint coprono Qwen3 e Gemma-4,

L'efficienza dell'Inference LLM: il ruolo cruciale del Cache-Hit Rate

L'efficienza dell'Inference LLM: il ruolo cruciale del Cache-Hit Rate

L'ottimizzazione dell'inference per i Large Language Models è fondamentale per contenere i costi e migliorare le performance. Un'analisi basata sui dati di Open

ARC-AGI-2: Nuovo sistema Transformer per il ragionamento astratto

Frameworks Mar 10

ARC-AGI-2: Nuovo sistema Transformer per il ragionamento astratto

Un nuovo studio presenta un sistema basato su Transformer che migliora le prestazioni nell'Abstraction and Reasoning Corpus (ARC). L'approccio combina inference

Altri articoli in LLM

SenseNova-U1: il modello open per infografiche che puoi eseguire in locale

Migliorare la scrittura creativa dei LLM sfruttando l'entropia

Persona e LLM: perché fine-tuning e steering non sono la stessa cosa

Morale a risorse limitate: il nuovo framework che ridisegna l’etica computazionale

Il divario prestazionale tra modelli aperti e chiusi potrebbe essere illusorio

Giugno 2026: NVIDIA, AMD e Intel guidano la spinta alla quantization per LLM on-premise

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi