📁 Frameworks AI generated

Kimi-Linear-48B-A3B e Step3.5-Flash disponibili per llama.cpp

Pubblicato il 2026-02-07 08:11 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

Sono state rilasciate le versioni di Kimi-Linear-48B-A3B e Step3.5-Flash compatibili con llama.cpp.

Dettagli

Step3.5-Flash: disponibile alla release b7964.
Kimi-Linear-48B-A3B: disponibile alla release b7957.

Al momento, non risultano ancora disponibili i file GGUF ufficiali per questi modelli su Hugging Face. Tuttavia, la community è al lavoro per renderli disponibili.

Ubergarm ha già rilasciato una versione GGUF per Step-3.5-Flash, disponibile su Hugging Face.

La disponibilità di questi modelli in formati compatibili con llama.cpp facilita l'inference su hardware locale, aprendo nuove possibilità per chi desidera eseguire modelli di linguaggio di grandi dimensioni (LLM) on-premise. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.

Takeaway AI-Radar

Sono state rilasciate le versioni di Kimi-Linear-48B-A3B e Step3.5-Flash compatibili con llama.cpp. Al momento non sono ancora disponibili i file GGUF ufficiali, ma la community sta già lavorando alla loro creazione. La disponibilità di questi modelli amplia le opzioni per l'inference locale.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

⚡

RunPod Piattaforma GPU Cloud

Cloud GPU flessibile con fatturazione al secondo. Deploy istantaneo con supporto Docker, auto-scaling e ampia selezione di GPU da RTX 4090 a H100.

✓ Nessun vincolo ✓ Deploy istantaneo ✓ Pronto produzione

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Guida

Quantizzazione LLM spiegata

Come la quantizzazione riduce VRAM e costi mantenendo la qualità del modello.

Leggi →

Guida

Lo stack software per LLM locali

Runtime, server di inferenza e strumenti per un deployment on-premise.

Leggi →

LLM Jan 22

Hugging Face: i modelli più scaricati della settimana

Hugging Face ha rilasciato diversi modelli che stanno riscuotendo un notevole successo. Tra questi, spiccano GLM-4.7-Flash per la generazione di testo rapida, G

Leggi →

LLM Feb 10

Kimi-Linear-48B-A3B-Instruct: modello LLM e GGUF per contesto esteso

Disponibile un nuovo modello LLM, Kimi-Linear-48B-A3B-Instruct, con un promettente supporto per contesti estesi, superiore a GLM 4.7 Flash. La comunità ha rilas

Leggi →

LLM Feb 10

Step-3.5-Flash: un modello LLM compatto ma potente

Un utente ha segnalato l'efficacia del modello Step-3.5-Flash, evidenziandone le prestazioni superiori rispetto a modelli più grandi come GPT OSS 120B in determ

Leggi →

LLM Jan 20

Implementazione GLM-4.7-Flash in llama.cpp: problemi confermati

Recenti discussioni indicano che l'implementazione di GLM-4.7-Flash in llama.cpp presenta dei problemi. Le differenze significative nelle logprob rispetto a vLL

Leggi →

LLM Feb 02

Step-3.5-Flash: performance superiore con meno parametri

Il modello Step-3.5-Flash, con un'architettura a parametri attivi ridotta (11B su 196B totali), dimostra performance superiori a DeepSeek v3.2 in benchmark di c

Leggi →