AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 Frameworks AI generated

NanoLLama: addestramento Llama 3 da zero e export in GGUF

Pubblicato il 2026-02-22 21:02 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ LLM On-Premise 🏷️ Fine-Tuning 🏷️ DevOps

NanoLLama: addestramento Llama 3 da zero e export in GGUF

NanoLLama è un framework che consente di addestrare modelli basati sull'architettura Llama 3 partendo da zero. A differenza del fine-tuning o dell'utilizzo di tecniche LoRA, NanoLLama esegue un pre-training completo, generando un file GGUF compatibile con llama.cpp.

Funzionalità principali

Addestramento semplificato: L'intero processo di addestramento, dal download dei dati all'export in GGUF, viene eseguito con un singolo comando.
Architettura Llama 3: Supporta l'architettura Llama 3 completa, con configurazioni che variano da 46 milioni a 7 miliardi di parametri.
Training multi-corpus: Utilizza un approccio di training multi-corpus, basato sulla ricetta SmolLM2, includendo FineWeb-Edu, DCLM, codice e matematica.
Export GGUF nativo: Esporta direttamente in formato GGUF v3, senza necessità di conversioni tramite HuggingFace o safetensors.
Iniezione di personalità: Permette di addestrare un modello base e un modello con personalità, per poi sottrarre i pesi e ottenere un vettore di personalità portatile.
Motore di inference Go: Include un motore di inference sviluppato in Go (circa 9MB), che legge direttamente i file GGUF, utile quando non è necessario l'intero stack di llama.cpp.

Modelli pre-addestrati

Sono già stati addestrati e verificati diversi modelli, tra cui nano (46M), micro (87M), mini (175M) e small (338M). È in corso l'addestramento di goldie (1.1B), un modello multilingue.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Takeaway AI-Radar

È stato rilasciato NanoLLama, un framework open source per l'addestramento di modelli Llama 3 partendo da zero, senza fine-tuning o LoRA. Il tool permette l'export in formato GGUF compatibile con llama.cpp tramite un singolo comando. Include configurazioni da 46M a 7B parametri, training multi-corpus e un motore di inference Go.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

Railway Infrastruttura Cloud

Piattaforma cloud moderna con deployment istantanei. Deploy da GitHub in secondi con HTTPS automatico, database e monitoring. Perfetta per web app, API e servizi di inferenza LLM.

✓ Integrazione GitHub ✓ HTTPS automatico ✓ Prezzi semplici

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Quantizzazione LLM spiegata

Come la quantizzazione riduce VRAM e costi mantenendo la qualità del modello.

Lo stack software per LLM locali

Runtime, server di inferenza e strumenti per un deployment on-premise.

NVIDIA Nemotron-3 Nano Omni 30B: Un LLM Multimodale per il Deployment Locale

NVIDIA Nemotron-3 Nano Omni 30B: Un LLM Multimodale per il Deployment Locale

NVIDIA ha rilasciato Nemotron-3 Nano Omni 30B, un Large Language Model multimodale capace di elaborare input audio, immagini e testo per generare risposte testu

Qwen3.5-35B-A3B: performance vicina a Claude Opus con verifica continua

Qwen3.5-35B-A3B: performance vicina a Claude Opus con verifica continua

Un modello MoE (Mixture of Experts) chiamato Qwen3.5-35B-A3B, con soli 3 miliardi di parametri attivi, ha raggiunto prestazioni sorprendenti nel benchmark SWE-b

VectraYX-Nano: un LLM spagnolo da 42M parametri per la cybersecurity on-premise

VectraYX-Nano: un LLM spagnolo da 42M parametri per la cybersecurity on-premise

Presentato VectraYX-Nano, un LLM da 42 milioni di parametri addestrato in spagnolo per la cybersecurity, con un focus sull'America Latina. Il modello integra l'

llama.cpp integra il supporto Multi-Tensor Parallelism per Gemma4

Frameworks Jun 07

llama.cpp integra il supporto Multi-Tensor Parallelism per Gemma4

Il progetto `llama.cpp` ha introdotto il supporto per il Multi-Tensor Parallelism (MTP) per i modelli Gemma4. Questo sviluppo è cruciale per le organizzazioni c

Meta lancia Muse, l’AI generativa per immagini che alimenta il suo ecosistema

Meta lancia Muse, l’AI generativa per immagini che alimenta il suo ecosistema

Meta ha rilasciato Muse, un nuovo generatore di immagini basato su AI. Pensato per pubblicità, decorazione e creator, lo strumento si inserisce profondamente ne

Altri articoli in Frameworks

Design-CP: progettare nanoparticelle proteiche su GPU workstation con context parallelism

Dai grafi ai gradienti: spiegabilità ispirata alla fisica per i sistemi IoT

Prompt-to-Paper, l’AI che genera paper scientifici con dati reali

Meituan libera LongCat-2.0: la Cina accelera sullo stack AI domestico

Atrophy: il CLI che misura l’atrofia da AI e allena le skill nella vibe coding

Google espande gli agenti gestiti su Gemini API: più produzione, ma è tutto cloud

→ Vedi tutti in Frameworks →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi