LLM Open Source e Inference Locale

2026-03-02 • LocalLLaMA

Jan-Code-4B: un modello compatto ottimizzato per il codice

Il team di Jan ha rilasciato Jan-Code-4B, un modello di piccole dimensioni ottimizzato per attività di programmazione. Basato su Jan-v3-4B-base-instruct, mira a fornire assistenza nello sviluppo di codice, generazione, refactoring e debugging, manten...

#LLM On-Premise #DevOps

2026-03-02 • LocalLLaMA

LLM in locale: prestazioni in crescita con hardware compatto

L'articolo analizza i progressi compiuti nell'esecuzione di modelli linguistici di grandi dimensioni (LLM) in locale, evidenziando come le prestazioni siano migliorate significativamente grazie all'evoluzione dell'hardware. Si confrontano le capacità...

#Hardware #LLM On-Premise #DevOps

2026-03-02 • LocalLLaMA

Qwen 3.5: Attenzione alla Cache KV! Richiede BF16, non FP16

Un avviso per chi utilizza Qwen 3.5 in locale con llama.cpp: la cache KV deve essere impostata manualmente su BF16 (bfloat16) anziché sul valore predefinito FP16 (float16). Test di perplexity su wikitext-2-raw confermano che l'implementazione ufficia...

#LLM On-Premise #Fine-Tuning #DevOps

2026-03-01 • LocalLLaMA

Imminente rilascio del modello Qwen3.5 Small Dense?

Indiscrezioni su Reddit suggeriscono l'imminente rilascio di Qwen3.5 Small Dense. La comunità open source attende con interesse per valutare le performance e le potenziali applicazioni di questo modello.

#Hardware #LLM On-Premise #DevOps

2026-03-01 • LocalLLaMA

LocalLLaMA: cresce l'attesa per nuove funzionalità

Un post su Reddit desta interesse nella comunità LocalLLaMA, con speculazioni sull'arrivo di nuove funzionalità. La discussione evidenzia il crescente interesse per le soluzioni LLM eseguibili in locale.

#Hardware #LLM On-Premise #DevOps

2026-03-01 • LocalLLaMA

Qwen 3.5 27B: il modello cinese migliore sotto i 70B per traduzioni

Un utente di LocalLLaMA riporta che Qwen 3.5 27B offre traduzioni dal cinese paragonabili a GPT-3.5 e Gemini, superando altri modelli fino a 70B. Il modello è stato testato su una configurazione locale con 24GB di VRAM, evidenziando un'ottima resa in...

#LLM On-Premise #DevOps

2026-03-01 • LocalLLaMA

Inference LLM Bare-Metal: Avvio Diretto Senza OS su Dell E6510

Un sviluppatore ha creato un'applicazione UEFI che avvia direttamente un'interfaccia di chat LLM, bypassando il sistema operativo e il kernel. L'intera pila, dal tokenizer al motore di inference, è scritta in C senza dipendenze esterne. Attualmente, ...

#LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

Qwen 3.5-35B-A3B: un modello sorprendente per task di sviluppo

Un utente di Reddit riporta risultati eccezionali con Qwen 3.5-35B-A3B, un modello che ha sostituito GPT-OSS-120B nel suo flusso di lavoro quotidiano. L'utente lo impiega per attività di sviluppo, automazione di processi e analisi di codice, evidenzi...

#Hardware #LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

LocalLLaMA: la community sfida il vendor lock-in nell'AI

Un utente di Reddit elogia la community LocalLLaMA per il suo approccio "fai da te" all'intelligenza artificiale, in contrasto con la tendenza del settore verso soluzioni proprietarie e vendor lock-in. L'utilizzo di GPU consumer come le RTX 3090 per ...

#Hardware #LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

Aggiornamenti mensili sui modelli open-weight più performanti

Una panoramica mensile dei modelli open-weight più performanti, valutati in base alle discussioni e ai benchmark della comunità. L'iniziativa mira a fornire un framework aggiornato delle alternative open source ai modelli proprietari, con un focus su...

#LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

LocalLLaMA: un tuffo nel passato dell'inference LLM locale

Un post su Reddit ricorda i primi tempi di LocalLLaMA, quando far girare modelli di linguaggio localmente era una sfida pionieristica. La discussione evidenzia come la community open source abbia spinto i limiti dell'inference on-premise, aprendo la ...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

LLmFit: uno strumento per scegliere il modello LLM giusto per il tuo hardware

LLmFit è un tool da terminale che aiuta a identificare quale modello LLM si adatta meglio alle risorse hardware disponibili. Analizza RAM, CPU e GPU del sistema, valutando i modelli in base a qualità, velocità e contesto, suggerendo quelli più adatti...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

LocalLLaMA: Un saluto... e il modello risponde!

Un utente di LocalLLaMA ha condiviso un breve video dimostrativo. Il video mostra l'interazione con un modello LLM locale, evidenziando la reattività e la capacità di elaborazione del linguaggio naturale in un ambiente self-hosted. L'esempio sottolin...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Qwen 3.5: modelli da 27B e 35B eccellono nel ragionamento logico

I modelli Little Qwen 3.5 da 27B e Qwen 35B-A3B hanno dimostrato notevoli capacità di ragionamento logico in un benchmark specifico. I risultati, ottenuti tramite lineage-bench, evidenziano come modelli di dimensioni relativamente contenute possano g...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Qwen2.5-Coder-32B: fine-tuning batte ChatGPT 4o nel coding

Un utente ha eseguito il fine-tuning del modello Qwen2.5-Coder-32B, ottenendo performance superiori a ChatGPT 4o nei benchmark di coding. La notizia, diffusa su Reddit, evidenzia il potenziale dei modelli open source quando vengono ottimizzati per ta...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-27 • LocalLLaMA

Ubuntu 26.04 LTS: Ottimizzazione per l'AI Locale

La prossima release di Ubuntu 26.04 LTS si preannuncia focalizzata sull'AI locale, con driver NVIDIA CUDA e AMD ROCm auto-selezionati, inference Snaps per container AI sandboxed e funzionalità di sandboxing per AI Agents. L'obiettivo è semplificare l...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Modelli AI: USA chiusi vs Cina aperti creano dilemmi di sicurezza

Un utente evidenzia la difficoltà di scegliere modelli AI per ambienti con stringenti requisiti di sicurezza nazionale. I modelli statunitensi più avanzati sono spesso proprietari e basati su cloud, mentre quelli cinesi, pur essendo open source, soll...

#LLM On-Premise #DevOps

2026-02-26 • Wired AI

IronCurtain: l'agente AI open source progettato per la sicurezza

IronCurtain è un nuovo progetto open source che mira a proteggere e vincolare gli agenti assistenti AI. L'obiettivo è prevenire comportamenti inattesi o dannosi che potrebbero compromettere la sicurezza dei dati e dei sistemi.

#LLM On-Premise #DevOps

2026-02-26 • LocalLLaMA

Qwen3.5-27B-heretic: modello GGUF disponibile su Hugging Face

Una versione del modello linguistico Qwen3.5-27B, denominata "heretic", è stata resa disponibile in formato GGUF su Hugging Face. Il formato GGUF è progettato per l'inference efficiente su CPU, rendendolo adatto per l'esecuzione di modelli localmente...

#Hardware #LLM On-Premise #DevOps

2026-02-26 • LocalLLaMA

LLM locali imparano e memorizzano: un nuovo approccio

Un ricercatore ha sviluppato un sistema per LLM locali che permette di memorizzare informazioni apprese durante le conversazioni, senza ricorrere a RAG o database esterni. Il sistema, basato sulla modifica dei pesi del modello, funziona anche su un M...

#Hardware #Fine-Tuning #RAG

2026-02-26 • LocalLLaMA

Qwen3.5-35B-A3B: GGUF ottimizzato per GPU da 24GB

Una nuova quantization GGUF per il modello Qwen3.5-35B-A3B promette prestazioni migliorate su GPU con 24GB di VRAM. L'ottimizzazione si concentra sull'utilizzo di tipi di quantization q8_0/q4_0/q4_1 e punta a una maggiore velocità, specialmente con b...

#Hardware #LLM On-Premise

2026-02-24 • LocalLLaMA

Qwen3.5-122B-A10B: Modello Linguistico Open Source su Hugging Face

Il modello linguistico Qwen3.5-122B-A10B è ora disponibile su Hugging Face. Questa versione open source offre nuove opportunità per la ricerca e lo sviluppo di applicazioni di intelligenza artificiale, consentendo un maggiore controllo e personalizza...

#Hardware #LLM On-Premise #DevOps

2026-02-23 • LocalLLaMA

Agenti LLM locali: GPT-OSS 20B alla prova su macOS

Un utente ha sperimentato con successo l'agente Zeroclaw, basato su un modello GPT-OSS 20B eseguito localmente, per interagire con applicazioni macOS, pagine web e file locali. L'utente sottolinea i limiti del modello, come la perdita di focus dopo u...

#LLM On-Premise #DevOps

2026-02-23 • LocalLLaMA

LLM locali: il futuro è nell'inference on-premise?

Un post su Reddit pone una domanda cruciale: in futuro, l'inference dei modelli linguistici di grandi dimensioni (LLM) avverrà prevalentemente in locale? I vantaggi includono controllo totale, privacy e assenza di costi API ricorrenti, a fronte di pr...

#Hardware #LLM On-Premise #DevOps

2026-02-23 • LocalLLaMA

Test di Qwen3-code-next su Mac Studio Ultra: un'analisi

Un utente ha testato Qwen3-code-next su un Mac Studio Ultra con 128GB di RAM, riscontrando prestazioni inizialmente promettenti nello sviluppo di codice. Tuttavia, con l'aumentare della complessità del progetto e del contesto, sono emersi problemi di...

2026-02-22 • LocalLLaMA

NanoLLama: addestramento Llama 3 da zero e export in GGUF

È stato rilasciato NanoLLama, un framework open source per l'addestramento di modelli Llama 3 partendo da zero, senza fine-tuning o LoRA. Il tool permette l'export in formato GGUF compatibile con llama.cpp tramite un singolo comando. Include configur...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-22 • LocalLLaMA

LLM Locali: cresce l'attesa per modelli da 9B e 35B parametri

La community open source focalizzata sull'esecuzione di modelli linguistici di grandi dimensioni (LLM) in locale, tramite l'iniziativa LocalLLaMA, discute attivamente le aspettative per i prossimi modelli da 9 e 35 miliardi di parametri. L'interesse ...

#Hardware #LLM On-Premise #DevOps

2026-02-21 • LocalLLaMA

L'importanza di figure chiave nell'innovazione LLM open source

Un post su Reddit evidenzia l'impatto potenziale di figure di spicco come Andrej Karpathy nello sviluppo di modelli linguistici di grandi dimensioni (LLM) open source. La discussione sottolinea come la presenza di esperti possa accelerare significati...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-21 • LocalLLaMA

GLM-4.7: Modello Distillato per Ragionamento Avanzato in Locale

È disponibile su Hugging Face un modello distillato, denominato GLM-4.7, progettato per offrire capacità di ragionamento avanzate. Questa versione, menzionata da Unsloth, mira a fornire prestazioni elevate in contesti di utilizzo locale. Il modello è...

#Hardware #LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Hugging Face acquisisce GGML e llama.cpp per l'AI locale

Hugging Face ha annunciato l'acquisizione di GGML e llama.cpp, due progetti open source cruciali per l'esecuzione efficiente di modelli di linguaggio di grandi dimensioni (LLM) su hardware consumer. L'obiettivo è garantire lo sviluppo a lungo termine...

#Hardware #LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Hugging Face acquisisce GGML.AI, focalizzata su inference LLM efficiente

Hugging Face ha acquisito GGML.AI, nota per il suo lavoro sull'inference efficiente di modelli linguistici di grandi dimensioni (LLM). L'acquisizione, discussa su Reddit e GitHub, potrebbe portare a una maggiore integrazione delle tecnicie di GGML ne...

#Hardware #LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

SanityBoard: Nuovi Modelli LLM e Agenti Open Source a Confronto

SanityBoard si aggiorna con nuovi risultati di benchmark per modelli come Qwen3.5 Plus, GLM 5 e Gemini 3.1 Pro, oltre a tre nuovi agenti open source per la generazione di codice. L'analisi evidenzia l'importanza dell'infrastruttura e delle caratteris...

#LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

PaddleOCR-VL integrato in llama.cpp per inference locale

Il modello open-source multilingue PaddleOCR-VL è stato integrato in llama.cpp. Questa integrazione permette di eseguire l'inference del modello direttamente su hardware locale, aprendo nuove possibilità per applicazioni OCR con requisiti di privacy ...

#LLM On-Premise #DevOps

2026-02-19 • LocalLLaMA

Llama.cpp: supporto per quantizzazioni IQ_K e IQ_KS

Una pull request a llama.cpp introduce il supporto per gli schemi di quantization IQ*_K e IQ*_KS, derivati dal progetto ik_llama.cpp. Questa implementazione potrebbe portare a modelli più compatti ed efficienti, particolarmente rilevante per l'infere...

#LLM On-Premise #DevOps

2026-02-19 • Microsoft Research

Autenticazione Media: Metodi, Limiti e Prospettive Future

Microsoft Research ha pubblicato un report sull'integrità e l'autenticazione dei media (MIA), esaminando metodi come C2PA, watermarking e fingerprinting. Il documento analizza le vulnerabilità, gli attacchi sociotecnici e le strategie per migliorare ...

#Hardware

2026-02-19 • TechCrunch AI

Mirai: finanziamento da 10 milioni per inference AI su dispositivi

Mirai, startup fondata dai creatori di Reface e Prisma, ha raccolto 10 milioni di dollari per migliorare l'esecuzione di modelli di intelligenza artificiale direttamente su smartphone e laptop. L'obiettivo è ottimizzare l'inference sui dispositivi, r...

#LLM On-Premise #DevOps

2026-02-19 • LocalLLaMA

Visualizzazione Avanzata delle Tecniche di Quantization per LLM Locali

Un utente di Reddit ha ripreso e ampliato un lavoro precedente sulla visualizzazione delle tecniche di quantization, includendo nuovi tipi e misurazioni di PPL/KLD per valutare l'efficienza. Il codice sorgente e alcuni risultati sono disponibili su C...

#LLM On-Premise #DevOps

2026-02-18 • LocalLLaMA

LLM di ByteShape: modelli coder per ogni hardware, incluso Raspberry Pi

ByteShape rilascia Devstral-Small-2-24B e Qwen3-Coder-30B, modelli ottimizzati per diverse piattaforme hardware. Devstral eccelle su GPU RTX 40/50, mentre Qwen3-Coder offre prestazioni su Raspberry Pi 5. La scelta dipende dalle risorse disponibili e ...

#Hardware #LLM On-Premise #DevOps

2026-02-18 • TechCrunch AI

Sarvam porta i suoi modelli AI su feature phone e dispositivi edge

La startup indiana Sarvam sta sviluppando modelli di AI di dimensioni ridotte, pensati per funzionare su dispositivi edge come feature phone, automobili e smart glasses. I modelli, con un footprint di pochi megabyte, possono operare offline e con pro...

#LLM On-Premise #DevOps

2026-02-18 • TechCrunch AI

Sarvam AI punta sull'open source con nuovi modelli linguistici

Il laboratorio indiano Sarvam AI ha presentato una nuova serie di modelli, tra cui modelli linguistici con 30 e 105 miliardi di parametri, un modello text-to-speech, uno speech-to-text e un modello di visione per l'analisi di documenti. Una scommessa...

#LLM On-Premise #DevOps

2026-02-17 • LocalLLaMA

Qwen3.5-397B di Alibaba: modello open-source #3 al mondo

Il modello linguistico di grandi dimensioni (LLM) Qwen3.5-397B di Alibaba ha raggiunto la terza posizione nella classifica dei modelli open-source, secondo l'Artificial Analysis Intelligence Index. Questo risultato sottolinea i progressi nel campo de...

#LLM On-Premise #DevOps

2026-02-16 • LocalLLaMA

Modelli Open Source dominano OpenRouter: un trend in crescita

Secondo recenti dati di OpenRouter, i modelli open source stanno guadagnando terreno nell'utilizzo reale. La tendenza evidenzia una crescente fiducia nelle alternative open per applicazioni di intelligenza artificiale, con implicazioni significative ...

#LLM On-Premise #DevOps

LLM Open Source e Inference Locale

Articoli Correlati