OpenAI introduce aggiornamenti per la sicurezza legata alla salute mentale, tra cui controlli parentali, contatti fidati e rilevamento avanzato di situazioni di difficoltà. L'azienda fornisce inoltre un aggiornamento sugli sviluppi legali in corso.
Nel contesto della causa contro OpenAI, Elon Musk ha difeso la sicurezza di xAI paragonandola a ChatGPT. L'affermazione giunge alcuni mesi dopo che Grok, sviluppato da xAI, ha diffuso immagini di nudo non consensuali su X.
Un utente di LocalLLaMA ha condiviso un breve video dimostrativo. Il video mostra l'interazione con un modello LLM locale, evidenziando la reattività e la capacità di elaborazione del linguaggio naturale in un ambiente self-hosted. L'esempio sottolinea la crescente accessibilità e le potenzialità dell'esecuzione di modelli di linguaggio di grandi dimensioni su hardware consumer.
I modelli Little Qwen 3.5 da 27B e Qwen 35B-A3B hanno dimostrato notevoli capacità di ragionamento logico in un benchmark specifico. I risultati, ottenuti tramite lineage-bench, evidenziano come modelli di dimensioni relativamente contenute possano gestire deduzioni complesse a partire da centinaia di premesse.
Un utente ha testato Qwen3.5-35B-A3B-UD-Q6_K_XL su progetti reali, riscontrando risultati positivi. La velocità di generazione dei token è elevata, specialmente su singola GPU. L'esperienza suggerisce un potenziale passaggio a un modello ibrido, con modelli API per la generazione di specifiche e modelli locali per l'esecuzione del lavoro. Si valuta l'investimento in una RTX 6000 Pro.
Un utente ha eseguito il fine-tuning del modello Qwen2.5-Coder-32B, ottenendo performance superiori a ChatGPT 4o nei benchmark di coding. La notizia, diffusa su Reddit, evidenzia il potenziale dei modelli open source quando vengono ottimizzati per task specifici. Questo dimostra come l'accesso a modelli e dati aperti possa portare a risultati competitivi rispetto a soluzioni proprietarie.
Perplexity ha annunciato Perplexity Computer, un sistema che mira a integrare diverse capacità di intelligenza artificiale in un'unica piattaforma. L'obiettivo è semplificare l'accesso e l'utilizzo di funzionalità AI avanzate, ma i dettagli tecnici e le implicazioni architetturali restano da chiarire. La strategia riflette una tendenza verso sistemi AI più completi e integrati.
Un'analisi approfondita dell'architettura di Qwen 3.5 rivela differenze chiave nella distribuzione dei parametri tra i modelli dense (27B) e Mixture of Experts (MoE) (122B e 35B). Il modello dense, pur avendo un footprint parametrico inferiore, compensa con una maggiore profondità e ampiezza della rete, allocando più risorse computazionali per token.
Un utente ha confrontato le performance di Qwen3.5 27B e Devstral Small 2 in scenari di sviluppo reali, focalizzandosi su Next.js e Solidity. I test, eseguiti su hardware dedicato, hanno valutato correttezza, compatibilità e disciplina del codice, evidenziando i punti di forza di ciascun modello in contesti specifici. Qwen3.5 si è dimostrato più efficace con Solidity, mentre Devstral Small 2 ha performato meglio con Next.js.
Un utente condivide la propria esperienza con modelli linguistici locali, evidenziando la curva di apprendimento accelerata rispetto all'utilizzo di soluzioni cloud. L'articolo tocca temi come l'ottimizzazione del contesto, la gestione della cache KV e l'esplorazione di architetture Mixture of Experts.
Un nuovo studio esplora l'uso di LLM, nello specifico GPT-5, per l'analisi del contesto di citazioni testuali. La ricerca si concentra sulla sensibilità dei prompt, variando la loro struttura per valutare come influenzano le interpretazioni del modello. L'obiettivo è capire se gli LLM possono supportare analisi interpretative complesse.
Un nuovo framework, Decoder-based Sense Knowledge Distillation (DSKD), integra risorse lessicali strutturate nell'addestramento di modelli linguistici di grandi dimensioni (LLM) con architettura decoder. Questo approccio migliora le consegne senza richiedere lookup di dizionari in fase di inference, consentendo ai modelli generativi di ereditare semantiche strutturate mantenendo un addestramento efficiente.
Un nuovo sistema di sorveglianza passiva, basato su intelligenza artificiale e grafi, mira a identificare precocemente il rischio di ictus in soggetti ad alto rischio, analizzando i sintomi riportati dai pazienti stessi. L'approccio combina una tassonomia dei sintomi con un modello di machine learning per individuare pattern predittivi.
FIRE è un nuovo benchmark per valutare le capacità degli LLM in ambito finanziario. Include test di conoscenza teorica basati su esami di certificazione e scenari pratici con 3.000 domande. I risultati ottenuti con modelli all'avanguardia, come XuanYuan 4.0, sono stati resi pubblici per favorire la ricerca.
Un nuovo sistema, GYWI, combina grafi di conoscenza degli autori con la generazione aumentata dal recupero (RAG) per fornire un contesto accademico controllabile e percorsi di ispirazione tracciabili per i modelli linguistici di grandi dimensioni (LLM) nella generazione di nuove idee scientifiche. Il sistema è stato valutato con diversi LLM, tra cui GPT-4o e DeepSeek-V3.
Google ha presentato Nano Banana 2, un modello di intelligenza artificiale per la modifica di immagini. Il modello sembra in grado di alterare la realtà delle foto, aprendo nuove possibilità creative, seppur con risultati a volte imprevedibili. Un'analisi delle capacità e dei limiti di questo strumento.
ServiceNow afferma che il suo agente AI interno è in grado di risolvere automaticamente il 90% delle richieste di assistenza IT dei dipendenti. Il sistema è progettato per escludere risposte errate, preferendo l'escalation a un operatore umano in caso di incertezza.
Secondo l'ORCA test, i modelli linguistici di grandi dimensioni (LLM) attuali, pur migliorando, rimangono prediction engine e non sempre forniscono la soluzione corretta ai problemi matematici. Anche Gemini 3 Flash, tra i più performanti, otterrebbe una valutazione mediocre.
Un recente studio di Fortune rivela che i motori di ricerca basati sull'intelligenza artificiale sono inaffidabili nel 60% dei casi. Questo si riflette anche nelle didascalie generate automaticamente, spesso piene di errori e incomprensibili. L'articolo esplora le implicazioni di questa inaffidabilità per l'accessibilità e l'usabilità delle informazioni.
Ricercatori di Stanford e Princeton hanno scoperto che i modelli di AI cinesi tendono più dei corrispettivi occidentali a evitare domande politiche o fornire risposte imprecise. L'articolo analizza le implicazioni di questo fenomeno.