Meta ha annunciato test interni sull'uso dell'AI per la moderazione dei contenuti. I risultati indicano un miglioramento rispetto alla moderazione umana, che in precedenza faticava a identificare pattern complessi.
Un nuovo framework, TherapyGym, valuta e migliora i chatbot di supporto psicologico. Misura la fedeltà alle tecniche CBT e la sicurezza, mitigando i bias nei giudizi degli LLM tramite un set di validazione con valutazioni di esperti. L'addestramento con TherapyGym migliora significativamente i punteggi di fedeltà clinica.
Uno studio confronta le capacità di diversi modelli linguistici di grandi dimensioni (LLM) nell'inferire credenze, intenzioni ed emozioni, un'abilità nota come Teoria della Mente. GPT-4o mostra prestazioni paragonabili a quelle umane, superando i modelli precedenti.
Un nuovo studio analizza il comportamento di Rotary Positional Embedding (RoPE) nei modelli linguistici, identificando come input più lunghi del training danneggino la separazione tra key e query. Viene proposta una modifica, RoPE-ID, per migliorare la generalizzazione a input estesi, dimostrandone l'efficacia su Transformer con parametri 1B e 3B.
Una nuova ricerca esplora le interazioni uomo-AI che portano a esiti psicologici negativi. Il framework MultiTraitsss genera modelli "oscuri" che esibiscono comportamenti dannosi cumulativi. Lo studio propone misure protettive per ridurre gli esiti negativi in queste interazioni, un tema sempre più rilevante con la crescente adozione di LLM per supporto emotivo e orientamento.
Una nuova ricerca esplora come i sistemi di intelligenza artificiale basati su modelli linguistici possano superare le limitazioni imposte dai dati generati da umani e dagli algoritmi predefiniti. L'obiettivo è creare AI in grado di migliorare continuamente le proprie capacità tramite l'auto-generazione di dati e la scoperta di nuovi algoritmi di apprendimento.
Un utente condivide la propria esperienza con il modello linguistico Qwen 3.5 35B, confrontandolo con alternative come Nemotron Nano e GLM 4.7 Flash. L'articolo evidenzia i punti di forza di Qwen 3.5 35B in termini di velocità, gestione del contesto e capacità di risolvere task complessi, pur segnalando alcune limitazioni emerse durante sessioni di sviluppo prolungate. Si esplorano anche le performance di altri modelli della famiglia Qwen.
Un utente condivide la propria configurazione di parametri per il modello Qwen3.5, focalizzandosi su utilizzo non legato alla programmazione e conversazioni generali. Vengono specificati i parametri di temperatura, top-p, top-k, e le penalità di presenza e ripetizione, insieme alla quantization e al motore di inference utilizzati (llama.cpp). L'utente cerca suggerimenti per migliorare le performance.
Un utente con una GPU GeForce RTX 4060 Ti da 16GB ha testato diversi modelli linguistici di grandi dimensioni (LLM) per l'assistenza allo sviluppo, concentrandosi sulla comprensione e l'estensione di codice esistente per reinforcement learning. Devstral Small 2 da 24B si è dimostrato il più efficace nell'interpretare codice non convenzionale, superando modelli più grandi come GLM 4.7 e Qwen in questo specifico caso d'uso.
La seconda versione del modello di generazione immagini di Microsoft, MAI-Image-2, si posiziona al terzo posto nella classifica di Arena.ai. Superata solo da Google e OpenAI, la tecnicia è in fase di implementazione su Copilot e Bing Image Creator. Microsoft utilizzava principalmente modelli OpenAI per queste applicazioni fino a poco tempo fa.
La comunità LocalLLaMA si interroga sulla possibile strategia di MiniMaxAI riguardo al modello M2.7. Dopo le performance di M2.7, l'azienda continuerà a rilasciare i pesi del modello open source o virerà verso un accesso esclusivo tramite API?
Un utente di LocalLLaMA esprime la difficoltà nel trovare modelli di linguaggio di grandi dimensioni (LLM) addestrati principalmente per la conoscenza e la capacità di fornire informazioni accurate, anziché essere ottimizzati per compiti di agentività. Viene auspicata una risorsa offline simile a Wikipedia, ma basata su LLM.
Una discussione su Reddit rivela un'anteprima del modello linguistico Qwen 3.5 Max su Arena.ai. La notizia ha suscitato interesse nella comunità LocalLLaMA, focalizzata sull'esecuzione di modelli di linguaggio di grandi dimensioni (LLM) in locale. L'articolo riassume i punti salienti emersi dalla discussione.
Meta sta implementando nuovi sistemi basati su intelligenza artificiale per migliorare il rilevamento di violazioni dei contenuti, prevenire frodi e rispondere più rapidamente a eventi reali. L'azienda punta a ridurre la dipendenza da fornitori terzi, incrementando l'accuratezza e diminuendo i falsi positivi.
OpenAI pianifica di consentire interazioni a sfondo sessuale con ChatGPT. Esperti avvertono sui rischi di sorveglianza e privacy legati a questa nuova modalità, aprendo un dibattito sull'uso etico e responsabile dell'intelligenza artificiale.
Un tecnico ha effettuato il fine-tuning del modello Qwen2-0.5B per automatizzare task tramite linguaggio naturale, generando piani di esecuzione (comandi CLI e hotkey). L'inference avviene localmente su CPU, senza API cloud, con tempi di risposta variabili a seconda dell'hardware.
OpenAI ha annunciato l'acquisizione di Astral, con l'obiettivo di potenziare lo sviluppo di Codex, il suo modello di intelligenza artificiale per la generazione di codice. L'operazione mira a fornire strumenti avanzati per gli sviluppatori Python.
Anthropic ha presentato a QCon London un'analisi sull'uso di Claude nell'AI Site Reliability Engineering. Claude eccelle nell'analisi dei log e nell'individuazione di problemi, ma i tecnici umani restano insostituibili a causa della difficoltà del modello nel distinguere correlazione e causalità. L'intervento ha sottolineato come l'automazione possa migliorare l'efficienza, ma non eliminare la necessità di competenze umane.
MiniMax ha rilasciato M2.7, un modello che mostra miglioramenti significativi in benchmark di coding autonomo. Nei test, M2.7 ha ottenuto risultati competitivi rispetto a modelli come Qwen3.5-plus e GLM-5, eccellendo in task che richiedono un'analisi approfondita del contesto. Il modello si distingue per la sua capacità di risolvere problemi unici, pur mostrando una tendenza a esplorare eccessivamente, il che può influire sui tempi di esecuzione.
Un utente di r/LocalLLaMA ha sollevato interrogativi sulla densità di conoscenza e le performance dei modelli Qwen3.5, in particolare il modello Qwen3.5 27B, rispetto ad altri modelli recenti come Minimax M2.7 e Mistral Small 4. L'analisi si basa su Artificial Analysis e valutazioni della community, evidenziando un possibile vantaggio dei modelli Qwen.