Il team di Qwen ha annunciato Qwen-Image-2.0, un modello che promette di migliorare significativamente la generazione e la modifica di immagini.

Caratteristiche Principali

  • Dimensioni ridotte: Il modello ha una dimensione di 7B parametri, un calo significativo rispetto ai 20B della versione precedente. Questo lo rende più adatto per l'esecuzione su hardware meno potente.
  • Funzionalità unificate: Qwen-Image-2.0 offre generazione e modifica di immagini in un'unica pipeline, eliminando la necessità di modelli separati.
  • Alta risoluzione: Supporta nativamente immagini a 2K (2048x2048) con rendering di texture realistiche.
  • Rendering di testo avanzato: Gestisce il rendering di testo da prompt fino a 1000 token, aprendo la strada alla creazione di infografiche, poster e altro materiale visivo.
  • Generazione di fumetti: Possibilità di generare fumetti multi-pannello (4x6) con personaggi coerenti.

Disponibilità

Attualmente, Qwen-Image-2.0 è disponibile tramite API su Alibaba Cloud (beta a inviti) e tramite una demo gratuita su Qwen Chat. Il rilascio dei pesi del modello è previsto a breve, seguendo la strategia adottata con Qwen-Image v1.

La riduzione delle dimensioni del modello a 7B è un aspetto particolarmente interessante per chi desidera eseguire modelli localmente. La precedente versione da 20B era già popolare in ambienti come ComfyUI, e una versione più leggera con funzionalità migliorate potrebbe ampliare ulteriormente la sua adozione. Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente, come evidenziato dai framework analitici di AI-RADAR su /llm-onpremise.