📰 正文

阿里巴巴推出 一个超强图像生成AI模型:Qwen-Image ,200亿参数(20B),可以:

生成图像

精细修改图像

最关键的是:它可以在图像中自然地渲染文字(中英文都行)

🧠 它厉害在哪?

🖋️ 1. 超强“图中文字”生成能力(尤其是中文)

Qwen-Image 拥有业内领先的图像内文字生成表现,能实现:

多行文字排布(适用于对联、书法、横幅等)

段落级语义生成与对齐

小字号、高密度场景中的细节精准还原

能把一段中英文、古诗词、广告语、标题等“写”进画面里,而且像真的印上去一样自然!

支持小字体、复杂布局、段落格式

能写毛笔字、横批、竖排字

比目前大多数国外模型更懂 中文排版习惯

一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 “一、Qwen-Image的技术路线: 探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、Qwen-Image的模型特色:1、复杂文字渲染。支持中英渲染、自动布局; 2、精准图像编辑。支持文字编辑、物体增减、风格变换。三、Qwen-Image的未来愿景:赋能专业内容创作、助力生成式AI发展。”

image

A movie poster. The first row is the movie title, which reads “Imagination Unleashed”. The second row is the movie subtitle, which reads “Enter a world beyond your imagination”. The third row reads “Cast: Qwen-Image”. The fourth row reads “Director: The Collective Imagination of Humanity”. The central visual features a sleek, futuristic computer from which radiant colors, whimsical creatures, and dynamic, swirling patterns explosively emerge, filling the composition with energy, motion, and surreal creativity. The background transitions from dark, cosmic tones into a luminous, dreamlike expanse, evoking a digital fantasy realm. At the bottom edge, the text “Launching in the Cloud, August 2025” appears in bold, modern sans-serif font with a glowing, slightly transparent effect, evoking a high-tech, cinematic aesthetic. The overall style blends sci-fi surrealism with graphic design flair—sharp contrasts, vivid color grading, and layered visual depth—reminiscent of visionary concept art and digital matte painting, 32K resolution, ultra-detailed.

image

✏️ 2. 图像编辑不破坏细节,像“高端修图师”

一致性强的图像编辑能力

得益于增强的多任务训练范式(multi-task training paradigm),Qwen-Image 可在进行图像编辑时保持出色的视觉一致性与语义连贯性,广泛支持:

对图中文字进行替换、扩写或删除

图中物体的添加与去除

图像风格迁移、光影调节与姿态变化

你可以让它:

改一段图中文字

加点新东西进去(比如猫、光效、人物)

换一个视觉风格(比如从写实变动漫)

它都能在不破坏整体画面的情况下做到,比很多 PS 修图还细腻自然。

image

🏆 3. 多项评测成绩全球领先

在多个国际权威测评中都拿了第一,例如:

图像生成类评测:画图画得好、图像信息真实清晰

图像编辑类评测:修改后的图自然、原意不变

文本渲染类评测:尤其是中文,识别率、对齐度都远超现有模型(如 GPT-4V)

image

🌍 4. 多语言支持 + 混合文字能力

它不仅能写中文或英文,还可以在一张图里混写:

比如图里有一段英文介绍,也有一段中文介绍,能自然过渡,像真实的双语海报一样

一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 “Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑”

image

英文渲染的case:

Bookstore window display. A sign displays “New Arrivals This Week”. Below, a shelf tag with the text “Best-Selling Novels Here”. To the side, a colorful poster advertises “Author Meet And Greet on Saturday” with a central portrait of the author. There are four books on the bookshelf, namely “The light between worlds” “When stars are scattered” “The slient patient” “The night circus”

image

更小的文字也能保持一致

A man in a suit is standing in front of the window, looking at the bright moon outside the window. The man is holding a yellowed paper with handwritten words on it: “A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by.” There is a cute cat on the windowsill.

image

🧠 5.图像生成能力

支持多种图像风格:

写实风、动漫风、水墨画、科幻风等

场景构造准确,细节丰富,符合创意设计、插画、商业宣传等应用需求

image


📸 看几个例子,你就明白了:

✅ 中文动漫风例子:

场景:“阳光下的中国古街,有人拿着写着‘阿里云’卡片”

它能画出非常有细节的画面:古街、人、牌子、招牌、灯光都很真实,而且“阿里云”三个字写得准确工整!

image

✅ 中文对联例子:

一幅画里挂着一副楹联,上书:

左:“义本生知人机同道善思新”

右:“通云赋智乾坤启数高志远”

横批:“智启通义”

字体飘逸,排版对称,背景细节真实,像真实古宅

image

✅ 英文信息图例子:

中央标题:“Habits for Emotional Wellbeing”(情绪健康好习惯)

六个模块各配图标,写着如:

“Practice Mindfulness(练习正念)”

“Stay Connected(保持联系)”

“Prioritize Sleep(优先睡眠)”

图文布局平衡、颜色和排版都非常漂亮

image

✅ PPT 示例(中文企业PPT风格):

主标题:“通义千问视觉基础模型”

副标题:“原生中文·复杂场景·自动布局”

配图:四张与“梅兰竹菊”相关的国风图

风格统一,像真实发布会幻灯片页面一样专业!

image

✅ 图像理解任务:

Qwen-Image 不仅仅是创建或编辑,它还具备理解能力。它支持一系列图像理解任务,包括目标检测、语义分割、深度和边缘(Canny)估计、新视角合成以及超分辨率。这些功能虽然在技术上各不相同,但都可以视为基于深度视觉理解的智能图像编辑的专门形式。

image

访问 Qwen Chat 并选择“图像生成”功能体验

GitHub:https://github.com/QwenLM/Qwen-Image

技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

模型下载:https://huggingface.co/Qwen/Qwen-Image

API 与演示:

https://wavespeed.ai/models/wavespeed-ai/qwen-image/text-to-image

https://www.liblib.art/modelinfo/c62a103bd98a4246a2334e2d952f7b21?from=sd&versionUuid=75e0be0c93b34dd8baeec9c968013e0c


来源:阿里巴巴推出全新图像生成模型:Qwen-Image 可以精准渲染中英文文字