通义千问推出Qwen-Image-Edit图像编辑模型，实现语义外观双重精准编辑

数码小喇叭 · 发表于前天 14:01

12 px

26 px

通义千问Qwen今日宣布推出Qwen-Image-Edit，这是Qwen-Image的图像编辑版本。该模型基于20B的Qwen-Image模型进一步训练，成功将Qwen-Image独特的文本渲染能力拓展至图像编辑领域，实现了对图片中文字的精准编辑。Qwen-Image-Edit通过将输入图像同时输入到Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），从而兼具了语义与外观的双重编辑能力，用户可以访问Qwen Chat并选择“图像编辑”功能进行体验。

Qwen-Image-Edit的主要特性包括语义与外观双重编辑以及精准文字编辑。语义编辑方面，它支持在保持原始图像视觉语义不变的前提下对图像内容进行修改，如IP创作、物体旋转、风格迁移等，同时允许整体像素变化但保持语义一致。例如，官方以Qwen的吉祥物卡皮巴拉为例进行了展示，编辑后的图像虽然大多数像素与输入图像不同，但依然完美地保持了卡皮巴拉的角色一致性，展现了强大的原创IP多样化创作能力。此外，Qwen-Image-Edit还能实现物体的90度、180度旋转以及风格迁移等多种语义编辑应用。

在外观编辑方面，Qwen-Image-Edit强调在编辑过程中保持图像的部分区域完全不变，实现元素的增、删、改。例如，它可以在图片中成功添加指示牌并生成相应的倒影，或者删除细小的头发丝等微小物体，甚至对图像中指定的字母进行颜色修改。这些功能在人物背景调整、服装更换等场景中也有着广泛的应用。

除了语义和外观编辑外，Qwen-Image-Edit的另一大亮点在于其精准的文字编辑能力。这得益于Qwen-Image在文字渲染方面的深厚积累，使得该模型能够支持中英文双语文字编辑，在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增、删、改等操作。例如，它可以轻松修改中文海报中的大字和细小文字，也可以精准调整英文文字。

在多个公开基准测试中的评估表明，Qwen-Image-Edit在图像编辑任务上具备SOTA性能，是一个强大的图像编辑基础模型。用户可以通过链式、逐步的编辑方式，利用Qwen-Image-Edit逐步修正图像中的错误，获得理想的最终效果。

[AI] 通义千问推出Qwen-Image-Edit图像编辑模型，实现语义外观双重精准编辑

相关帖子

[AI] 通义千问推出Qwen-Image-Edit图像编辑模型，实现语义外观双重精准编辑

相关帖子

注册