发帖
客户端
扫码下载

[AI] 通义千问推出Qwen-Image-Edit图像编辑模型,实现语义外观双重精准编辑

[复制链接]
5 |0
数码小喇叭 发表于 前天 14:01 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
通义千问Qwen今日宣布推出Qwen-Image-Edit,这是Qwen-Image的图像编辑版本。该模型基于20B的Qwen-Image模型进一步训练,成功将Qwen-Image独特的文本渲染能力拓展至图像编辑领域,实现了对图片中文字的精准编辑。Qwen-Image-Edit通过将输入图像同时输入到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具了语义与外观的双重编辑能力,用户可以访问Qwen Chat并选择“图像编辑”功能进行体验。

Qwen-Image-Edit的主要特性包括语义与外观双重编辑以及精准文字编辑。语义编辑方面,它支持在保持原始图像视觉语义不变的前提下对图像内容进行修改,如IP创作、物体旋转、风格迁移等,同时允许整体像素变化但保持语义一致。例如,官方以Qwen的吉祥物卡皮巴拉为例进行了展示,编辑后的图像虽然大多数像素与输入图像不同,但依然完美地保持了卡皮巴拉的角色一致性,展现了强大的原创IP多样化创作能力。此外,Qwen-Image-Edit还能实现物体的90度、180度旋转以及风格迁移等多种语义编辑应用。

在外观编辑方面,Qwen-Image-Edit强调在编辑过程中保持图像的部分区域完全不变,实现元素的增、删、改。例如,它可以在图片中成功添加指示牌并生成相应的倒影,或者删除细小的头发丝等微小物体,甚至对图像中指定的字母进行颜色修改。这些功能在人物背景调整、服装更换等场景中也有着广泛的应用。

除了语义和外观编辑外,Qwen-Image-Edit的另一大亮点在于其精准的文字编辑能力。这得益于Qwen-Image在文字渲染方面的深厚积累,使得该模型能够支持中英文双语文字编辑,在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。例如,它可以轻松修改中文海报中的大字和细小文字,也可以精准调整英文文字。

在多个公开基准测试中的评估表明,Qwen-Image-Edit在图像编辑任务上具备SOTA性能,是一个强大的图像编辑基础模型。用户可以通过链式、逐步的编辑方式,利用Qwen-Image-Edit逐步修正图像中的错误,获得理想的最终效果。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表