小红书与复旦大学共同发布了布局控制生成领域的创新方案InstanceAssemble,该技术通过引入“实例组装注意力”机制,实现了从简单布局到复杂场景的高精度图像生成,相关成果已被NeurIPS 2025收录。这项技术标志着AI绘画从“文字生成图像”向“布局控制生成”的跨越式发展——用户可通过指定物体的边界框位置和内容描述,直接控制图像中每个元素的生成位置与语义表达。
传统布局控制生成技术常面临布局错位、语义脱节或计算成本过高等挑战,而InstanceAssemble基于扩散变换器架构的创新设计,成功解决了这些问题。其核心优势在于轻量化适配:仅需约7100万个参数(相当于Stable Diffusion3-Medium模型的3.46%),即可在不重新训练整个模型的情况下实现精准布局控制,适配Flux.1模型时参数需求更低至0.84%。实验数据显示,该技术在包含90万实例的密集布局数据集上表现显著优于现有方法,即使仅使用稀疏布局训练,在密集场景中仍能保持稳健性能。
为量化评估布局与图像的匹配度,研究团队构建了包含5000张图像和9万个实例的“Denselayout”基准测试集,并提出了“Layout Grounding Score”(LGS)评估指标。目前,InstanceAssemble的代码与预训练模型已开源,其精准构图能力可为设计、广告、内容创作等领域提供高效支持,推动AI绘画技术向更可控、更实用的方向演进。 |