科技领域迎来新突破,苹果发表重磅研究论文,详细介绍了其研发的多模态模型“Manzano”。该模型独特之处在于融合了“视觉理解”与“文本生成图像”两大功能,实现了“双修”能力。
此前,行业内仅有少数模型能同时处理视觉理解与图像生成任务,且往往需要在画质与理解力之间做出妥协。研究人员指出,这一难题的核心矛盾在于“视觉分词”方式的不同:AI进行图像理解时倾向于连续的数据流,而图像生成则更依赖离散的数据块。传统模型试图用同一套机制处理这两种截然不同的信号,导致任务冲突,要么理解准确但生成质量差,要么生成效果好但理解有偏差。
为解决这一问题,Manzano模型引入了创新的三段式架构:首先利用“混合视觉分词器”同时生成连续和离散的视觉表示;接着通过大语言模型(LLM)预测图像的语义内容;最后将这些预测结果交给“扩散解码器”进行像素级渲染。这一设计让Manzano既保持了强大的理解能力,又具备了精细的绘图能力,甚至能处理深度估计、风格迁移和图像修复等复杂任务。
测试数据显示,Manzano在处理反直觉、违背物理常识的复杂指令时表现出色。例如,在要求生成“一只鸟在大象下方飞翔”的画面时,其逻辑准确性与OpenAI的GPT-4o及谷歌的Nano Banana模型相当。研究团队还测试了从3亿到300亿参数的不同版本,证实该架构在模型规模扩大时仍能保持高效性能提升。
尽管Manzano目前仍处于研究阶段,尚未直接应用于iPhone或Mac设备,但这一技术突破表明苹果正在构建更强大的底层AI能力。有分析认为,该技术极有可能被整合进未来的“图乐园Image Playground”功能中,为用户带来更智能的修图体验和更具想象力的画面生成能力,进一步巩固苹果在端侧AI领域的领先地位。 |