阿里云通义千问开源新款视觉语言模型

数码小喇叭 · 发表于 25-10-4 21:08:00

12 px

26 px

阿里云通义千问正式宣布开源两款重要模型：Qwen3-VL-30B-A3B-Instruct与Thinking，并同步推出了FP8版本以及超大规模模型Qwen3-VL-235B-A22B的FP8版本。据官方介绍，Qwen3-VL-30B-A3B-Instruct与Thinking模型在保持较小体积的同时，依然展现出强劲的性能，集成了Qwen3-VL的全部能力。仅需30亿激活参数，该模型便能在STEM、视觉问答（VQA）、光学字符识别（OCR）、视频理解以及智能体（Agent）任务等多个领域与GPT-5-Mini和Claude4-Sonnet相媲美，甚至在某些方面表现更优。

Qwen3-VL-30B-A3B-Instruct作为通义千问系列迄今为止最强大的视觉语言模型，在各个方面均实现了全面升级。该模型不仅具备更卓越的文本理解与生成能力，还拥有更深入的视觉感知与推理能力，支持更长的上下文长度，并增强了空间和视频动态理解能力，同时提供了更强大的Agent交互能力。

具体来说，Qwen3-VL-30B-A3B-Instruct的主要增强功能包括：视觉代理能力，能够操作PC和移动端图形用户界面，识别元素、理解功能、调用工具并完成任务；视觉编码增强，支持从图像和视频生成Draw.io、HTML、CSS和JS代码；高级空间感知能力，能够判断对象位置、视角和遮挡情况，为空间推理和具身人工智能提供坚实的2D和3D基础；长上下文与视频理解能力，原生支持256K上下文，可扩展至1M，能够处理书籍和数小时长的视频，并具备完整回忆和秒级索引功能；增强的多模态推理能力，在STEM和数学领域表现出色，能够进行因果分析和提供基于逻辑与证据的答案；升级的视觉识别能力，通过更广泛、更高质量的预训练，能够识别名人、动漫、产品、地标、动植物等各类对象；扩展的OCR功能，支持32种语言，在低光、模糊和倾斜情况下表现稳健，能够更好地处理罕见和古文字以及专业术语，并改进了长文档结构解析；与纯大型语言模型（LLMs）相当的文本理解能力，实现了无缝的文本-视觉融合，达到无损、统一的理解效果。

目前，这两款模型已在魔搭社区和Hugging Face平台上免费开放下载，并同步上线了Qwen Chat服务，供开发者与研究人员深入探索与应用。

[AI] 阿里云通义千问开源新款视觉语言模型

相关帖子

[AI] 阿里云通义千问开源新款视觉语言模型

相关帖子

注册