发帖
客户端
扫码下载

[AI] 阿里云通义千问开源新款视觉语言模型

[复制链接]
3 |0
数码小喇叭 发表于 昨天 21:08 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
阿里云通义千问正式宣布开源两款重要模型:Qwen3-VL-30B-A3B-Instruct与Thinking,并同步推出了FP8版本以及超大规模模型Qwen3-VL-235B-A22B的FP8版本。据官方介绍,Qwen3-VL-30B-A3B-Instruct与Thinking模型在保持较小体积的同时,依然展现出强劲的性能,集成了Qwen3-VL的全部能力。仅需30亿激活参数,该模型便能在STEM、视觉问答(VQA)、光学字符识别(OCR)、视频理解以及智能体(Agent)任务等多个领域与GPT-5-Mini和Claude4-Sonnet相媲美,甚至在某些方面表现更优。

Qwen3-VL-30B-A3B-Instruct作为通义千问系列迄今为止最强大的视觉语言模型,在各个方面均实现了全面升级。该模型不仅具备更卓越的文本理解与生成能力,还拥有更深入的视觉感知与推理能力,支持更长的上下文长度,并增强了空间和视频动态理解能力,同时提供了更强大的Agent交互能力。

具体来说,Qwen3-VL-30B-A3B-Instruct的主要增强功能包括:视觉代理能力,能够操作PC和移动端图形用户界面,识别元素、理解功能、调用工具并完成任务;视觉编码增强,支持从图像和视频生成Draw.io、HTML、CSS和JS代码;高级空间感知能力,能够判断对象位置、视角和遮挡情况,为空间推理和具身人工智能提供坚实的2D和3D基础;长上下文与视频理解能力,原生支持256K上下文,可扩展至1M,能够处理书籍和数小时长的视频,并具备完整回忆和秒级索引功能;增强的多模态推理能力,在STEM和数学领域表现出色,能够进行因果分析和提供基于逻辑与证据的答案;升级的视觉识别能力,通过更广泛、更高质量的预训练,能够识别名人、动漫、产品、地标、动植物等各类对象;扩展的OCR功能,支持32种语言,在低光、模糊和倾斜情况下表现稳健,能够更好地处理罕见和古文字以及专业术语,并改进了长文档结构解析;与纯大型语言模型(LLMs)相当的文本理解能力,实现了无缝的文本-视觉融合,达到无损、统一的理解效果。

目前,这两款模型已在魔搭社区和Hugging Face平台上免费开放下载,并同步上线了Qwen Chat服务,供开发者与研究人员深入探索与应用。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表