[AI] 阿里云更新Qwen3模型,推出非思考模式新版本

[复制链接]
11 |0
黑芝麻H 发表于 昨天 22:58 | 显示全部楼层 |阅读模式    IP属地:广东东莞
阿里云今日对其旗舰版Qwen3模型进行重要更新,推出Qwen3-235B-A22B-FP8非思考模式(Non-thinking)的升级版本,命名为Qwen3-235B-A22B-Instruct-2507-FP8。此次更新基于社区反馈与战略调整,阿里云决定停止混合思考模式,转而分别训练Instruct和Thinking模型以提升性能质量。

新模型在通用能力上实现显著突破,涵盖指令遵循、逻辑推理、文本理解、数学计算、科学分析、编程能力及工具应用等领域。在GQPA知识测评、AIME25数学竞赛基准、LiveCodeBench编程评估、Arena-Hard人类偏好对齐测试及BFCL智能体能力评测中,Qwen3-235B-A22B-Instruct-2507-FP8均展现出超越Kimi-K2、DeepSeek-V3等开源模型及Claude-Opus4-Non-thinking等闭源模型的实力。

技术参数方面,该因果语言模型采用预训练与后训练架构,总参数量达2350亿,激活参数量220亿,配备94层深度网络、64个查询注意力头与4个键值注意力头,集成128个专家模块并激活8个核心专家,支持原生262,144 token超长上下文窗口。FP8版本进一步强化多语言长尾知识覆盖,提升主观任务与开放场景下的用户偏好契合度,文本生成质量与256K长文本理解能力均获增强。

目前,Qwen3-235B-A22B-Instruct-2507-FP8已在魔搭社区与HuggingFace平台同步开源,开发者可访问官方渠道获取模型资源。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表