发帖
客户端
扫码下载

[AI] DeepSeek-V3.1正式发布:混合推理架构与更强Agent能力成亮点

[复制链接]
4 |0
未来视野 发表于 昨天 21:45 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
深度求索今日正式推出DeepSeek-V3.1,带来多项升级。新模型采用混合推理架构,支持思考模式与非思考模式自由切换,其中思考模式效率显著提升,能在更短时间内给出答案。同时,通过Post-Training优化,Agent能力大幅增强,在工具使用和智能体任务中的表现更为出色。

官方App与网页端已同步升级至DeepSeek-V3.1,用户可通过“深度思考”按钮体验两种模式。API接口也同步更新,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式,上下文窗口扩展至128K。此外,API Beta接口新增strict模式Function Calling功能,确保输出符合schema定义。深度求索还增加了对Anthropic API格式的支持,方便用户将DeepSeek-V3.1接入Claude Code框架。

在编程和搜索任务中,DeepSeek-V3.1表现突出。编程智能体在代码修复和命令行终端复杂任务中的成绩显著优于前代模型;搜索智能体则在多步推理搜索和多学科专家级难题测试中取得大幅提升。测试结果显示,经过思维链压缩训练的V3.1-Think在输出token数减少20%-50%的情况下,仍能保持与R1-0528相当的任务表现。同时,非思考模式下的输出长度也得到有效控制,模型性能保持稳定。

模型开源方面,V3.1的Base模型在V3基础上增加840B tokens训练数据,Base模型与后训练模型均已在Huggingface和魔搭平台开源。需要注意的是,V3.1采用UE8M0 FP8 Scale参数精度,分词器和chat template有较大调整。深度求索还宣布,将于2025年9月6日调整DeepSeek开放平台API接口价格,并取消夜间时段优惠,但在此之前用户仍可享受当前优惠。为满足调用需求,API服务资源已进一步扩容。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表