[AI] DeepSeek R1模型完成小版本升级,性能与幻觉问题显著改善

[复制链接]
24 |0
数码小喇叭 发表于 25-5-29 21:59:19 | 显示全部楼层 |阅读模式    IP属地:广东东莞
DeepSeek R1模型昨日宣布完成小版本升级,当前版本为DeepSeek-R1-0528。用户通过官方网站、App或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本,同时API也已同步更新,调用方式保持不变。

此次升级中,DeepSeek-R1-0528模型在保持使用2024年12月发布的DeepSeek V3 Base模型作为基座的基础上,通过在后训练过程中投入更多算力,显著提升了模型的思维深度与推理能力。更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了优异成绩,整体表现已接近国际顶尖模型,如o3与Gemini-2.5-Pro。

具体来说,DeepSeek-R1-0528在复杂推理任务中的表现有了显著提升。例如,在AIME 2025测试中,新版模型的准确率由旧版的70%提升至87.5%。这一进步得益于模型在推理过程中的思维深度增强,新版模型在解题过程中进行了更为详尽和深入的思考。

此外,新版DeepSeek R1模型还针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%至50%左右,能够更准确地提供可靠结果。

在创意写作方面,更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

工具调用能力方面,DeepSeek-R1-0528支持工具调用(不支持在thinking中进行工具调用),当前模型Tau-Bench测评成绩为airline 53.5% / retail 63.9%,与OpenAI o1-high相当。

同时,DeepSeek-R1-0528在前端代码生成、角色扮演等领域的能力也均有更新和提升。API方面,新版R1 API仍支持查看模型思考过程,并增加了Function Calling和JsonOutput的支持。官方对新版R1 API中max_tokens参数的含义做了调整,现在max_tokens用于限制模型单次输出的总长度(包括思考过程),默认为32K,最大为64K。

此外,官方还蒸馏了DeepSeek-R1-0528的思维链后训练Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。该8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。这一成果对于学术界推理模型的研究和工业界针对小模型的开发具有重要意义。

DeepSeek-R1-0528模型权重已可在Model Scope和Huggingface等平台上下载,此次开源仓库(包括模型权重)仍然统一采用MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表