发帖
客户端
扫码下载

[AI] DeepSeek-AI团队发布新论文,提出视觉模态压缩长文本新方法

[复制链接]
9 |0
数码小喇叭 发表于 前天 23:09 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
DeepSeek-AI团队于今日发布了《DeepSeek-OCR:Contexts Optical Compression》论文,提出了一种利用视觉模态压缩长文本上下文的新方法。据Hugging Face页面信息显示,该模型参数量为3B。此次开源的DeepSeek-OCR模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M两部分组成。其中,DeepEncoder专为高分辨率输入设计,能够在保持低计算激活的同时实现高压缩比,有效控制视觉token数量。实验结果表明,当文本token数量不超过视觉token的10倍(即压缩比低于10×)时,模型OCR精度可达97%;即便压缩比提升至20×,准确率仍能保持在约60%,显示出在历史文档长上下文压缩及大语言模型记忆机制研究中的巨大潜力。此外,DeepSeek-OCR在实际应用中亦表现出色,在OmniDocBench测试中,使用100个视觉token便超越了GOT-OCR2.0(每页256个token),使用不到800个视觉token则优于MinerU2.0(平均每页超过6000个token)。在实际生产环境中,DeepSeek-OCR可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据,具有较高的实际应用价值。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表