DeepSeek-AI团队于今日发布了《DeepSeek-OCR:Contexts Optical Compression》论文,提出了一种利用视觉模态压缩长文本上下文的新方法。据Hugging Face页面信息显示,该模型参数量为3B。此次开源的DeepSeek-OCR模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M两部分组成。其中,DeepEncoder专为高分辨率输入设计,能够在保持低计算激活的同时实现高压缩比,有效控制视觉token数量。实验结果表明,当文本token数量不超过视觉token的10倍(即压缩比低于10×)时,模型OCR精度可达97%;即便压缩比提升至20×,准确率仍能保持在约60%,显示出在历史文档长上下文压缩及大语言模型记忆机制研究中的巨大潜力。此外,DeepSeek-OCR在实际应用中亦表现出色,在OmniDocBench测试中,使用100个视觉token便超越了GOT-OCR2.0(每页256个token),使用不到800个视觉token则优于MinerU2.0(平均每页超过6000个token)。在实际生产环境中,DeepSeek-OCR可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据,具有较高的实际应用价值。 |