DeepSeek 发布 OCR 2:让 AI 像人一样读懂复杂文档
DeepSeek 正式开源发布新一代光学字符识别模型 DeepSeek-OCR 2。该模型在 OmniDocBench v1.5 基准测试中取得 91.09% 的综合得分,较前代提升 3.73%,显著领先同类方案。
核心突破在于其全新 DeepEncoder V2 架构,引入“视觉因果流”机制,使模型不再机械地按从左到右、从上到下的固定顺序扫描图像,而是根据语义逻辑动态重排视觉 Token 的处理顺序,更贴近人类的阅读习惯。
具体改进包括:
用轻量级语言模型 Qwen2-500M 替代传统 CLIP 编码器;
引入可学习的“因果流查询”,实现内容感知的视觉信息重组;
仅需 256–1120 个视觉 Token 即可高效覆盖复杂文档页面,降低下游大模型计算负担;
在表格解析、多栏排版、公式识别等任务中,阅读顺序编辑距离从 0.085 降至 0.057;
用户日志中的识别重复率由 6.25% 降至 4.17%。
尽管在超高文本密度的报纸类文档上仍有提升空间,DeepSeek-OCR 2 已展现出强大的工业落地潜力,适用于金融、法律、教育等领域的智能文档处理。该模型现已开源,标志着 OCR 技术从“识别文字”迈向“理解结构”的新阶段。