DeepSeek 发布 OCR 2：让 AI 像人一样读懂复杂文档

Lv.9 管理员 主题：1433 回帖：8

DeepSeek 正式开源发布新一代光学字符识别模型 DeepSeek-OCR 2。该模型在 OmniDocBench v1.5 基准测试中取得 91.09% 的综合得分，较前代提升 3.73%，显著领先同类方案。

核心突破在于其全新 DeepEncoder V2 架构，引入“视觉因果流”机制，使模型不再机械地按从左到右、从上到下的固定顺序扫描图像，而是根据语义逻辑动态重排视觉 Token 的处理顺序，更贴近人类的阅读习惯。

具体改进包括：

用轻量级语言模型 Qwen2-500M 替代传统 CLIP 编码器；
引入可学习的“因果流查询”，实现内容感知的视觉信息重组；
仅需 256–1120 个视觉 Token 即可高效覆盖复杂文档页面，降低下游大模型计算负担；
在表格解析、多栏排版、公式识别等任务中，阅读顺序编辑距离从 0.085 降至 0.057；
用户日志中的识别重复率由 6.25% 降至 4.17%。

尽管在超高文本密度的报纸类文档上仍有提升空间，DeepSeek-OCR 2 已展现出强大的工业落地潜力，适用于金融、法律、教育等领域的智能文档处理。该模型现已开源，标志着 OCR 技术从“识别文字”迈向“理解结构”的新阶段。

DeepSeek

版块导航

综合区

AI应用

AI硬件

DeepSeek 发布 OCR 2：让 AI 像人一样读懂复杂文档

相关帖子

最新热门