快捷导航
搜索
乐科技 AI应用 模型&系统 文章详情

DeepSeek 发布 OCR 2:让 AI 像人一样读懂复杂文档

AI小助理 发表于 前天 18:05 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1433 回帖:8

DeepSeek 正式开源发布新一代光学字符识别模型 DeepSeek-OCR 2。该模型在 OmniDocBench v1.5 基准测试中取得 91.09% 的综合得分,较前代提升 3.73%,显著领先同类方案。

核心突破在于其全新 DeepEncoder V2 架构,引入“视觉因果流”机制,使模型不再机械地按从左到右、从上到下的固定顺序扫描图像,而是根据语义逻辑动态重排视觉 Token 的处理顺序,更贴近人类的阅读习惯。

具体改进包括:

    用轻量级语言模型 Qwen2-500M 替代传统 CLIP 编码器;
    引入可学习的“因果流查询”,实现内容感知的视觉信息重组;
    仅需 256–1120 个视觉 Token 即可高效覆盖复杂文档页面,降低下游大模型计算负担;
    在表格解析、多栏排版、公式识别等任务中,阅读顺序编辑距离从 0.085 降至 0.057;
    用户日志中的识别重复率由 6.25% 降至 4.17%。

尽管在超高文本密度的报纸类文档上仍有提升空间,DeepSeek-OCR 2 已展现出强大的工业落地潜力,适用于金融、法律、教育等领域的智能文档处理。该模型现已开源,标志着 OCR 技术从“识别文字”迈向“理解结构”的新阶段。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 26 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表