(以下内容从海通国际《中国电子:DeepSeek-OCR2:以“因果阅读顺序”重塑复杂文档理解》研报附件原文摘录)
事件
2026年1月27日,DeepSeek团队正式发布研究论文《DeepSeek-OCR 2:Visual Causal Flow》,并同步开源面向OCR与文档解析场景的专用模型DeepSeek-OCR 2(以下简称DeepSeek-OCR2)。新版模型核心升级在于其视觉编码器DeepEncoder V2的突破性改进,该设计使模型摆脱传统“自上而下、从左至右”的机械式扫描方式,转为依据文档结构特征与语义关联进行动态理解,实现了更贴近人类认知逻辑的图文、表格及公式解析能力,有望显著提升复杂文档处理的准确性与效率。
点评
这次升级抓住了文档理解里最难啃的一块——复杂版式的阅读顺序。在复杂文档(如多栏排版、嵌套表格及公式混杂文本)的处理中,传统OCR及多数视觉语言模型常将图像中的“空间顺序”直接等同于“语义顺序”,导致识别结果出现串行、错位等问题。DeepSeek-OCR 2针对这一核心瓶颈进行了关键改进:以轻量级语言模型Qwen2-500M替代原有的CLIP风格编码器,并引入具备因果注意力的“因果流查询”机制。该设计能够在编码阶段即对视觉token按内容逻辑进行重组,使其在进入解码器前已完成结构理顺,从而实现类似人类“先理解整体布局,再依序阅读内容”的认知过程,显著提升了模型对复杂版面的语义连贯性与识别准确率。
从公开指标看,它已经站进了第一梯队。在权威文档理解基准OmniDocBench v1.5的评测中,DeepSeek-OCR 2的综合得分达到91.09%,较上一代显著提升3.73个百分点;其反映阅读顺序准确性的编辑距离指标由0.085优化至0.057,验证了其“按结构阅读”的技术路径在改善识别连贯性方面的有效性。横向对比来看,尽管当前在该榜单中略低于排名第一的PaddleOCR-VL(92.86%),但差距已收窄至较小区间,表明其整体性能已逼近行业领先水平。尤为值得关注的是模型效率:在同等视觉token预算(1120)条件下,DeepSeek-OCR 2的文档解析编辑距离为0.100,优于Gemini 3 Pro的0.115(该指标数值越低性能越好),体现出其在保持高压缩率的同时并未牺牲识别质量,具备了出色的性能-效率平衡能力。
这个模型对产业落地的意义很直接:更低成本、更强文档解析能力。在性能表现上,该模型对复杂文档页面的处理仅需256至1120个视觉token,极高的信息压缩效率将显著降低下游大模型在处理PDF、扫描文件、财报、研报及合同等材料时的计算负载与处理时延。同时,该模型以Apache-2.0协议开源,参数量为30亿,适中的规模与友好的许可使其易于集成至企业现有流程,可广泛应用于PDF转Markdown、表格与公式结构化抽取、以及RAG知识库构建等场景。从生产环境反馈来看,其在实际线上日志图像与批量PDF处理任务中的文本“重复率”指标显著改善(例如分别从6.25%下降至4.17%、从3.69%下降至2.88%),表明模型在真实业务场景中的识别稳定性与可靠性得到了进一步验证。
从长期想象空间看,DeepSeek-OCR 2更像一次架构方向的试探:将文档的“阅读顺序与结构理解”能力前置至视觉编码器阶段,通过引入因果注意力机制实现视觉信息流的逻辑重排,使后端语言模型能够在更符合人类认知习惯的序列上进行推理。这一架构创新不仅为视觉-语言模型(VLM)的设计提供了新的技术路径,也使其能够作为生成高质量、强结构化训练数据的工具,从而反哺大语言模型的预训练与优化。此外,研发团队清晰界定了当前模型的适用边界,并明确了后续迭代方向(例如针对文本密集的报纸类文档,计划通过局部裁剪优化与专项数据补充进行改善)。这种“问题可归因、优化有路径”的迭代方法论,有助于形成持续、稳定的产品化演进能力,为模型的长期应用与商业化落地奠定了坚实基础。
风险:1)竞争加剧2)供应链风险3)算力成本与商业化变现不及预期风险