百度开源Unlimited OCR：小模型大能量，改写OCR端到端SOTA记录！

转载于 2026-06-23 09:24:33 发布 · 61 阅读

百度开源Unlimited OCR，小模型刷新SOTA记录

就在刚刚，百度开源Unlimited OCR，总参数3B，实际激活仅500M，在大模型时代几乎是个零头。然而，这个小到离谱的模型，在OmniDocBench v1.5上拿下93.23%的综合分，v1.6更是达到93.92%，直接刷新了端到端SOTA。与之同台竞技的235B的Qwen3 - VL拿了89.15，72B的Qwen2.5 - VL拿了87.02，不公布参数量的Gemini - 2.5 Pro也只有88.03，激活参数不到它们零头的Unlimited OCR，把它们全甩在了后面。

Unlimited OCR：一次推理读完几十页

更令人惊叹的是，Unlimited OCR干了件之前没有OCR模型干成过的事：一口气解析40多页文档，不失忆、不降速，一次推理从第一页读到最后一页。目前，模型和代码都已同步上线GitHub和HuggingFace。

为何OCR模型会「逐页失忆」？

说到OCR，现在的模型表现令人意外。它们把原本连贯的长程任务切成几十个互不相干的小任务，靠外部调度器把结果勉强缝起来，就像跑for循环，处理完一页就清空记忆，再从头开始下一页。这本质上只是工程的权宜之计，离真正的智能还差得远。究其原因，随着输出越来越长，标准注意力机制下的KV缓存疯涨，内存吃不消，速度变慢，这才是逼着所有模型逐页处理、频频「失忆」的真正元凶。而人类抄书时会维持连续的认知状态，有「软遗忘」的能力，能在极低认知负荷下扛住超长任务。

R - SWA：将「抄书的秘密」融入注意力

百度想把人类「原文全局可见、记忆只保留最近几行」的注意力方式搬进模型里。顺着这个思路，百度提出了参考滑动窗口注意力（Reference Sliding Window Attention，R - SWA），精确对应人抄书时的注意力模式。具体而言，每生成一个token，R - SWA会看全部「参考token」，保证模型始终「看得见」完整原文，但在输出时只回看前面128个token。Unlimited OCR把所有注意力层换成R - SWA，将KV缓存变成固定容量的队列，每生成一个新token，最老的那个就被挤出去，内存占用始终不变。报告中Flash Attention v3的延迟测试显示，DeepSeek OCR的标准MHA随着解码步数增加，每步耗时稳步攀升，而Unlimited OCR的R - SWA从头到尾一条平线。

DeepEncoder配合，实现高效转录

这里还有一个至关重要的配合——DeepEncoder。这个最初在DeepSeek OCR中登场的编码器，能把一张1024×1024的PDF页面压缩到仅仅256个视觉token，压缩率高达16倍。而且由于视觉token在R - SWA下不参与状态转移，无论文档多长，图像信息都不会退化。配合DeepEncoder的极致压缩和R - SWA的恒定缓存，Unlimited OCR在标准的32K上下文里，一次前向推理就能转录数十页文档。结果显示，同时输入20页文档，转录与原文逐字比对的编辑距离仅0.057；即便输入40页以上，依然控制在0.11以下，衡量重复输出的Distinct - 35高达97%。在OmniDocBench v1.5上，Unlimited OCR拿到93.23%的综合得分，比DeepSeek OCR的87.01%高出6.22个百分点，文本编辑距离从0.073降到0.038，公式CDM从83.37飙到92.61，表格TEDS从84.97升至90.93。在更新的v1.6上，同样以93.92%拿下端到端SOTA。效率方面，输出达到6144个token时，Unlimited OCR的TPS是7847，DeepSeek OCR已经掉到5822，差距高达35%。这是一个500M激活的MoE小模型，在DeepSeek OCR基础上仅继续训练4000步的结果，投入不大，但效果拔群。

神秘技术总监是谁？

这份报告真正有意思的地方，是行文方式。从副标题的语气到技术的叙事，读过DeepSeek那几份技术报告的人会觉得似曾相识。末尾还断言R - SWA是通用解析机制，而OCR只是第一站。核心贡献者三位：Youyang Yin，Huanhuan Liu*（项目leader），YY†（技术总监）。两个人用真名，唯独技术总监挂了个两字母缩写。GitHub致谢栏显示Deepseek - OCR和Deepseek - OCR - 2排在致谢前两位。DeepSeek OCR从一代到二代，核心作者始终是魏浩然、孙耀峰、李宇琨。今年4月DeepSeek发V4，魏浩然已离职。魏浩然阶跃星辰出身，主导开发了端到端OCR最早跑通的开源标杆GOT - OCR2.0，到DeepSeek后搭起整条OCR线。能力、时间线、署名方式都对得上，所以YY大概率就是魏浩然。

百度能否借助新模型再创新高？

过去几年，PaddleOCR几乎是国产OCR的代名词，开源、轻量，产业落地最广。不过之前百度更侧重产业应用，而魏浩然做的是用前沿研究理念重塑OCR范式。一边是产业落地最成熟、场景覆盖最广的工程底座，一边是端到端长程解析最前沿的研究品味，两者叠加，补齐的是一种「既能大规模铺开、又能持续引领范式」的完整能力。百度今年把AIDU人才计划升级为集团级项目、薪酬不设上限。如果魏浩然选了百度，这里有最成熟的产业底座，也有把研究推到前沿的空间和资源。如果他把R - SWA推广到ASR和翻译，百度将拥有一套通用长程解析的技术框架。论文展望里还提到下一步要把上下文窗口训到128K，构建prefill pool让模型学会自动翻页。如果做到了，OCR将不再是识别一页文字，而是理解一整本书。那么，百度能否借助Unlimited OCR在OCR领域再创新高呢？