OCR 的新战场是耐力

一台友好的 OCR 机器读取很长的文档流，旁边的编辑正在查看整理后的输出卡片 — 这件事有意思的地方，不只是又多了一个 OCR 模型，而是问题重心正在从“读懂一页”移到“跨很多页仍然保持清醒”。

百度在 GitHub 上发布了 Unlimited-OCR。项目 README 把它称为 “Unlimited OCR Works”，并用 “one-shot long-horizon parsing” 来描述方向。README 还写明：论文在 2026 年 6 月 23 日上线 arXiv，同一天模型也上了 ModelScope；项目在 6 月 22 日被介绍为继续推进 DeepSeek-OCR 的一步。

我的判断是，这个仓库真正值得看，不是因为 OCR 这个词本身又被拿出来讨论，而是因为它把问题放在了长文档上。真实的文档工作流很少是干净的单页演示。它们更像是一堆 PDF、页面图片、表格、重复页眉、超长输出、服务端约束，以及足够多会让脆弱解析器露馅的边角情况。

答案快照

问题	我的判断
发生了什么？	百度为 Unlimited-OCR 开了 GitHub 仓库，并在 README 中链接了 Hugging Face、ModelScope 和 arXiv 论文。
为什么重要？	这个项目明确把目标放在长文档解析上，而不是只做单页 OCR。
技术看点是什么？	arXiv 摘要称，Unlimited OCR 使用 Reference Sliding Window Attention，让解码时的 KV cache 保持恒定。
现实门槛是什么？	README 仍然是开发者向的设置：NVIDIA GPU、Python/CUDA 环境、Transformers 或 SGLang 推理，以及 PDF 转图片流程。

真正有意思的是耐力

最值得注意的不是项目名字，而是它强调的长程解析。OCR 当然要能从页面里读出文本，但更难、也更有价值的问题，是当输出越来越长、文档结构不断累积时，模型还能不能稳定地读下去。

项目链接的 arXiv 摘要把压力说得很直接：LLM 式解码器可以利用语言先验，但输出序列变长后，KV cache 的内存消耗会上升，生成速度也会变慢。论文提出的方案是 Reference Sliding Window Attention，也就是 R-SWA，用它替换解码器中的注意力层，让解码过程中的 KV cache 保持恒定。摘要还称，在 32K 最大长度下，这套设计可以单次前向转写几十页文档。

我不会把摘要里的说法当成生产环境保证。但作为方向，它瞄准的是正确问题。文档 AI 的瓶颈经常不在于能不能读一张裁好的收据，而在于面对很长、很重复、结构又很烦人的文档时，系统能不能坚持到最后。

一个小型 AI 读取器处理很长的页面流，旁边的紧凑记忆盒保持整洁 — 长文档 OCR 不只是识别问题，也是记忆和连贯性问题。

OCR 的新战场是耐力

答案快照

真正有意思的是耐力

README 暴露了真实受众

SGLang 让它更像基础设施

开源信号也值得注意

我的结论

许可

Claude 故障是在测试依赖关系

NVIDIA Halos 把自动驾驶安全推成平台问题

AI 破坏了招聘信号

答案快照

真正有意思的是耐力

README 暴露了真实受众

SGLang 让它更像基础设施

开源信号也值得注意

我的结论

许可

相关新闻

Claude 故障是在测试依赖关系

NVIDIA Halos 把自动驾驶安全推成平台问题

AI 破坏了招聘信号