近日,百度正式发布并开源端到端OCR模型Unlimited OCR,上线后迅速引发全球开发者关注。项目发布次日即登顶GitHub Daily Trending总榜、Python榜,并在HuggingFace全球模型总趋势榜、多模态模型趋势榜均排名第一,实现GitHub、HuggingFace四榜登顶。仅用5天时间,GitHub Star便突破1万,跻身全球增长最快的开源项目之一。

Unlimited OCR面向书籍、论文、报告等长文档解析场景打造,总参数规模3B,推理时激活参数约570M。公开评测显示,该模型在OmniDocBench v1.6基准测试中取得93.92%的综合成绩,刷新端到端OCR最新纪录;在真实文档场景下,其推理速度较DeepSeek OCR提升约12.7%,当输出长度达到6000 Tokens时,速度优势进一步扩大至35%。

技术层面,Unlimited OCR首次引入Reference Sliding Window Attention(R-SWA)机制,突破传统OCR依赖“逐页解析+结果拼接”的方式,实现数十页文档的一次性连续解析,并将解码阶段KV Cache控制在恒定规模,使显存占用和计算成本不再随输出长度持续增长,为长文档解析和大模型长程记忆管理提供了新的技术路径。(袁宁)