开源5天Star破万，百度发布并开源端到端OCR模型,百度apollo开源模块讲解

近日，百度正式发布并开源端到端OCR模型Unlimited OCR，上线后迅速引发全球开发者关注。项目发布次日即登顶GitHub Daily Trending总榜、Python榜，并在HuggingFace全球模型总趋势榜、多模态模型趋势榜均排名第一，实现GitHub、HuggingFace四榜登顶。仅用5天时间，GitHub Star便突破1万，跻身全球增长最快的开源项目之一。

Unlimited OCR面向书籍、论文、报告等长文档解析场景打造，总参数规模3B，推理时激活参数约570M。公开评测显示，该模型在OmniDocBench v1.6基准测试中取得93.92%的综合成绩，刷新端到端OCR最新纪录；在真实文档场景下，其推理速度较DeepSeek OCR提升约12.7%，当输出长度达到6000 Tokens时，速度优势进一步扩大至35%。

技术层面，Unlimited OCR首次引入Reference Sliding Window Attention（R-SWA）机制，突破传统OCR依赖“逐页解析+结果拼接”的方式，实现数十页文档的一次性连续解析，并将解码阶段KV Cache控制在恒定规模，使显存占用和计算成本不再随输出长度持续增长，为长文档解析和大模型长程记忆管理提供了新的技术路径。（袁宁）