OCR 竞争加剧!百度开源新一代 SOTA OCR 模型,性能超越 DeepSeek-OCR2?
创始人
2026-02-03 15:49:30

作者 | 褚杏娟

1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5 中取得全球综合性能第一成绩,整体精度达到 94.5%,超过 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。

PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5 多个关键指标上取得领先表现。其中,表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这表明,PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。

在线使用 /API:https://www.paddleocr.com

开源项目地址:https://github.com/PaddlePaddle/PaddleOCR

模型下载地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

2025 年 10 月 16 日,百度首次发布并开源 PaddleOCR-VL 模型,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。

近半年来,全球主流模型厂商密集布局 OCR 领域。1 月 27 日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查询”机制,并将语言模型融入视觉编码,在 OmniDocBench V1.5 中实现 91.09% 精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型,行业竞争持续加剧。

相关内容

热门资讯

最新或2023(历届)牡丹江医... 最新或2023(历届)牡丹江医学院录取通知书发放时间及开学时间和新生入学指南军训须知办学历史悠久。牡...
最新或2023(历届)黑龙江中... 最新或2023(历届)黑龙江中医药大学录取通知书发放时间及开学时间和新生入学指南军训须知黑龙江中医药...
最新或2023(历届)哈尔滨医... 最新或2023(历届)哈尔滨医科大学录取通知书发放时间及开学时间和新生入学指南军训须知 哈尔滨医科...
最新或2023(历届)东北林业... 最新或2023(历届)东北林业大学录取通知书发放时间及开学时间和新生入学指南军训须知 东北林业...
最新或2023(历届)东北农业... 最新或2023(历届)东北农业大学录取通知书发放时间及开学时间和新生入学指南军训须知东北农业大学是一...