腾讯混元OCR模型宣布开源 参数仅为1B 多项核心能力达到SOTA效果
创始人
2025-11-25 15:02:10

11月25日,腾讯混元推出全新开源模型 HunyuanOCR,参数仅为1B,依托于混元原生多模态架构打造,获得多项业界OCR应用榜单SOTA(最先进水平)成绩。据介绍,HunyuanOCR 具有高度易用性,不仅体积小,便于部署,得益于混元原生多模态大模型“端到端”的理念设计,各项功能仅需单次前向推理即可直达最优结果,较业界级联方案更高效和便捷,性价比高。

混元OCR专家模型依托于混元原生多模态架构打造,主要由三大部分组建构成:原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型。

不同于其他开源的OCR专家模型或系统,HunyuanOCR模型的训练和推理均采用全端到端范式,通过规模化的高质量应用导向数据,结合在线强化学习,模型表现出了非常稳健的端到端推理能力。

值得注意的是,混元OCR多项核心能力达到SOTA效果,其中在复杂文档解析的OmniDocBench测评中,获得了最高的94.1分,效果超过了谷歌的Gemini3-pro等一众领先的模型;文字检测和识别能力,在自建覆盖了9大应用场景(文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频)的基准上,大幅度领先同类开源模型以及商业OCR模型;在OCRBench榜单上,总得分为860分,以仅仅1B总参数的模型配置,取得了包括通用视觉理解模型在内总参数3B以下的SOTA成绩。

相关内容

热门资讯

工商企业PCA舆情11月第3期... (来源:标普信评)陕西省国资委:对红橙企业不定期下发债务风险月度排查简报,实现带息负债增速及资产负债...
产能竞赛前夜抢先布局供应链,优... 在港股,配售几乎等同于“股价暴击”。多年以来,市场对配售的集体记忆是:折价、抛售、加速下跌,常常远远...
比奶茶好喝,还健康不长胖!它绝... (来源:科普中国)转自:科普中国寒冷的冬天,手里总想捧个热乎乎的东西,这时候,没有什么比一杯热可可更...
都亨同志在京逝世 11月25日,中国科学院国家空间科学中心发布《讣告》称,中国共产党党员、我国空间环境和空间碎片防护领...
境外遥控、家族涉毒,警方用7年... 来源:CCTV今日说法 “我在国外 说实在话还不如回来坐牢 ”从父亲到发小陶光坤(化名),湖北武穴人...