智谱开源GLM-OCR模型：仅0.9B参数，多项基准取得SOTA表现_知识

创始人

2026-02-03 14:47:19

凤凰网科技讯 2月3日，智谱宣布正式发布并开源GLM-OCR。据介绍，该模型仅0.9B参数规模，支持vLLM、SGLang和Ollama部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。

据官方信息，GLM-OCR针对手写体、复杂表格、代码文档、印章识别及多语言混排等场景进行了优化。在效率方面，其处理PDF文档的吞吐量可达1.86页/秒。通过API调用，其定价为0.2元/百万Tokens。

该模型采用“编码器-解码器”架构，集成了自研的CogViT视觉编码器，并采用“版面分析→并行识别”的两阶段技术流程。模型完整SDK与推理工具链已同步开源，适用于高并发及边缘计算场景。

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com