DeepSeek开源3B OCR模型:97%精度刷新长文本压缩极限
创始人
2025-10-21 10:22:54

10月21日消息,据媒体报道,DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。

据介绍,DeepSeek-OCR的参数量约为3B,是研究团队对“光学二维映射压缩”技术在长文本上下文处理中可行性的首次探索。

该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。

实验数据显示,当文本token数量控制在视觉token的10倍以内(压缩率<10 x )时,OCR识别精度可达97%;即使压缩率提升至20×,模型准确率仍能维持在60%左右。

研究团队表示,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方向。

【来源:快科技】

相关内容

热门资讯

温福高铁、厦门地铁6号线,有新... 近日,温福高铁、厦门地铁6号线有新进展,一起来看↓ 温福高铁柘荣隧道进洞施工 3月8日,新建温福...
六一儿童节联欢会主持词参考 乡... 六一儿童节联欢会主持词参考  男:亲爱的老师  女:亲爱的小朋友们  合:大家——上—午—好!  男...
庆六一迎党委政府慰问的主持词例... 庆六一迎党委政府慰问的主持词例文  一、 欢迎领导入场  (学生掌声、鼓号队、花环、彩旗)  主持人...
校学生会培训大会的主持词范文 ... 校学生会培训大会的主持词范文  尊敬的xx主席,亲爱的各位同事们:  大家中午好!欢迎来到华中科技大...
教代会的主持词分析 教代会的主... 教代会的主持词分析  各位代表、同志们:*届教工代表大会,即将开幕了。本次大会,有正式代表?人,列席...