DeepSeek R1幻觉率降低,用户喊话:想要R2
创始人
2025-05-30 00:20:28
0

2025.05.29

本文字数:1440,阅读时长大约2分钟

导读:报告显示此前 R1模型幻觉率在21%左右。

作者 | 第一财经 刘晓洁

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

海外网友制作的梗图,对当前大模型领域的密集更新进行调侃

相关内容

热门资讯

首届大气科学拔尖学生培养学术论... 中国教育报-中国教育新闻网讯(通讯员 陈兵 记者 阿妮尔)近日,首届大气科学拔尖学生培养学术论坛在南...
华海药业股东周明华解押再质押1... 5月30日,华海药业(600521)发布公告,股东周明华解押再质押1700万股,占其持股的7.58%...
虚假摆拍、发布低俗信息 一批违... 转自:央视新闻  近期,网信部门深入组织开展“清朗·整治短视频领域恶意营销乱象”专项行动,指导短视频...
国家税务总局发布《纳税缴费信用... 5月30日,国家税务总局发布《纳税缴费信用管理办法》,自2025年7月1日起施行。《办法》共六章三十...
教育局官宣!江都中学,新校区投... 据悉,江都中学新校区将于2025年秋学期正式启用!图片来源:江都教育今年暑期,新招收的高一年级直接到...
危地马拉确认此前发现玛雅城市遗... 转自:新华网新华社墨西哥城5月29日电(记者吴昊 翟淑睿)危地马拉城消息:危地马拉文化与体育部29日...
兰州西固“以美育心 向美而行”... 中新网甘肃新闻5月30日电 (安琪)5月30日,兰州西固区“以美育心向美而行”儿童书画作品展在金城公...
哈空调:5月30日召开董事会会... 哈空调(SH 600202,收盘价:5.53元)5月30日晚间发布公告称,公司2025年第五次董事会...
激素类药物诱发白内障致小伙视力... 中新网湖北新闻5月30日电 (彭锦云 冯敏惠子)明明是治疗皮肤病,却把眼睛“整”出了问题!近日,武汉...
明泰铝业:投资者建议公司增持或... 投资者提问:贵司好,贵司近年效益确实不错,但资本市场股价表现有些糟糕,连续几年均低于净资产。贵司股价...
绵阳萌娃在派出所“游乐园”里解... 中新网四川新闻5月30日电 (寇盈)5月29日下午,绵阳市游仙区魏城镇徐家小学四年级的孩子们戴上VR...
上海凌云实业首次回购股份,金额... 上海凌云实业发展股份有限公司于2025年5月31日发布公告,披露了以集中竞价交易方式首次回购公司股份...
尔康制药:关于证券事务代表辞职...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 湖南尔康制药股份有限...
四川31位“爱心妈妈”结对陪伴... 转自:四川在线四川在线记者 李丹为做好省妇联2025年关爱妇女儿童十项民生实事,5月28日,由省妇联...
华工科技:在联接业务方面 今年... 每经AI快讯,华工科技5月30日在互动平台表示,联接业务方面,国内算力光模块业务需求旺盛,订单直线上...
校园里的科技节 转自:草原云与跳舞的机器人互动。5月30日,内蒙古工业大学附属小学举办“矢志创新发展 建设科技强国”...
国际范!今年福州龙舟赛,出现好... 今年福州龙舟赛,一道独特的风景线令人瞩目——好多“洋面孔”!在那激昂的鼓声与奋进的桨影中,他们的身影...
LPG:崩塌后,再论多空分歧 .ct_hqimg {margin: 10px 0;} .hqimg_wrapper {text-a...
浓浓文化味 催热端午假日经济   临近端午假期,全国多地立足传统民俗、创新文化场景,推出了丰富多样的文化活动,满足消费者需求。  ...
2025湖南省乡村文化旅游节启... 中新网湖南新闻5月30日电 (李胜财 苏赛)2025年湖南省乡村文化旅游节(益阳桃江)暨桃江县“紫辰...