Deepseek突破AI 训练烧钱魔咒:1/525 成本 MT-Bench 媲美 GPT-4o
创始人
2025-04-08 11:11:17

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本DeepSeek-GRM27B8.35$12,000Nemotron-4340B8.41$1.2 millionGPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

相关内容

热门资讯

有关母爱的唯美句子 对母爱的赞... 母爱不在于惊天动地的壮举,只深深地浸透在每一份思念,每一份叮咛,甚至是每一道目光中。下面是由太阳教育...
全球电力紧张!中国动力斩获南美...   在全球电力供应紧张及海外主机厂燃气轮机产能已售罄至2030年的背景下,中国动力成功获得南美巴西油...
赞美母爱的优美句子 有关母爱优... 母爱是绽放的花朵;母爱是一轮永不落的日头;母爱是永不褪去的颜色。下面小编给大家分享一些赞美母爱的优美...
喜塔腊氏:本可以当上皇后,只因... 一般来讲,在清朝皇室,皇子的嫡福晋是由皇帝亲自指定的,除此之外,每位皇子还有两位侧福晋。侧福晋的来源...
福晶科技股价涨5.04%,华安... 4月10日,福晶科技涨5.04%,截至发稿,报85.81元/股,成交16.76亿元,换手率4.29%...