“对答案+改错题”新训练法让AI数学推理能力大幅提升
创始人
2025-04-10 07:03:45

  近日,谷歌研究院、卡内基梅隆大学与AI代理开发商MultiOn组成的联合团队在《自然-机器学习》期刊发表最新研究成果,证实通过正向与负向合成数据结合训练,可使大语言模型的数学推理能力实现8倍性能提升。这一突破有望缓解全球高质量训练数据短缺危机。

  根据斯坦福大学附属研究机构Epoch AI于2024年3月发布的《全球AI训练数据趋势报告》,当前可用高质量文本训练标记总量约为300万亿个。但以ChatGPT类大模型年均2.5倍的算力增速推算,现有数据储备将在几年内耗尽。因此,合成数据成为重要的替代方案。

  以“对答案+改错题”方法训练AI,提升模型数学推理能力。据了解,研究团队首次系统验证了两种合成数据的协同效应。正向数据由GPT-4、Gemini 1.5Pro等大模型生成超100万条数学问题正确解法,涵盖代数、几何、概率等8大领域,可以理解为由顶尖AI生成的正确解题步骤,旨在让AI“记住”标准解法模板。负向数据则通过人工标注与模型自检,构建包含27万个错误推理步骤的数据库,覆盖逻辑漏洞、计算错误等6类常见失误,旨在预警计算失误、逻辑跳跃等常见错误,并强化因果推理能力。简单来说,正向数据是AI的“标准答案集”,而负向数据是AI的“错题本”。

  此外,与传统方法仅单纯要求AI“尽量答对”,可能导致模型“死记硬背”的情况不同,研究团队创新性地采用了直接偏好优化(DPO)框架。该框架为每个推理步骤赋予动态的“优势值”(Advantage Value),以此反映该步骤相对于理想解决方案的价值,从而让模型学会“避坑”,使得推理效率显著提升。

  研究团队使用DeepSeek-Math-7B和LLaMa2-7B等模型,在GSM8K和MATH数据集上进行了全面测试。结果显示,经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了8倍的提升。这一研究充分展示了合成数据在增强大模型逻辑推理能力方面的巨大潜力。 (吴双)

相关内容

热门资讯

红牌优势为何换不来胜利?卡里克... 对于44岁的迈克尔·卡里克而言,圣詹姆斯公园从来不是一个普通的客场。这里是他出生的地方,是他父亲带着...
美军击沉伊朗军舰逾80人死亡!... 现货黄金周三(3月4日)大幅反弹,中东冲突加剧推升避险需求,而美元回落也给金价提供支持。 现货黄金价...
最新或2023(历届)感恩教育... 感恩教育主题班会一  教学目标:  1、让学生了解父母之爱,感受父母之情,体验亲情的无私和伟大,即让...
最新或2023(历届)小学生感... 小学生感恩教育主题班会活动一  活动目的:  通过本次活动,来培养学生的爱心和孝心,学会感恩,增强对...
最新或2023(历届)九年级感...  九年级感恩教育活动主题班会方案一  感恩是一种文明,一种品德,一种责任。心存感恩,人生才会充满幸福...