复刻OpenAIo1推理大模型,强化学习开源代码LLaMA-O1问世
创始人
2024-11-06 10:22:53

最近,一款复刻OpenAI o1推理大模型的开源项目LLaMA-O1正式发布。该项目来自上海 AI Lab(上海人工智能实验室)团队,其强化学习代码的开源,基于LLaMA开源模型和AlphaGo Zero范式,引起了业界的广泛关注。

LLaMA-O1使用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。这些技术的应用,使得模型在学习和推理过程中能够更加高效地获取知识和提升能力。

早在2024年6月,OpenAI o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力。此后,团队不断升级算法,专注于数学奥赛问题,将其作为OpenAI o1的开源版本。10月初,团队上传新论文,使用成对优化提高Llama模型数学奥赛能力,在AIME2024基准测试中取得了显著的进步。10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAIo1 的努力中取得重大进展,成功使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。

目前已开源的内容包括预训练数据集、预训练模型和强化学习训练代码。其中,OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含一个完整的数学问题推理过程,这为模型的进一步训练提供了丰富的素材。在预训练模型基础上,可以继续进行强化学习训练,其训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验,将经验存储在优先经验回放缓冲区中,从缓冲区采样批次数据进行训练,更新模型参数和经验优先级等步骤。同时,训练代码中还使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、实现GAE算法用于计算优势函数以及使用优先经验回放提高训练效率等关键技术点。

除了LLaMA-O1项目外,上海交通大学团队的o1-Journey项目也在进行OpenAI o1复刻工作,并取得了一定的进展。

LLaMA-O1强化学习开源代码的问世不仅提供新资源与思路,促进大模型数学推理等能力提升,也有利于降低行业门槛,推动创新与竞争,构建更广泛生态系统。此外,它还为数据敏感行业开发垂类模型提供便利,有助于人工智能技术在更多领域落地应用。

相关内容

热门资讯

秦国书同文车同轨 秦国之前的文... 还不知道:七国文字的读者,下面趣历史小编就为大家带来详细介绍,接着往下看吧~秦国的统一,不仅仅是地域...
古代一千年前就有出租车了 古人... 今天趣历史小编给大家准备了:古代的出租车的文章,感兴趣的小伙伴们快来看看吧!古代的马车就和现代的汽车...
宋朝著名的“乌台诗... 今天趣历史小编就给大家带来苏轼的故事,希望能对大家有所帮助。宋神宗元丰二年(1079),在这一年,宋...
药师提醒:这些用药习惯赶紧改   胶囊掰开吃、果汁送药、跟风囤药?错错错!  药师提醒:这些用药习惯赶紧改胶囊较轻且无法立即溶解,...
福清多所学校课间延长至15分钟   14日,记者获悉,本学期起,福清市崇文小学、三山中心小学等福清多所中小学将课间活动时间从原来的1...