首次,AI下棋不再是「黑盒」!
创始人
2025-05-25 07:51:04
0

新智元报道

编辑:定慧 好困

【新智元导读】上海AI Lab发布升级版大模型「书生·思客InternThinker」,首度打破围棋AI推理黑盒,实现用自然语言解释落子逻辑,具备职业3-5段棋力。依托「通专融合」技术路径和创新训练平台InternBootcamp,构建三层架构体系,推动AI向自我进化、自主科学发现迈进。

围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。

目前,AI虽然在棋力、效率、通用性等方面均取得显著成绩,但其具体推理过程仍处于「黑盒」之中,更无法用人类语言解释其思考过程和结果。

大模型具备良好的自然语言交互性,如何通过提升大模型的推理能力,实现围棋专业能力突破,是摆在科研人员面前的一道难题。

近日,上海人工智能实验室(上海AI Lab)发布新一代书生·思客(InternThinker)。

基于创造性构建的「加速训练营」(InternBootcamp)以及一系列底层技术新进展,InternThinker专业推理能力大幅提升,成为我国首个既具备围棋专业水平,又能展示透明思维链的大模型。

即便面对李世石的「神之一手」(李世石在AlphaGo交战的第四盘78手下在L11,被称为「神之一手」),InternThinker也能给出正确应对策略。

思维链透明

自然语言点评「神之一手」

围棋作为一项具有四千多年历史的智力竞技项目,因其独特的复杂性和对人类智能的深刻体现,可作为衡量人工智能专业能力最具代表性的任务之一。

2016年AlphaGo一战成名,随后,AI在棋力、效率、通用性等方面均有显著提升,但其具体推理过程仍为「黑盒」,即便能输出胜率评估和落子概率,亦无法用人类语言解释「为什么某一步更好」。

典型表现为:AI有时会下出违背人类直觉的「天外飞仙」棋步,事后被证明有效,但当时难以解释。

本次升级后的InternThinker,在围棋任务上不仅具备较强的专业水平,在大模型中率先实现打破思维「黑盒」,运用自然语言就对弈过程进行讲解。

目前InternThinker已开启公测,所有用户均可以随时随地与之对弈。

公测链接:https://internlm-chat.intern-ai.org.cn/

用户在与InternThinker对弈的过程中,大模型化身为循循善诱的「教练」,它能全面地分析当前局面形势,对不同的落子点进行判断和对比,并给出明确的结果,让用户了解每一步棋背后的推理过程和决策依据,从而帮助用户更好地理解和学习围棋。

李世石在与AlphaGo交战的第四盘78手下在L11,被称为「神之一手」,直接扭转局势赢下一局。

在研究人员对这一名局的复现中,InternThinker评价这步棋「相当刁钻……这步棋完美解决L11的威胁,重新确立中央控制权,为后续进攻埋下伏笔。」随后它给出了落子在L10的应对策略。

InternThinker应对李世石「神之一手」

InternThinker还具备多样化的「语言」风格,极具「活人感」。比如,当用户下了一步好棋,它会加油鼓励:「这步棋相当有力,可以说是『以攻代守』的好手」;也会冒出毒舌锐评:「可以说是『不是棋』的选择」。

InternThinker多样化的语言风格

在棋力方面,InternThinker未来仍有提升空间。

新生代世界围棋冠军王星昊九段在与其对弈后评价道:「能解说思考过程的AI还是第一次见,感觉它分析得非常好;从布局看棋力可能在职业3-5段之间。」

「体验」即学习

大模型推理能力提升新范式

InternThinker强大的推理能力及在围棋任务上的突破,得益于其创新的训练环境。

针对复杂的逻辑推理任务,如何准确地获得过程和结果反馈尤为关键,为此,研究人员搭建了大规模、标准化、可扩展的可交互验证环境InternBootcamp——这相当于为模型创造了一个「加速训练营」,使其可以高效习得专业技能,快速「成长」。

InternBootCamp与大模型交互流程

基于代码智能体自动化构造,InternBootCamp包含超1000个验证环境,覆盖广泛的复杂逻辑推理任务,能有效帮助大模型领域研究者基于强化学习开展探索。

InternBootcamp可以批量化、规范化生成难度可控的推理任务,如奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等,并与大模型进行交互和提供反馈。

通过不同专业知识大规模构造和混合训练,使大模型跳出基于数据标注获取问题和答案的繁琐模式,同时避免传统奖励模型的欺骗,从而实现大模型推理能力提升的新范式。

除围棋外,在其他任务中InternThinker也有不俗表现。通过对多种任务的混合强化学习,InternThinker在包括数十个任务的测试集上的平均能力超过o3-mini、DeepSeek-R1以及Claude-3.7-Sonnet等国内外主流推理模型。

InternThinker在包括数十个任务的测试集上的平均能力超过o3-mini、DeepSeek-R1以及Claude-3.7-Sonnet等国内外主流推理模型

甚至在一些任务中性能表现远超当前其他推理大模型。

InternBootcamp已开源,欢迎接入任务,开展更多有价值的探索(开源地址:https://github.com/InternLM/InternBootcamp)。

多任务混合强化学习

迎来「涌现时刻」

值得一提的是,研究人员观察到,在基于InternBootcamp的多任务混合训练过程中,出现了强化学习的「涌现时刻」:

在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练。

除了单独训练Tapa、Unicoder25任务外,研究人员额外选择了几十种任务进行混合训练。

如下图所示:单一训练Tapa等任务并不能成功获得任务的正向反馈;而混合训练各类InternBootcamp任务达一定步数后,InternThinker融合学习了这些推理任务的思考方式,建立起了不同任务间的关联,从而成功获取了Tapa这类任务的正向反馈,实现对该任务的有效学习。

这意味着,随着InternBootcamp任务的数量增加、质量提升和难度加大,大模型有望迎来能力的「升华」,高效解决更多、更难、更具实用性的推理任务,在助力大模型推理能力泛化的同时,加速推动科学发现。

Unicode25任务和Tapa任务「涌现时刻」,其中浅色表示峰值、深色表示均值

通专融合底层技术突破

上述进展得益于近期上海AI Lab在通专融合路线的底层技术和架构方面的一系列创新突破。

从大模型发展历程来看,主要分化为专业性和通用泛化性两大路线。上海AI Lab率先提出通专融合技术路线https://arxiv.org/abs/2407.08642),着力解决大模型高度专业化与通用泛化性相互制约的发展困境。

这一路径的关键在于同步提升深度推理与专业泛化能力,使模型不仅在广泛的复杂任务上表现出色,还能在特定领域中达到专业水平。

上海AI Lab进一步提出通过相互依赖的基础模型层、 融合协同层和探索进化层「三层」技术路径, 可打造「通用泛化性」「高度专业性」「任务可持续性」三者兼得的通用人工智能。

通专融合AGI实现路径

第一层为基础模型层,旨在构建通用泛化基础能力和高密度监督的专业能力。

上海AI Lab团队近期提出全新的「记忆体+解码器」大模型架构Memory Decoder,并实现两个组成部分通过不同的预训练任务分别进行训练。

区别于将所有信息全都编码进decoder的现有Transformer经典大模型架构,该架构实现了通专融合中「知识与推理可分离与自组合」的新一代大模型。

其中,记忆体承担「专」的功能,负责对不同领域知识的可靠记忆;解码器承担「通」的功能,负责通用的语言组织和逻辑;记忆体可经过一次训练后应用于不同基模型。

第二层为融合协同层,通过多路线协同构建比肩人类专家的通专融合能力。团队近期的突破包括:

  • 设计强化学习算法PRIMEhttps://arxiv.org/abs/2502.01456),结合高密度监督信号,有效强化了智能体专精能力的提升效率,为通用群体智能发展铺平了道路。可实现更快速的收敛,同时获取比现有方法高出7%的性能提升。在AIME、MATH等竞赛难度数学题上,仅用少量开源数据,便可使得7B模型的数学能力显著超越OpenAI的GPT-4o。

  • 推出以多任务强化学习为核心的后训练技术框架MoR,聚焦实现多任务的强化学习。针对不同类型任务(例如数学解答和证明、科学问答、推理解谜、主观对话等)进行了算法探索和初步集成验证,实现了多任务强化学习的混合训练。

  • 构建基于结果奖励的强化学习新范式OREALhttps://arxiv.org/abs/2502.06781),着力解决大模型当前面临的「稀疏奖励困境、局部正确陷阱和规模依赖魔咒」三大困局。该算法超越了目前广泛使用的GRPO等方法,定义了一个更广泛的算法设计空间,能将PRIME、DAPO等方法的优点融合入算法框架中,无需蒸馏超大参数规模模型,便实现了轻中量级(7B/32B)模型推理能力的再提升。

第三层为探索进化层,通过自主探索与反馈修正实现AI自我进化闭环。团队近期的突破包括:

  • 测试时强化学习(TTRL)框架https://arxiv.org/abs/2504.16084,有效探索人工智能自主进化的可能路径。TTRL能在没有准确标签的情况下进行奖励估计,驱动模型朝着正确的方向学习有力支持了在减少人工标注依赖方面的潜力,进一步推动强化学习向大规模、无监督方向的持续扩展。

  • 构建分子逆合成新方法Retro-R1,基于大模型+智能体+长推理+强化学习的范式,在多步逆合成问题上展现出了更精准的合成路径规划能力。Retro-R1在不使用任何SFT数据仅使用1万条强化学习数据通过200步训练的情况下就实现了大模型在逆合成推理能力的升级,并在不同领域数据中展现出了出色的泛化能力。

据悉,未来上海AI Lab将系统推进通专融合技术路线的发展与探索,将通专融合的新能力、新进展持续通过InternBootcamp对外开放,加速以新一代通专融合基座模型的方式解决具体科学发现中的关键问题,同时牵引打造垂直领域示范应用案例,为科学发现与产业创新提供关键驱动力。

参考资料:

https://internlm-chat.intern-ai.org.cn/

相关内容

热门资讯

Linux Mint新动向:N... Linux Mint 在最新的月度简讯中向用户通报了一系列重要的更新和改进。这些更新涵盖了Nemo文...
上海最新通知,不得要求家长检查... 5月24日 话题#上海明确不得给家长布置作业# 登上同城热搜第一 5月23日晚间 上海市教委在其官...
谢霆锋接棒岳云鹏,能否助厨邦打... 出品 | 创业最前线作者 | 谢小丹编辑 | 蛋总美编 | 倩倩审核 | 颂文近期,酱油品牌厨邦官宣...
刑侦12|林保怡疯狂剧透! 陈... TVB剧集《刑侦12》热播,主角林保怡、陈自瑶及一众演员今日(24/5)出席剧集宣传活动,但活动上林...
谢晋:3个残疾孩子,临终发现孩... 提起“导演”这个词,许多人脑海里闪过的是张艺谋、陈思诚等如今活跃在银幕前后的名字。但在中国电影史的星...
前海开源沪港深核心资源混合A近... 金融界2025年5月25日消息,前海开源沪港深核心资源混合A(003304) 最新净值3.2140元...
前海开源金银珠宝混合A近一周上... 金融界2025年5月25日消息,前海开源金银珠宝混合A(001302) 最新净值1.7760元,该基...
全国首个开源鸿蒙机器人操作系统... 5月24日,首届深开鸿创新科技大会上,深圳开鸿数字产业发展有限公司(深开鸿)发布全国首个开源鸿蒙的机...
江西抚州:女子晨跑过度突然晕倒... 央视网消息5月22日,江西抚州一名女子晨跑时突然昏迷倒地、呼吸困难,危急时刻,同在跑步的两名当地医院...
CentOS系统上IPIP隧道... 如何通过CentOS搭建IPIP隧道实现网络互联 网络通信中,隧道技术用于解决跨地域组网或异构网络互...
塑料普通话天花板!18年后再追... 曾是网络第一雷剧,被奉为“塑料普通话天花板”,18年后变极品偶像剧,《巴啦啦小魔仙》,堪称时代的眼泪...
中科锦智亮相警博会,以AI赋能... 2025年5月14日—5月17日,第十二届中国国际警用装备博览会(以下简称“警博会”)在北京首钢国际...
原创 当... 在北京海淀区,一堂顶级高中物理课的价值,可能超过偏远地区学生整个学期的学习资源。这种差距不仅体现在师...
首次,AI下棋不再是「黑盒」! 新智元报道 编辑:定慧 好困 【新智元导读】上海AI Lab发布升级版大模型「书生·思客Inter...
西藏一县委书记被查!4月份还在... 文章来源: 青镜台 据西藏自治区纪委监委5月23日消息,西藏自治区日喀则市聂拉木县委原书记、二级巡视...
英国31岁老师在家穿鞋倒地身亡... △帕特里克·格思里 英国伦敦近日公布一起令人心碎的猝死案件调查报告。31岁中学教师帕特里克·格思里于...
律师解读“通报没提黄杨钿甜耳环... 近期,演员黄杨钿甜佩戴230万元“天价耳环”事件引发热议。 5月22日,雅安市联合工作组发布关于网络...
原创 马... 据台海网报道,在赖清德上任一周年之际,台湾地区前领导人马英九近日在台湾“中国文化大学”参加“赖清德执...
原创 输... 输给巴铁后,莫迪政府面子挂不住,转头就在台湾问题上搞小动作。解放军南北三线出击给出答案——有些红线,...
IMDb冲到9.8分,这部年度... 谁能想到,星战宇宙最硬核、最深刻的一部剧,居然没有光剑,没有绝地,连主角都不是个英雄?它低调得几乎没...