AI模型具备推理能力,它改变了什么?|甲子引力
创始人
2025-12-20 22:45:30

不管黑猫白猫,抓住老鼠就是好猫。

2025年12月3日,「甲子光年」在北京万达文华酒店圆满举办“轰然成势,万象归一”2025甲子引力年终盛典。

在下午的AI模型、基础设施与生态建设专场中,「甲子光年」邀请到五位身处不同位置的关键实践者——中关村科金副总裁刘倩、北电数智CMO杨震、RWKV元始智能COO罗璇、思必驰IOT事业部首席产品官马斌斌、深势科技玻尔技术研发负责人曹凯,围绕《当AI模型具备推理能力,它改变了什么?》这一主题展开深入探讨。

过去一年,以DeepSeek为代表的大模型突破,不仅点燃了技术圈的激情,更将“AI推理能力”从实验室概念推至产业变革的前沿。人们兴奋于其带来的生产力跃升,却也困惑于其背后究竟是真正的认知革命,还是高级的概率把戏。

在这场圆桌讨论中,嘉宾们围绕“真假推理”展开了激烈而坦诚的思想碰撞。一方犀利指出当前模型本质仍是“超级小镇做题家”,另一方则从产业实效出发,强调“黑猫白猫,抓住老鼠就是好猫”。

从金融场景的智能体重构,到医疗诊断的精准赋能;从端侧设备的混合架构探索,到科研范式的闭环革命,我们既看到了现有技术在垂直场景中释放的巨大价值,也触及了其在可解释性、可靠性方面等面临的深层挑战。

更为重要的是,讨论超越了单纯的技术辨析,延伸至人机关系的未来图景:数字员工将如何与人类协作?AI是否会催生“一人公司”的新业态?当机器承担更多推理工作,人类的价值与创造力又将定位何处?

以下是本场圆桌的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。

1.无需纠结于真假推理之辩,关键在于AI能否洞察并解决用户的痛点需求

刘杨楠(主持人):大家下午好。我们回到AI浪潮的起点,聊聊模型。推理能力是过去一年模型迭代的核心,它推动模型创新,也深刻影响底层架构效率与上层应用发展。今天很高兴邀请到几位产业专家,分享他们的实践与思考。首先有请各位嘉宾简单自我介绍。

刘倩:我是刘倩,来自中关村科金,负责产业研发。我在人工智能和大数据领域有十几年经验。中关村科金是一家以AI科技驱动创新增长的公司,成立于2014年,一直致力于运用人工智能技术,为政府与企业客户提供以科技为核心的平台产品和解决方案。

杨震:大家好,我是杨震,北电数智的CMO。我长期从事咨询与数字化转型工作。北电数智是一家年轻的人工智能原生国企,通过“数算模用”全栈布局,推动AI在各产业与企业中的落地。我们在北京、佛山、珠海、马鞍山、云南等地布局,以城市AI底座,结合“一地一策、一业一策”的因地制宜精准赋能模式,切实推动本地产业AI化和AI产业化。

罗璇:大家好,我是罗璇,来自元始智能。此前我在阿里负责机器人与AI产品,目前我们专注于非Transformer架构的研究——我们是全球首个该架构的提出者。2020年启动,如今微软在每台Windows电脑中内置了我们的模型,中国电科大模型也基于我们的架构训练出Speed模型与Agent平台。我们在全球拥有大量开发者,近200篇学术论文基于我们的架构开展研究,也欢迎大家关注这个方向。

马斌斌:大家好,我是思必驰IoT首席产品官马斌斌。思必驰是国内专业的对话式人工智能平台型企业,长期服务B端客户,覆盖汽车、家居、会议办公等行业,客户包括梅赛德斯-奔驰、奥迪、大众、联想、美的、海尔、追觅、科沃斯等众多行业头部企业。去年起,我们结合AI语音技术与大模型进展,推出了面向C端的AI办公本,在垂直场景中取得良好效果,期待与大家分享。

曹凯:大家好,我是曹凯,来自深势科技,负责玻尔产品线的研发。深势科技成立已满七年,是一家从AI for Science起步,围绕科学计算打造全链路工具链的公司。

刘杨楠(主持人):谢谢曹总。几位嘉宾的背景很多元,有的来自产业,有的专注模型,杨总则更偏向基础设施。想请大家从各自角度出发,用一两句话或一个词,分享对过去一年AI推理能力进化的核心感受。

刘倩:我想到的词是“期待”。今年春节前后,DeepSeek的出现可以说让大家过了一个全然不同的春节。整个行业都在加班跟进。在经历前两年的平缓期后,这如同一股新的生命力,带来了新的训练方式、模型能力与应用可能。虽然离通用人工智能还很远,但又为我们打开了新的想象空间。

杨震:我选择“生产力”。自DeepSeek发布以来,推理模型真正开始走向产业、转化为生产力。我们今年4月举办酒仙桥论坛时,主题就叫“AI生产力元年”。现在,我们在医疗、工业、AIGC等多个垂类场景已看到落地案例,AI正逐步在行业中发挥实际作用。

罗璇:我用“假推理”。当前模型所做的“推理”和过去基于符号的逻辑推理完全不同。它本质上是基于概率的概念计算,因此仍会出错。希望大家对现有技术的能力边界有更清晰的认知。

马斌斌:我想分享一位用户的真实反馈。他在使用我们办公本的AI洞察功能后说:“有种后背发凉的感觉,可以深度剖析会议隐藏的问题,并给出切实可行的行动方案,AI就像一个有十年经验的专家在提供建议。”

曹凯:我用一个比喻:当前的推理AI像是一颗超强的CPU,但我们还没有能充分释放其能力的主板、外设和操作系统。

刘杨楠(主持人):谢谢曹总。确实,罗总和产业端同仁的视角存在一定差异。接下来这个问题,想围绕罗总刚才提出的“真假推理”展开。苹果公司的研究团队曾发布一篇题为《思考的幻觉》的论文,重锤质疑主流LLM的推理能力,认为它们只是“记忆性特别好的复读机”。当前市面上大多数模型的“推理”,是否本质上还是高级的概率预测?我们是否在滥用“推理”这个词?

罗璇:接着我刚才的话题,现在的推理更像是一个“超级小镇做题家”。它把全世界的题目和答案都背下来,却不理解解题的逻辑,只是指望在考试时遇到相似的题。这就是目前大模型的基本逻辑。

而人类的思考并非如此。我们通过少量题目就能抽象出解题方法,比如从各种现象中总结出圆的方程。这是符号逻辑的抽象能力,但当前大模型无法实现这一点,它始终依赖概率计算,无法真正抽象出符号逻辑。

符号逻辑的价值在于数据收敛性,不需要海量数据就能发现规律。而当前大模型却需要无限增长的数据量,甚至Scanning Law的失效也被归因于“数据不够用”。这就像说全世界的粮食不够一个人吃一样荒谬。问题究竟出在数据上,还是模型本身?

今天我想强调的是,当前模型与人类的思考、记忆、推理方式都不同,甚至不太符合我对“AI”的原本定义——即创造出能像人一样思考的系统。

RWKV元始智能COO罗璇

刘杨楠(主持人):谢谢罗总,稍后我们再请您从技术层面展开。对于罗总这个观点,其他嘉宾是否有不同看法?刘总,请您先谈谈。

刘倩:首先,可能不是每位都熟悉刚才提到的《思考的幻觉》这篇苹果论文,我先简要介绍一下。这篇论文设计了包括汉诺塔、渡河等四个实验,测试大模型在解题中的表现,得出几个结论:在简单任务(步骤少于5)中,经过推理增强的模型表现反而更差;在复杂任务(如步骤大于6的渡河问题)中模型则完全失效。论文由此认为大模型不具备真正的推理能力,更多是依赖统计概率。

但紧接着,另一篇由Claude与人类专家合著的论文《关于“思考的幻觉”的幻觉》对此提出了反驳。它指出:第一,复杂任务失效是因为模型上下文长度不足,无法处理问题,因此不能以此证明其缺乏推理能力;第二,渡河问题在步骤大于6时本无解,不能通过无解问题否定模型的推理能力;第三,人类同样无法直接推导几千步的汉诺塔,但不能因此说人类没有推理能力。这两篇论文的争锋非常精彩。

从产业角度看,这件事凸显了几个关键点:

第一,如何科学评估大模型本身就是一个挑战。比如第二篇论文提到,若让模型输出可执行的Lua函数(如代码),结果可能是正确的,这说明评测方法至关重要。

第二,任务指令的设计直接影响模型表现——是让它直接输出答案,还是输出一段代码来执行,结果可能大不相同。

第三,将复杂任务合理拆解,而非全部塞入长上下文,更能有效发挥模型能力。

因此我认为,产业界更应关注如何用好现有模型能力,就像自动驾驶分为L2到L5,即便尚未实现L5,也不妨碍其在当前场景中发挥广泛价值。技术总是在演进,未来也可能出现新的形态。

我们不必过度纠结于它是否“真正推理”,而应着重理解技术边界,探索如何在产业中最大化其价值,并推动持续演进。

中关村科金副总裁刘倩

刘杨楠(主持人):谢谢刘总,非常精彩,从产业视角丰富了我们对技术“真伪”的辨析。杨总,我看您刚才对刘总的观点也很认同。

杨震:是的,我来自产业侧,观点会比较务实。我们坚信实践是推动技术进步的主要动力。

关于如何理解“推理”,我的定义是:基于有限信息推导出未知结论。 只要最终能达成结果、创造价值,它是否完全遵循人类的思维路径,其实并不关键。

基于这个定义,再看当前落地的关键:有效的数据和知识在哪里?尤其是在国内,许多高价值数据(如医疗数据、工业场景的生产参数)是封闭的、难以获取的。没有这些,推理无从谈起。

这正是我们致力于解决的问题。例如,我们与中日友好医院合作的皮肤专病大模型,其核心价值不仅在于对海量专病数据的利用,更在于提炼出了数千条诊疗知识。数据可以辅助检测,但真正的诊疗建议需要“推理”。这个模型的准确率目前已接近90%,几乎达到三甲医院主治医师的水平。尽管其底层可能是概率计算,但它创造了等同于人类推理的价值。这本身就非常重要。

第二点,我们并非依赖单一模型工作,而是构建系统化的工作流。比如我们正在搭建的体系:一个通识模型,结合多个垂直的专科模型、知识库以及智能体,并引入评测机制来校验结果的合理性与逻辑性。

以药物研发为例,我们与国家级实验室合作,通过智能体将专家假设拆解为不同任务,由各自领域的专业智能体(如mRNA研究、蛋白质研究)调用相应模型进行分析。之后,还有一个专家智能体负责评审这些分析是否合乎方向,若不通过则打回重做。最终,由智能体整合结论并生成报告。这是一个多智能体协作、层层验证的机制,而非单一模型独立运作。

所以,我们更关注如何通过工程化和系统化的方式,让现有技术在实际场景中可靠地创造价值。

曹凯:非常同意刚才的分享。讨论智能体是否像人类一样推理并非关键,真正的挑战在于大模型已跨越阈值、产生实际效用。当前最重要的问题,是如何让它的输出更可控、可验证,从而成为可靠的科研决策工具。

杨震:接着刚才苹果论文的话题,我们的首席科学家窦德景教授最近有一篇关于可解释深度学习的论文,荣获2025 KAIS最佳论文奖。该论文从可视化、鲁棒性、敏感性等维度梳理现状,并提出一套融合逻辑推理与网络节点的架构体系。这正好回应了刘总提到的解释与推理的问题——模型的可解释性本身正是当前研究的重点。

其次,技术从来不是完美的。从应用层出发,我们并不纠结于它是否成熟,而更关注它能否洞察并解决用户的痛点需求。是真推理还是假推理并不重要——黑猫白猫,能抓到老鼠就是好猫。这才是我们真正关心的。

2.探索技术与产业的边界

刘杨楠(主持人):谢谢马总。几位嘉宾的讨论展现了两个维度:罗总从模型与架构层面探索技术边界,而产业方则在现有技术基础上释放价值,并不断触摸产业边界,这两种路径都极为可贵。

接下来,请罗总从非Transformer架构的视角分享:您认为通用推理能力还需多久实现?以及技术层面如何实现曹总提到的可解释与可靠性,以支撑产业落地?

罗璇:我们开发的RWKV架构,自始就认为Transformer在效果天花板与资源消耗上存在根本局限,其扩展模式已遇到瓶颈。从我们的视角,需解决两个核心问题:

第一,如何从有限数据中高效提取规律——当前Transformer依赖海量数据,效率低下。

第二,如何将规律转化为符号逻辑。我们第八代架构已能让AI内部生成符号语言来描述上下文,这为下一代神经符号架构奠定了基础,也将实现真正的可解释性。

只有基于这样的新架构,才能从根本上解决当前大模型在符号逻辑推理与可解释性上的局限。

我想引用杨振宁先生的观点:现代科学源于从公理出发进行推演,并精准预测未来。如果基于不可信的模型进行“推理”,其结论无法可靠预测未来,这能否称为科学?

因此,我们坚信数据必须收敛,推理应建立在符号逻辑之上。我们推出的全球首个适用于大语言模型的神经符号架构,正是向这一方向的探索。欢迎大家关注。

刘杨楠(主持人):谢谢罗总带我们进行了一番对技术未来的展望。接下来,我们请四位来自产业界的嘉宾,带我们回归现实,看看“脚踏实地”的成果。中关村科金在金融领域落地较多,想请刘总具体展开分享:AI推理能力如何具体影响现有的工作流?在这个过程里,人类和AI的协同会发生怎样的变化?

刘倩:首先呼应一下罗总,技术路线上存在Transformer与非Transformer的争论与探索,对产业界来说是好事,新想法意味着新的可能性。

中关村科金的客户确实有不少来自金融行业。基于当前DeepSeek等模型的能力,我们今年做了大量研究与实践,发现它在效果和效率上远超以往。我以“财富助手”产品为例说明。

今年,我们引入了智能体(Agent)和多智能体(Multi-Agent)架构,结合推理增强模型后,带来了根本性改变。开发同样场景的时间周期缩短到原来的十分之一,意图理解的准确率大幅提升,并且能够动态接入各种新的数据源,让最新信息被快速分析并生成报告。

举例来说,用户查询“某股票近期成交量”。传统方式可能只会固定地调出一张走势图(那往往是价格图,而非成交量)。而新的推理架构,即便底层没有现成的成交量图示,也能通过对数据源和意图的深度分析,自动生成准确的成交量分析报告。

当然,挑战依然存在,模型的推理过程也可能出错。因此,在产品设计上必须做到:将整个推理过程可视化、可回溯、可追溯,并允许人工介入修正。本质上,对于产业应用而言,我们获得了一个更强大的“武器”,但要想用好它,仍需依靠上下文工程、周边工程框架等多种手段,在金融这类对合规和严肃性要求极高的场景中,兼顾灵活性、效果与可解释性。

刘杨楠(主持人):北电数智率先提出了“数算模用全栈布局”的理念,在您看来,这个理念是如何支持AI推理能力的?能否结合公司一个最典型的客户案例展开分享。

杨震:谢谢。我们的经验与刘总相似,但覆盖的行业更多,包括医疗、工业、文旅等。背后的逻辑一致:以实践推动技术落地。

我们率先提出“数算模用”全栈布局,正是为了推动AI真正“用起来”。

  • :以可信数据空间为基础,通过知识工程、合成数据等服务,将数据转化为高价值知识,或为缺乏数据的场景生成数据,推动高价值数据释放。

  • :自2023年起布局国产算力,通过混元适配与灵活调度降低使用成本与门槛,并持续推动算力与场景的直接对接。

  • :一方面做推理引擎加速,另一方面打造垂类模型。作为原生AI企业,我们采取从专项模型到行业模型的路径。例如在医疗领域,从专病模型做起,逐步形成专科乃至全科模型。目前在政务、医疗、工业等领域的垂类模型均已达到可用、好用水平。

  • :聚焦行业场景(如医疗、工业)落地智能体。例如,我们面向医疗行业的AI全科助手,就由多个智能体协同工作。

在医疗行业,我们构建了数据底座来整合知识,依托垂类模型与智能体引擎,并针对患者服务、医院管理、临床应用、基层医疗等不同场景进行专项落地。这使得AI赋能得以贯穿诊前、诊中、诊后全流程,并覆盖从三甲医院到基层机构。

我们的皮肤专病模型准确率超90%,认知障碍早筛达到“双80”水平(等同于三甲主治医师),药师助手也表现优异。这些成果不仅能提升三甲医院的诊疗与病历水平,更能赋能基层,实现优质医疗资源下沉与普惠。

所以,“数算模用”的出发点是应用。我们根据场景需要,去选择并整合算力、模型与数据方案,通过模型工程与智能体工程,推动技术从可用到好用。

北电数智CMO杨震

刘杨楠(主持人):所以核心是通过系统工程来实现推理能力,而非依赖单一模型。

杨震:是的,并且其提效效果显著。AI并非为了简单替代职业,而是缓解关键行业的资源压力。例如,高水平医生、高质量客户经理都是稀缺资源。AI助手能大幅提升工作效率、降低误诊率,缓解这些领域人才紧缺的现状。

刘杨楠(主持人):接下来想请马总结合实践谈谈,目前端侧设备的本地推理能力整体进展如何?

从应用层的理念来说,技术从来不是完美的,关键在于如何用不完美的技术去满足用户在特定场景下的具体需求。

以常见的会议转写和纪要生成为例,现有方案普遍存在两个问题:一是转写原文过于冗长,难以回溯关键信息;二是生成的纪要容易过度概括、遗漏要点,甚至出现编造,准确性难以保证。

我们的解决方案是在中间增加一步,实时生成一份结构化的AI笔记。通过将一小时、上万字的原文,结构化梳理成包含大小要点的笔记,最终浓缩至千字左右,确保要点无一遗漏。这样,验证会议纪要的准确性就变得非常直观。

实际上,不同角色对会议内容的需求是不同的:整理纪要的秘书需要参考原文;领导者只关心结论和下一步行动;执行层则需要查看清晰的要点笔记。我们通过流程分解,匹配了不同场景下的角色需求。

更进一步,如果用户需要获得建议而不仅仅是总结,我们开发了AI洞察功能。它能以第三方视角,分析会议中存在的问题、关键决策人、支持者与决策机制。例如,在提案会上,它能自动分析甲方关注点或乙方的争取方向,提供深层的策略参考。

这一功能受到了用户的高度认可。一位投资人用户反馈,AI洞察让他有“后背发凉”的感觉——因为他最需要看到的正是问题所在,而非一片大好的空话。这证明,从真实业务场景洞察需求,用现有技术加以满足,产品才能真正创造价值。

思必驰IOT事业部首席产品官马斌斌

刘杨楠(主持人):在玻尔科研空间站中,未来的科学家将与具备推理能力的AI形成一种怎样的新型科研伙伴关系?是人类科学家提出大胆猜想,AI负责严谨验证;还是AI能从数据中自主推理出全新的、反直觉的科学假说?

曹凯:我认为未来AI与科研工作者的协作主要有两种方式:一是人类提出问题,AI进行验证;二是AI从数据中涌现出新问题,人类加以解释。今天主要谈谈第一种,这也是我们玻尔平台目前的重点方向。

首先需要明确,人类科学家跳跃式、非线性的灵感是目前任何大模型都无法替代的,这是人类在科研中的核心价值。

在玻尔平台上,一个典型的科研工作流是:研究者提出一个假设,由我们的科研助手进行理论梳理、文献举证与科学计算模拟,最后通过实验验证。实验结果再反馈回最初的假设,形成一个智能闭环。我们将这一流程工程化,固化为一套新的科研范式。

这个流程可归纳为“读、算、做”三个环节:

1.读:研究者提出假设后,科研助手通过语义理解,从我们底层的超过1.7亿篇文献中检索相关论据,生成带有文献出处的总结。研究者可将其一键保存至个人知识库,并可随时对单篇、多篇或整个知识库进行交互式提问,实现知识的持续沉淀。

2.算:这一环节分为三层来解决不同问题:

  • 底层算力:针对科研计算任务(如大体系DFT计算、分子动力学模拟)算力需求大、资源难获取的问题,我们构建了一个调度平台,将主流云服务及超算资源统一纳管,形成一张计算网,通过智能调度为研究者寻找更经济、合适的算力。

  • 科学计算大模型体系:我们提供了一系列垂类模型矩阵(如DPA原子模型、UniMol分子模型、UniFold蛋白大模型等),帮助研究者提升计算效率。

  • 应用层:我们提供了Notebook交互式编程环境供快速验证,以及APP广场——让研究者不仅能发表论文,还能将成果转化为可复现、可体验的APP,拉近科研与产业的距离。

3.做(实验验证):针对实验仪器标准不统一、智能化改造难的问题,我们开发并开源了Uni-Lab OS智能室操作系统,已接入大量实验仪器。计算结果会通过智能体生成实验工作流,下发给自动化实验室执行验证,最终数据回传至平台,形成正向循环。

这就是我们正在构建的、让AI与人类科研者深度协同的新范式。

深势科技玻尔技术研发负责人曹凯

刘杨楠(主持人):感谢曹总,这是一个非常闭环的系统。时间关系,我们进入最后一个问题:请各位用一句最核心的话,表达对明年AI推理能力迭代的期待。

刘倩:我认为未来人类员工和数字员工会进入一种新的人机协同模式。随着AI推理能力增强,数字员工将能做更多事,深刻改变我们的生活和工作。当然,这也意味着掌握新技能、用好数字员工的人会更具优势,行业可能会更“卷”。但我们更希望的是,人类能因此有更多时间享受生活、探索世界、发现新的人生意义。

杨震:我还是从应用角度出发。明年是“十五五”开局之年,国家也出台了AI相关行动计划。我希望AI推理能力能够切实提升所有行业的能力下限和效率上限。

罗璇:我认为未来分三个阶段:首先在明年,配合“十五五”规划,端侧AI将拉动内需,一批新型智能硬件会带动国内AI市场。未来三到五年,AI会像婴儿一样在物理世界中快速学习,掌握甚至超越人类已知的物理规律,成为“AI界的爱因斯坦”。再往长远看,人类自身也可能借助AI实现进化,批量涌现出新的“爱因斯坦”。

马斌斌:近期看,未来一两年内,AI很可能颠覆产业竞争格局,催生出大量的“一人公司”甚至“一人独角兽”。它们能以极低成本快速试错、推出产品,改变现有的游戏规则,这让我很兴奋。但往远看,当AI强大到取代许多工作时,很多人会失业。AI会创造什么新职业?普通人如何找到自身价值?社会如何应对?这些问题是我希望继续探究和讨论的。

刘杨楠(主持人):这或许已不仅仅是技术问题了。曹总,请您来总结。

曹凯:在不远的未来,人类科学家只需提出一个假设,剩下的工作,从文献举证、计算模拟到实验验证,将由科研智能体在几小时内完成闭环,把现在需要数周甚至数月的过程极致压缩。

刘杨楠(主持人):谢谢曹总。由于时间关系,本次圆桌到此结束。感谢各位嘉宾的分享,也期待大家畅想的未来早日成为现实。

(封面图及文中配图来源:2025甲子引力年终盛典)

相关内容

热门资讯

最新或2023(历届)我的好伙... 我有一个好伙伴,我们是刚上小学时认识的。她长着一张圆圆的、粉嘟嘟的脸蛋,总是扎着一根根整齐的辫子,那...
最新或2023(历届)我的好友... 我有一个好朋友,我和他在学校里形影不离。你可别小看他,他可是班里语文课代表。我经常叫他“老张”,他也...
最新或2023(历届)老师的微... 说起那位老师,我甚至不知道她的名字。但是,我却天天见到她,因为她的办公室就在我们教室旁边。这位老师个...
最新或2023(历届)感谢老师... 感谢哺育你的人,因为他给你了生命;感谢伤害你的人,因为他唤醒了我们的自护意识;感谢鼓励你的人,因为他...
原创 人... 人民大会堂的服务组按编制,常年保持着300多人的数量,她们签的合同只有四年,期限一到就不再续签合同了...