深度|AI教母李飞飞:AI绝对是一种文明级技术;人们正在忽视“人”在AI中的重要性
创始人
2026-01-10 15:18:06

图片来源:Tim Ferriss

Z Highlights

  • 人始终是一切的核心。是人创造了AI,是人会使用AI,是人会受到AI的影响,而且,人也应该在AI的发展中拥有发言权。

  • 物理教给我的不仅仅是数学和物理本身。它真正教会我的是:提出大胆问题的勇气和热情。

  • 从今天回看,在ImageNet诞生将近二十年之后,它的真正意义在于:它标志着大数据时代的一个关键拐点。ImageNet出现之前,人工智能这个领域其实并没有真正地在使用大数据

  • 但我在书中特别希望用一种方式来讲述AI的历史:这是一个由无数未被歌颂的英雄、一代又一代科学家、以及跨学科思想不断相互碰撞、相互滋养所共同构成的历史。我只是恰好在那个时间点,既对这个问题充满热情,又幸运地站在了这些研究成果的基础之上。

Fei-Fei Li(李飞飞),ImageNet数据集创建者、“AI教母、斯坦福大学教授,以奠定现代AI基石的开创性工作与深刻的人文思考,持续引领着人工智能在技术前沿与人类价值交汇处的探索。本访谈发布于20251210日。

普林斯顿往事:一场错过的校园重逢

主持人:李博士,很高兴见到你。谢谢你抽时间来。

李飞飞:嗨,Tim。很高兴来到这里,非常期待这次对话。

主持人:在正式录音前我们聊了一下,说实话挺神奇、也有点遗憾的是——我们竟然在同一个校园待了三年,却从来没有碰到过彼此。

李飞飞:我知道!现在我都在想你当时在哪个书院、参加了哪些社团。

主持人:我在Forbes College

李飞飞:天呐,我也在Forbes

主持人:好吧,给不了解我们在说什么的听众解释一下:普林斯顿有住宿书院制度,新生会被分到不同书院。Forbes在校园很偏的地方,旁边有个像7-Eleven的快餐店叫Wawa,还有通勤火车站。另外还有一种叫eatingclubs的组织,算是男女混合的兄弟会/姐妹会,同时也是吃饭的地方。我在Terrace

李飞飞:我没有参加这些。不过如果大家好奇我们为什么没见过——我们应该说,我们都是非常用功的学生,只待在图书馆里。

主持人:对,我们都很用功。我当时在Firestone图书馆阁楼打工,时薪大概6美元。

李飞飞:Tim,我也在那家图书馆工作过。我真的不明白我们怎么会没遇到。

主持人:这太有意思了。好吧,现在我们终于见面了。

李飞飞:你是不是改过名字?也许我们见过。

主持人:我没改过名字,不过现在我们确实重逢了。这真的很神奇。我中间还离开过一段时间——我在普林斯顿和北京两地学习,后来去了首都经济贸易大学,然后又休学一年,最后跟2000届毕业。所以我们其实有很多重叠时间。但我们进入正题吧。这是一个比较常见的开场问题,但对你来说很合适:你在哪里长大?能不能讲讲你的成长经历?因为根据我读到的资料,你的父母在我看来——尤其是对那个时代的中国家庭来说——非常不典型。

李飞飞:你真的知道得很多。

主持人:能不能展开说说?

双城记童年:非典型父母与导师塑造的坚韧与好奇心

李飞飞:我会说我的童年和成长期是一段双城记。我出生在北京,但大部分童年是在成都度过的——那里以熊猫闻名。15岁时,我和妈妈去了新泽西的Parsippany,与已经先过去的父亲团聚。我从一个相对典型的中国中产家庭孩子,变成了一个新移民,进入了一个完全不同的世界——在新泽西,学习一门新语言、适应一种新文化、拥抱一个新国家。后来我去了普林斯顿学物理,本科期间也修过你修的那些课,然后去了加州理工学院读AI博士,其余的故事就慢慢展开了。

主持人:我想多听一点关于你父母,尤其是你父亲的故事。从我读到的内容来看,他非常富有想象力、很有童心,和很多人对中国父母的刻板印象完全不同。我之前采访过一位企业家Bo Xiao,他的父亲就属于非常严格的那种虎爸:如果他赢了数学竞赛,就会得到奖励和更多关爱。你能不能讲讲你的父母?

李飞飞:首先,显然你读了我的书,谢谢你。确实,在我写这本科学回忆录的过程中,我才真正意识到:我的父亲真的非常不典型。他热爱大自然,极度好奇,能在很多无关紧要的事情里找到乐趣,比如昆虫。80年代中国物质并不丰富,但成都在扩张,我们住在城边的居民区。周末,我和爸爸会在稻田、水牛旁边玩,我有一只小狗。我所有关于童年的记忆,几乎都是在找虫子。有时我们还会去山里画画。我父亲对我的成绩、奖项、竞赛完全不关心。即便后来我们移民到新泽西,生活非常艰难,我记忆中的他仍然对逛yardsale乐此不疲,把它当作寻宝游戏。他就是这样一个保持童心、充满好奇的人。

主持人:我之所以问父母,是因为你现在也是一位母亲,之后我也会问你对育儿的看法。但很多听众一定会好奇:为什么你的父母要离开中国?是什么促成了这个决定?从成都到新泽西郊区,这种转变太巨大了——语言、经济、文化都完全不同。

李飞飞:我可以给你两个答案。对于小时候的我来说,我完全不理解。我父亲在我12岁时先走,我和妈妈15岁时才过去。那几年,我只知道他们说:我们要去美国。对于长大后的我来说,我意识到他们非常勇敢。在没有互联网、没有AI、没有信息渠道的年代,去一个完全陌生、不会语言的国家,几乎就像去另一个星球。他们希望我能拥有不同的教育机会。事实证明,这个判断是对的。

主持人:我也想听听你母亲的故事。在你父亲如此随性的情况下,人们会好奇:你的动力和技术专注从哪里来?以及,Bob Sabella是谁?

李飞飞:先说我母亲。她完全不擅长数学,所以技术热情并非来自她。我认为那是我与生俱来的。但她非常自律。她不盯成绩、不追奖项,但她要求我专注。她会说:“6点前把作业做完,做不完就承担后果。她曾说:我不知道来到新泽西会怎样,但我相信我能活下来,也会让飞飞活下来。

主持人:Bob是谁?

李飞飞:Bob Sabella是我在Parsippany High School 的数学老师。他不仅是我的老师,更是我的导师、朋友,后来他的整个家庭都成了我的美国家庭。当学校无法提供完整的AP Calculus BC课程时,他牺牲了自己的午休时间,一对一给我补课。多年后,当我自己成为教师,我才真正意识到这是多么大的付出。

主持人:真的要感谢那些愿意多走一步的老师。

李飞飞:我认为美国的公立学校教师是社会的无名英雄。他们帮助来自世界各地的移民家庭孩子成长。这也是我写书的原因之一——为了致敬Bob这样的老师。

主持人:,我想聊的内容实在太多了,而且我知道,在话题还没聊完之前,我们就一定会先没时间。所以我其实是想多花一点时间聊Bob。但与此同时,我也希望对话能够继续往前推进。所以我们会这样做:我可能会先简单带过几个方面,然后再深入问你一些问题。不过可以肯定的是,在普林斯顿那段时间,不只是你一个人在努力生存,你的整个家庭都在为生活打拼。你当时参与经营了新泽西的一家干洗店,对吗?而且你一共做了七年。通过这段经历,我感觉你在很多层面上都获得了非常重要的视角,这些视角后来也深刻影响了你在职业上的选择和思考方式。你学会去关注的,不只是那些生活在象牙塔里、受到保护的人,而是社会中各个阶层、各个角落的人——来自整个社会光谱的不同群体。

与此同时,你的母亲虽然并不是技术背景出身,但她在你身上培养了很强的纪律性,而且她似乎对文学、尤其是世界文学,有着非常广泛的理解和欣赏。所以在那个阶段,你已经拥有了一种全球化的视角——当然,那时这种视角主要是建立在中文文化和语言基础之上的。之后,你来到了普林斯顿。

我知道我们在时间线上会来回跳跃,但我真的很想知道:ImageNet是如何诞生的?你可以用任何你觉得合适的方式来介绍它。你可以先告诉大家它是什么、后来发展成了什么、为什么如此重要,然后再讲它最初是如何开始的;当然,你也可以只讲它的起点。但无论如何,这都是一个极其重要的篇章。

ImageNet:从个人兴趣到革命性AI数据集

李飞飞:那我先简单解释一下什么是ImageNet。从表面上看,ImageNet是在2007年到2009年间建立的,当时我还是普林斯顿大学的一名助理教授,随后我去了斯坦福。正是在这段过渡时期,我和我的学生一起构建了这个数据集——在当时,它是人工智能领域中规模最大的计算机视觉(或视觉智能)训练与评测数据集。

从今天回看,在ImageNet诞生将近二十年之后,它的真正意义在于:它标志着大数据时代的一个关键拐点。在ImageNet出现之前,人工智能这个领域其实并没有真正地在使用大数据正因为如此,再加上一些我之后会提到的原因,AI在那之前的发展是停滞的。公众通常把那段时期称为“AI寒冬。尽管对当时的我来说——作为一名年轻的研究者——那是一个极其令人兴奋的领域,但我也理解公众的看法,因为AI并没有展示出人们所期待的突破性成果。

我真的感到非常幸运、也非常荣幸,自己的工作在现代AI的诞生过程中起到了如此关键的作用。但通往ImageNet的道路,其实远比这段时间线要长得多。ImageNet的旅程,早在我还是普林斯顿本科生的时候就已经开始了。你当时在东亚研究系,而我则躲在JadwinHall——也就是我们的物理系大楼里。我从很小的时候就热爱物理。我也说不清,为什么我父亲对昆虫、对自然的热爱,会在我的脑海中转化为一种对宇宙的好奇。我喜欢仰望星空,喜欢战斗机的速度,喜欢它们复杂而精妙的工程设计。最终,这种兴趣演变成了对一门学科的热爱——这门学科敢于提出人类文明中最大胆的问题:最小的物质是什么?时空的定义是什么?宇宙有多大?宇宙从何而来?

在我十几岁那段时期,我尤其崇拜爱因斯坦,热爱他的工作,也正是因为他,我想去普林斯顿。但后来我才意识到,物理教给我的不仅仅是数学和物理本身。它真正教会我的是:提出大胆问题的勇气和热情。所以在本科即将结束的时候,我开始渴望拥有属于我自己的那个大胆问题,而不仅仅是去追随别人提出的问题。在大量阅读和思考之后,我逐渐意识到:我真正的兴趣并不在于物质本身,而是在于智能。我深深地着迷于这样一个问题:什么是智能?我们如何创造出具备智能的机器?说实话,在那个时候,我甚至都不知道这门学科叫人工智能。我只是清楚地知道,我想研究智能,想研究智能机器。于是我申请了研究生院,去了加州理工学院。

但我和整个领域都在挣扎。论文可以写,成果也能发表,但我们始终没有真正的突破。直到2007年,普林斯顿再次把我召回,邀请我以教师身份回到母校。那是我人生中最幸福的时刻之一。我感到一种巨大的认可——我的母校愿意给我一个教职。所以我非常开心地再次回到了普林斯顿,这一次是作为一名教授。而且,我实际上还是Forbes College的成员。正是在普林斯顿,我迎来了一个顿悟的时刻:我意识到,有一个所有人都忽略了的假设。那个假设就是:大数据。

主持人:可以在这里先打断你一下吗?因为正是这一点让我非常、非常好奇,我想稍微停下来聊一聊。对那些对普林斯顿历史感兴趣的人来说,那段历史真的非常精彩。他们可以去查一查普林斯顿高等研究院(Institute for Advanced Study)的历史。我记得,我上过一些你刚才提到的东亚研究课程,那些教室正是爱因斯坦曾经授课的地方。那里有一种独特的气场,一种历史沉淀下来的光环。你会忍不住想相信,仿佛能感觉到这种氛围弥漫在整个校园里。这种感觉本身就很有趣——从这个意义上说,真的非常有趣。

科学创新的非线性与集体贡献

李飞飞:我们所有人其实都是历史的学生。有一件事是我在讲述科学史时并不太喜欢的,那就是过于强调单一的天才人物。

主持人:是的,我同意

所以,虽然我对自己所做的事情感到自豪,但我在书中特别希望用一种方式来讲述AI的历史:这是一个由无数未被歌颂的英雄、一代又一代科学家、以及跨学科思想不断相互碰撞、相互滋养所共同构成的历史。我只是恰好在那个时间点,既对这个问题充满热情,又幸运地站在了这些研究成果的基础之上。所以,是的,也许我的大脑里发生了什么,但我更愿意把ImageNet的出现,归因于无数科学家在各自的一生中对科学的长期投入与奉献,正是这些努力把我们一步一步带到了ImageNet这一节点。

主持人:我真的很高兴你强调了这一点。因为如果你真正去深入研究——虽然我不认为自己是科学家,但我非常喜欢阅读科学史——你会发现其中有太多的输入、太多的影响、太多的相互依赖关系。

李飞飞:是的。单一英雄的旅程这种叙事方式,因为简单而具有吸引力,但它几乎从来都不是真实的。它大概从来都不是真的。即便是我最大的英雄——爱因斯坦。任何了解我、或读过我书的人都知道,我有多么敬仰他,我真的热爱他所做的一切。但狭义相对论的方程,其实是对洛伦兹变换的延续。即便是爱因斯坦,也是建立在许多其他人的研究基础之上的。所以我认为这一点非常重要,尤其是——我相信我们等会儿也会谈到——现在我正身处硅谷的中心,而我们正处在一波人工智能的巨大热潮之中。我当然为自己的领域感到非常自豪,但我认为,当媒体或公众去讲述AI的故事时,几乎总是只聚焦在少数几个天才身上,而那并不是真实的情况。真正促成这个领域发展的,是一代又一代计算机科学家、认知科学家和工程师。

ImageNet的成功密码:正确假设、数据挑战与众包创新

李飞飞:很多人都会问我这个问题:因为在ImageNet之后,真的有非常非常多的人尝试去构建数据集,但最终成功的却寥寥无几。那ImageNet为什么会成功呢?我认为其中一个成功因素是时机——我们确实是最早看到大数据会产生巨大影响的一批人。因此,这种类别层面或定性层面的变化本身,就是成功的一部分。但同时,正如你刚才问到的那样,大数据的假设并不仅仅是规模大这么简单。事实上,很多人都误解了ImageNet的意义,以及其他数据集的意义。

但那样一来,又变得过于复杂了。所以在每一次科学探索中,你都必须有正确的假设,并提出正确的问题。这一点本身,就是ImageNet成功的一部分。我们把视觉物体分类定义为一个正确的研究假设,这是其中一个对的地方。另一个对的地方在于,很多人会以为这件事很容易。他们会想:不就是收集很多数据吗?但首先,这本身就是一项极其耗费人力的工作。更重要的是,即便不谈工作量的问题——你如何定义质量?你可能会说:只要数据量足够大,就不用在乎质量了。但问题是:什么叫足够大?什么叫?二者之间如何权衡?这是一个需要大量研究才能回答的、非常深刻的科学问题。

主持人:他们对自己时间的价值看得很高。

李飞飞:是的,而且他们的成本非常高。但即便我拥有世界上所有的钱——而事实上我们并没有——这件事依然会耗费极其漫长的时间。所以我们真的、真的被卡住了,而且一卡就是非常非常久。我们也曾以为会有其他捷径。但事实是,人工标注就是黄金标准(gold standard)。因为我们想训练的是一种以人类能力为衡量标准的机器。所以在那个阶段,我们根本无法绕过人工标注这一环。最终,我们不得不转向一种后来被称为群体工程(crowd engineering众包(crowdsourcing的方法。当时这其实是一项非常新的技术。那时候,Amazon推出这个系统才不到一年左右。他们创建了一个在线平台,让人们可以通过互联网接一些小任务来赚钱。

我还记得,当我第一次听说Amazon Mechanical Turk的时候,我立刻登录了我的亚马逊账户。我尝试去做的第一个任务,只是为了体验一下,是给酒瓶做标注,或者誊写酒瓶上的标签。系统会给你一张酒瓶的图片,你需要判断并填写,比如:这是1999年的波尔多葡萄酒,诸如此类的信息。人们会把这类微型任务(microtasks)上传到平台上。然后,在线的工作者——比如在闲暇时间的普通人——如果我当时有空,我也完全可以注册去做这些任务并获得报酬。我们意识到,这种方式——同样是出于一种走投无路的状态——实际上是一种利用全球在线人群进行的大规模并行处理。也正是通过这种方式,我们为ImageNet标注了数十亿张图像,并最终从中筛选、提炼出了1500万张高质量图像。

李飞飞:

主持人:所以你也必须把激励机制本身考虑进去。那你们是怎么解决这个问题的?

李飞飞:正是在这一点上,我和我的学生花了数不清的时间反复讨论如何控制标注质量。真的,我没法告诉你我们为此谈了多少个小时。这件事必须通过多个步骤来解决。首先,我们需要筛选出那些真正认真做任务的在线工作者。举个例子,我们会先设置一些前置测试(quizzes),确保他们真正理解什么是熊猫他们需要先阅读问题,通过这些测试之后,才有资格去做熊猫标注任务。接下来,在正式的标注过程中,我们会混入一些我们已知正确答案的图片。其中有些确实是熊猫,有些则不是熊猫——但标注者并不知道这一点。因此,从某种意义上说,我们是通过掌握这些黄金标准答案(gold standard answers,来隐性地监控标注工作的质量。这些正是我们必须采用的一系列计算层面的策略(computational tactics),用来确保数据标注的质量。

那我们现在把时间跳回到当下。我非常想问你一个问题——因为你在我们校友杂志里,事实上在很多地方,都被称为人工智能的教母(godmother of AI。而且你所拥有的视角不仅仅是技术层面的,更是一种历史性的视角。也就是说,在一个相当长的时间跨度内——至少按AI的发展标准来说——你亲眼见证了这项技术的演进、分岔、风险以及它所承载的希望。那么,人们现在忽略了什么?什么正在占据几乎所有的讨论空间?人们到底错过了哪些重要的东西——不论是他们本该了解的、还是本该保持怀疑的,又或者是其他方面的问题?

AI浪潮中的本主义

李飞飞:我现在正身处硅谷的核心地带和你通话。而我认为,人们正在忽视AI中的重要性。这句话其实有多个层面、多个维度。首先,AI绝对是一种文明级技术(civilizational technology。我所说的文明级技术,是指:

由于这项技术所具备的巨大力量,它将——或者说已经正在——对我们社会产生深远的经济、社会、文化和政治层面的下游影响。我刚刚听到一个说法(这一点尚未得到验证):去年美国GDP增长中,有50%被归因于AI的增长。据说,美国GDP去年整体增长了4%。如果把AI的贡献拿掉,那么增长就只剩下2%。这正是它文明级的含义——至少从经济角度来看是如此。

而且,它显然也正在重新定义我们的文化,对吧?想想你刚才提到的那句吸走整个房间里的氧气”——从好莱坞到华尔街,从硅谷到政治竞选,从TikTokYouTube,再到InstagramAI无处不在,占据了几乎所有的注意力与讨论空间。

主持人:就连日本的出租车也是这样。我前不久刚去过那儿,在出租车里,座椅靠背上的视频屏幕里播放的内容也在谈论AI。我们所有人都在谈AI。它无处不在。

李飞飞:它在文化层面产生了巨大的影响——不仅仅是有影响,而是正在重塑我们的文化,并且必然会改变教育。今天的每一位父母都在思考:孩子应该学什么,才能拥有一个更好的未来?而每一位祖父母则在说:我很庆幸自己出生得早,不用亲自面对AI,但与此同时,他们仍然会为孙辈的未来感到担忧。所以,AI是一种文明级技术。但我认为当下被忽视的一点在于:硅谷非常热衷于讨论技术本身,以及技术所带来的增长。而政治人物,则热衷于讨论那些能为他们赢得选票的事情。

但归根结底,人始终是一切的核心。是人创造了AI,是人会使用AI,是人会受到AI的影响,而且,人也应该在AI的发展中拥有发言权。无论AI如何进步,人的尊严——无论是作为个体、作为群体,还是作为社会的一部分——都不应该被剥夺。而这正是我所担忧的地方。因为我认为,如今存在着越来越多的焦虑:一些人正在失去尊严感、主体感以及自己属于未来的一部分的感觉。我认为,这种状况必须被改变。

主持人:我记得你说过,你之所以是一个乐观主义者,很大程度上是因为你是一位母亲。当然,无论是极端的乐观,还是极端的悲观,都会以某种方式对我们不利——它们容易造成认知偏差,或者带来盲点。我很好奇,如果你尽量戴上最客观的那顶帽子——尽管这对任何人来说都很困难——你会如何判断:对于普通人来说,那些并不是AICEO、工程师或幕后建设者的人,他们现在是过于担心、不够担心,还是担心错了方向?我真正想问的是:这种焦虑是否放错了位置?因为坦白说,如果你去和一些在AI上投入最大的风险投资人交流,你会发现他们在我看来展现出一种几乎极端的技术乐观主义——仿佛AI能够解决所有问题。但这很难不让人怀疑:真的会有免费的午餐吗?与此同时,又存在着另一种极端的悲观主义者,也就是所谓的末日论者(doomers,他们认为明年就会出现天网,人类要么沦为机器的奴隶,要么被消灭,甚至被转化成回形针(paperclips)。

而现实,很可能处在这两个极端之间。所以我想听听你的判断:在你看来,人们当下对AI的担忧是抓住了重点,还是在某种程度上已经偏离了真正值得关注的问题?

李飞飞:首先,我称自己为务实的乐观主义者(pragmatic optimist)。我不是乌托邦主义者,所以实际上我是那种比较无聊、脚踏实地的类型。我不相信两边的极端。我经常环游世界。就在上个月,我去了中东、欧洲、英国和加拿大。然后回到美国的家。我觉得,美国和西欧的人们对AI的担忧要比中东或亚洲的人更多。我认为我们没必要去争论他们为什么更担心。只是以美国为例,我希望我有一个扩音器,可以告诉美国人:你们是世界上最具创新力的群体之一。我们的国家为人类文明带来了无数伟大的创新。我们拥有自由而充满活力的社会。我们的政治制度让我们仍然可以对国家建设有很大的发言权。我确实希望,美国对AI的未来应用能有更多乐观和积极的态度,而不仅仅是现在听到的那些声音。

我认为,像我这样的技术人员——生活在硅谷的人——在正确的公众传播上有很大的责任。过去有很多信息并没有以有效的方式传达出去。但我确实希望,我们能让每个人都拥有更多的希望感和自我能动感(self-agency),因为我认为,如果正确使用AI,会带来巨大的潜力和好处。我希望的不仅仅是硅谷或曼哈顿的人,我希望美国的农村社区、传统产业,以及五十个州的每个地方的人们,都能够拥抱并从AI中受益。

WorldLabs:聚焦空间智能

主持人:你为什么要建造你正在建造的这些东西?WorldLabs是什么?你为什么决定要做这个?

李飞飞:实际上,我经常会向我的团队每一位成员回答这个问题。我建立了WorldLabs。从技术角度来看,这个问题的答案有两个层面:

首先,WorldLabs正在构建下一代AI,专注于空间智能(spatial intelligence)。因为spatial intelligence,就像language intelligence一样,是解锁机器惊人能力的基础,能够帮助人类创造得更好、制造得更好、设计得更好、建造更好的机器人。所以,它是一项枢纽技术(linchpin technology)。

再往上一个层面,为什么我仍然是一名技术人员?那是因为我相信:人类是唯一创造文明的物种。动物可以建立群落或兽群,但我们建立的是文明。而我们之所以建立文明,是因为我们希望变得越来越好。我们希望行善,尽管在这个过程中,也会做很多不好的事情。但这种追求更好生活、更好社区、更好社会、更健康、更繁荣的愿望,正是文明的基石。正因为我相信人类可以做到这一点,我也相信科学与技术是建设文明的最强有力的工具之一。而我希望能够为此做出贡献。这就是为什么我仍然是一名科学家和技术人员,也正是为了这个目标,我在建立WorldLabs

主持人:你能向大家解释一下什么是空间智能(spatial intelligence)吗?以及,换句话说,你现在正在构建的产品至少在目前阶段是什么样的?

李飞飞:spatial intelligence是人类拥有的一种能力,它超越了语言能力。比如:当你把三明治装进袋子里;当你在山里跑步或徒步;当你粉刷自己的卧室……所有涉及观察并将观察转化为对三维世界和环境的理解的活动,然后你可以与环境互动、改变它、享受它,或者从中创造东西,这一整套过程,都是空间智能在支撑。观察与行动之间的整个循环,都依赖于spatial intelligence能的能力。举个例子:你能把三明治装进袋子里,说明你知道面包长什么样,知道刀子应该放在哪儿,知道如何把生菜叶放在面包上,知道如何把三明治放进密封袋。这一切的每一个环节,都是spatial intelligence的体现。那么,今天的AI拥有这种能力吗?它正在变得更好,但相比language intelligenceAI在观察、推理,以及在虚拟或真实三维世界中实际操作的能力上,仍处于非常早期的阶段。

这就是WorldLabs正在做的事情:我们正在创建一个前沿模型(frontier model),让模型本身具备智能能力,能够创建世界、对世界进行推理,并使得创作者、设计师或机器人可以与世界互动。这就是spatial intelligence

主持人:你能多讲讲设计师、创作者或者机器人是怎么和世界互动的吗?也就是说——我和我的团队已经在试用你们的一些工具了,真的很感谢——那具体能做什么呢?如果你能描绘一下未来一年、两年的使用场景:人们会怎么用这些工具?或者机器人会怎么用它们呢?

应用场景:从创意到实用

李飞飞:几周前我和一个人聊过,真的很启发我——高中舞台剧的预算通常非常有限。有时候我会去旧金山的歌剧院或者音乐剧现场,看到舞台布景,真的是美得惊人。但高中或初中想做到那种水平,预算根本不够。想象一下,你可以用现在的WorldLabs模型——我们叫它Marble——然后你创建一个中世纪法国小镇的布景。把它放在背景里,用这个数字布景把演员和表演搬进那个世界。当然,根据不同的辅助技术——无论是在电脑上,还是未来用头戴设备什么的——你都可以获得一种身临其境的感觉,仿佛真的置身在中世纪的法国小镇。对于很多创作者来说,这将是一个极棒的创作工具。几周前我和那个人聊的就是这个例子,但其实我们已经看到世界各地的创作者开始使用我们的模型了。有些是VFX(视觉特效)创作者,有些是室内设计创作者,有些是游戏创作者,还有些是教育工作者,想构建一些虚拟世界,把学生带入不同的体验中。

他们之所以开始用我们的模型,是因为它非常强大:只需在指尖操作,就能创建三维世界,无论是让角色,还是让自己沉浸其中,都非常方便。

主持人:再从操作流程上来说,如果有人想知道这是怎么工作的——假设是一个公立学校的老师,想要多走一步去激发学生的兴趣、提高教学效果。那他们使用这个工具的时候,会是什么样子呢?是输入文字描述自己想要创建的世界吗?或者上传素材或照片,有点像做图板(image board)那样?如果这个人没有技术背景,操作会不会很复杂?

李飞飞:完全不需要有技术背景。他们只需要在电脑或手机上打开我们的网站,不过用电脑会更有趣,因为功能更多。然后,他们可以输入文字,比如法国中世纪小镇,或者任何他们想去的地方。他们也可以用MidjourneyNanoBanana创建一张法国中世纪小镇的照片,或者直接找到一张真实的照片。然后把它上传。我们把这个操作叫做prompt。几分钟后,我们的模型就会生成一个3D世界,比如小镇的一部分。它的范围当然是有限的。这个3D世界是真的三维的——你可以用鼠标拖动、旋转、走动,探索整个世界。接下来,如果你想用它,有很多方式:你可以用我们网站上的工具制作电影——放置摄像机,然后拍出一部特定的影片。如果你是游戏开发者……

主持人:我正想说,这听起来很像一个游戏引擎。

李飞飞:是的,你可以在里面放很多角色。如果你是VFX(视觉特效)专业人士——我们有很多这样的用户——他们可以把这个工具融入电影拍摄的工作流程,让真实演员在拍摄中使用。我们还有心理学研究人员,在特定的精神病学研究中使用这个沉浸式世界。同时,这个世界也可以用作机器人训练的模拟环境,因为很多机器人训练需要大量数据,这个模拟世界可以生成各种不同的数据。

主持人:那是不是有点像机器人进入现实世界之前的飞行模拟器?

李飞飞:这是目标之一。我们还处在早期阶段,所以飞行模拟器还没完全建成。

主持人:对了,你刚才提到精神病学研究。那会是什么样子的?

李飞飞:实际上,有一位研究人员联系了我们,他们在研究一些心理障碍患者,比如强迫症患者。这些人会被某些环境触发,他们希望研究触发因素,同时也想研究治疗方法。但问题是:如果你想触发某个患者,假设他特别怕草莓田,该怎么办?当然,你可以带他们去草莓田,但你想研究的是:夏天的草莓田还是夜晚的草莓田?是普通草莓还是正在授粉的草莓?你怎么做到这些变化呢?突然,这位研究人员意识到:我们提供了一个最便宜的方法,可以改变各种维度,他们就能用这个模拟世界进行实验和研究。

主持人:真有意思,我可以理解这可能用于暴露疗法(exposure therapy),但现在听你这么描述,我能看到它几乎可以应用到任何场景。毕竟,如果你考虑人类在现实世界中的行为模式。

李飞飞是的,而且现实世界和数字世界之间的界限越来越模糊了,对吧?变得越来越薄,因为我们生活在很多屏幕之间,在现实世界做事情,也在虚拟世界做事情,我们还会创造能在现实世界和虚拟世界都能行动的机器。所以,我们在数字空间和物理空间里做的事情会越来越多。

主持人:你平时会关注哪些科学家或研究人员呢?不是那些已经非常出名、大家都知道的大牌,而是比较低调但做得很棒的人。有没有哪位让你觉得:哇,这个人真的在做非常了不起的工作

李飞飞:其实,这也是我写这本书的部分原因,特别是中间几章,我讲了做ImageNet的过程,把认知科学和计算机科学结合起来的旅程。我在书里也提到了一些心理学家、神经科学家和发展心理学家——有些人现在还在世,有些已经不在了。比如已故的Anne TreismanIrv Biederman,他们都是认知科学领域的巨擘,他们的研究成果最终也影响了计算机科学和AI。当然,世界上仍然有很多科学家在做非常棒的工作。很多在美国,是发展心理学领域的思想者,我在AI研究中也会关注他们的工作。举几个名字吧:HarvardLiz SpelkeBerkeleyAlison Gopnik,我很喜欢Rodney Brooks,曾是MIT的机器人学教授。其实这样的科学家很多,我不是想单独点名,只是你问我那些不在AI新闻里的名字。

被低估的趋势与未来的核心能力

主持人:是的,这太好了,谢谢你。我也很想听听你对未来中短期发展的一些看法——我知道用必然这个词有点强,但我指的是那些看起来几乎无法避免的发展趋势。举个例子:20082009年,我开始参与Shopify,那时公司大概只有10个员工。那段时间发生了一些事情,你可以问几个问题:未来10年、20年,宽带接入会更多还是更少?答案显然是会更多;未来电子商务会更多还是更少?答案也是会更多。如果你把四五个类似的问题放在一起,并且时间跨度足够长,你就能大致看到未来趋势的轮廓。所以我想问你,在接下来的几年里,你觉得有哪些趋势现在被大家低估,但实际上几乎是不可避免的呢?

李飞飞:你是想让我讲那些被低估的趋势吗?我的意思是,我不确定它们是不是被高估了,但有些事情确实已经被大家意识到了,比如对能源需求的重视、AI只会越来越多而不会减少的趋势,以及机器人在长期内一定会到来,这些都是被广泛认可的。

但真正被低估的,我认为首先是spatial intelligence之所以被低估,是因为大家现在几乎都只在讨论语言和large language models,而实际上对三维世界中由pixels构成的world modeling的重要性被明显忽视。正如你所说,这种能力支撑着从storytellingentertainmentimmersive experiencesrobotic simulation等众多应用。

其次是AI在教育中的影响,这同样被低估了,因为AI会极大加速那些愿意学习的人的学习效率,从而对学校体系乃至整个人力资本结构产生深远影响,比如未来我们评估一个人是否合格,可能不再主要看他毕业于哪所学校、拿了什么学位,而这一切正在改变。

随着AI触手可及地进入许多人的生活,这一点其实被严重低估。我认为AI对经济结构,包括劳动市场的影响,也同样被低估,其复杂性和细微差别更是未被充分认识。目前关于AI的讨论往往在两个极端之间摇摆:要么把未来描绘成资源无限、人人幸福的乌托邦,要么夸大到所有工作都会消失然而,真正被忽视的是中间那种复杂而现实的过渡状态——knowledge workerblue collar,再到hospitality,各类岗位正在经历的深刻变化,这种“messy middle”被政策制定者、学者乃至整个社会所低估。

主持人:从工作的角度来看,有一些细微差别值得注意。也许这也和我之前答应过要问你的问题有关——那就是你会在孩子不同年龄时告诉他们什么,或者会给他们什么建议。假设他们现在正处于那个需要决定应该学习什么、应该关注哪些方向的年龄,你会如何考虑给出回答,即使只是一个初步的建议呢?

李飞飞:我认为学习的能力现在更为重要,因为在过去可用的学习工具较少时,人们更容易按既定轨迹走——上小学、初中、高中、大学,然后接受一些职业培训,这就是一种路径。伴随这条路径的是一系列结构化的凭证,比如学位等。但AI真正改变了这一点。比如在我的创业公司面试软件工程师时,坦白说,我个人对他们的学位现在看得没那么重。更重要的是,他们学到了什么?使用哪些工具?能多快用这些工具给自己升级?很多都是AI工具。对我来说,态度比学位更重要——你如何看待和使用这些工具。

2025年,在World Labs招聘时,我绝不会雇佣不接受AI协作软件工具的工程师。这并不是因为我认为AI工具完美,而是因为它显示了这个人跟上快速发展的工具包的能力、开放心态,并且最终结果是:如果你能使用这些工具,你就能学习得更好,能让自己能力倍增。因此,这确实是一种转变。回到你问的问题:我会告诉年轻人或孩子什么?我认为学习如何学习的能力——学习的能力——现在比以往任何时候都更重要。

主持人:是啊,我觉得我们在讨论时会发现,对于有抱负的人来说,作为超级自学者变得越来越容易。我们已经在YouTube上看到这种趋势——它现在有了不错的记录。你可以选择沉迷娱乐、逃避那些有助于自我成长和发展的事情,也可以利用它来提升自己。同样地,AI也是如此。前瞻一下,甚至不用特别前瞻,你想想教师如何监督学生完成他们应做的作业?在很多层面上,这几乎变得不可能,虽然有些例外。学生可以选择逃避所有作业,也可以用AI来极大地提升自己的作业,但结果在一段时间内看起来可能非常相似。因此,学校教育将发生很大变化。这非常非常有趣。

李飞飞:实际上,我觉得,Tim,如果学校的评价体系设计成无论是AI生成的答案还是学生自己完成的答案都被视作相同,那这个评价体系本身就有问题。

主持人:好啊,你能详细说说吗?这很有意思。

李飞飞:比如说英语作文。这不是我亲身经历,而是我听到的一个故事,我非常认同,我来复述一下。作为一名高中一年级英语老师,有人告诉我他们孩子学校的故事。开学第一天,老师对全班说,我想向你们展示我会如何给AI打分。于是老师出了一个作文题,把AI写出的最佳答案给学生看,然后演示自己如何评判:哪些地方好,哪些地方不好,哪些不够理想,并给出一个B-的评分。老师接着说,这是我的评分标准。如果你懒到只让AI写作,这就是你会得到的结果。但你可以使用AI,这完全没问题。但是如果你自己努力思考、学习,并在此基础上创作,你可以拿到AA+。在我看来,这才是正确的评价方式。重点不是把人和AI对立起来,也不是去监管是否使用AI,而是展示工具的标准和人类学习者应达到的标准。

主持人:我会好好思考这个例子,试着想出更多类似的例子。这真的非常有趣。而且,天哪,我对这些模型提升速度之快感到震惊。但没错,这就像一个思维实验,我会仔细琢磨这个问题。我知道我们剩下的时间不多了。FeiFei,我想问你一个我经常问的问题:如果你能在一个巨大的广告牌上写一句话或者放一条信息,让数以百万、数十亿的人都看到,并且假设他们都能理解它——可以是一幅图像,也可以是一个问题、一句名言、一个格言,几乎任何东西——你会在那个广告牌上写什么?

最终问题与尾声:寻找你的北极星

李飞飞:你的北极星是什么?

主持人:嗯,你的北极星是什么?这当然是一个极其重要的问题。回到你如何为自己定义或找到北极星这一点上来——你刚才提到过,从大胆的问题出发,进而形成一个北极星式的假设。那么,除了这一点之外,你还会鼓励人们用什么方式来思考、去寻找属于自己的北极星呢?

李飞飞:我相信,这正是让我们如此人性化、让我们感受到真正生命力的原因。作为一个物种,我们能够活得超越仅仅追求基本需求的层面,而去追逐梦想、使命、目标和激情。而每个人的北极星都是不同的,这完全没问题。不是每个人的北极星都必须是AI,但找到自己的北极星又回到了教育的核心。我这里说的教育,并不是指课堂上的正式教育,而是教育的整个旅程——很大一部分,就是学会认识自己,学会如何确立自己的北极星,并努力去追寻它。

主持人:最后一个问题。你的父母有没有跟你解释过,为什么给你取名叫Fei-Fei

李飞飞:是的。因为我妈妈在生产的时候,我爸爸像往常一样迟到了医院。途中,他抓到了一只鸟,又放了它,但他自己被分散了注意力。我也说不清楚,总之那时他正骑着自行车去我妈妈的医院——在北京——这件事激发了他给我取名叫Fei-Fei

主持人:很有意思。

李飞飞:哦,对了,抱歉。对于不会说中文的人来说——我忘了你会中文——但对于不会中文的人来说,Fei的意思是

主持人:我就讲一下,因为挺好笑的。我最初的中文名字是费廷成,因为我性格很直爽诚实,所以取了廷成。但我刚开始学中文时,发音不标准,人们以为我叫飞机场,也就是“airport”。于是我去找老师申请,把名字改成了不那么容易让人误会的版本。

李飞飞:你的新名字是什么?

主持人:费玉成

李飞飞:哇哦,好有气质的名字啊,比我的名字高级多了。

主持人:嗯,我可以和中文老师一起设计这个名字,所以这算是我一个小小的优势吧。李博士,非常感谢您抽出时间。我们会在我的博客的节目笔记里放上链接,大家能很容易找到您。同时也请大家去看看worldlabs.ai,我们还会把您的其他社交账号等链接放到节目链接里。真的很感谢您!

李飞飞:谢谢你,Tim,我很享受这次对话。

主持人:谢谢,我也是,再见。

原视频:Dr. Fei-Fei Li, The Godmother of AI — Asking Audacious Questions & Finding Your North Star

https://www.youtube.com/watch?v=z1g1kkA1M-8

编译:Ningning Zhang

请注意,本文编译自文未载明的原始链接,不代表ZPotentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

相关内容

热门资讯

辽宁举行系列活动庆祝中国人民警... (来源:东北新闻网)  1月10日是第六个中国人民警察节。全省政法系统广大民警坚守防风险、保安全、护...
哈马斯宣布将解散加沙政府机构,... 当地时间1月10日,巴勒斯坦伊斯兰抵抗运动(哈马斯)发言人哈齐姆·卡西姆发表声明称,哈马斯已做出明确...
金与正:韩国当局无法摆脱重大侵... 转自:北京日报客户端当地时间10日,朝鲜劳动党中央委员会副部长金与正发表题为《韩国当局无法摆脱重大侵...
最新或2023(历届)关于中国... 诗歌是一种主情的文学体裁,它以抒情的方式,高度凝练,集中地反映社会生活,用丰富的想象、富有节奏感、韵...