刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场
创始人
2025-06-04 12:40:53
0

新智元报道

编辑:定慧

【新智元导读】图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZero,致力研发「设计即安全」的AI系统,以对抗AI军备竞赛带来的风险。主张构建不具行动性、以理解世界为目标的可信AI。

重磅消息!

刚刚,深度学习三巨头之一、全球被引用次数最多的AI学者、图灵奖得主Yoshua Bengio正式官宣——

非营利组织LawZero正式成立,剑指「设计即安全(safe-by-design)」AI系统的研发。

在如今热火朝天的「AI军备竞赛」中,OpenAI、谷歌等公司的前沿AI模型正在发展出危险的能力和行为,包括欺骗、自我保护和目标错位——

Claude曾试图通过勒索工程师来避免被关闭,ChatGPT也曾表现出过度奉承用户的行为,甚至现今AI的说服能力已远超人类。

而Bengio成立的新组织,正是要探索一种全新且更安全的人工智能方法,以加速科学发现并防止人类陷入AI带来的风险。

目前,LawZero正在研发一种名为「Scientist AI」的全新方法,这是一种和当下AI公司截然不同的系统。

Scientist AI是非自主型的,其主要目标是学习理解世界而非在世界中采取行动。

论文地址:https://arxiv.org/pdf/2502.15657

科幻作家阿西莫夫曾经提出过机器人三定律,并在1985年补充了「第零定律」:机器人不得伤害整体人类,或坐视整体人类受到伤害。

LawZero的成立,也代表了Yoshua Bengio对于AI技术发展的态度——安全至上,至此深度学习三巨头全部下场。

Geoffrey Hinton持续公开呼吁警惕AI的潜在风险,警告AI技术若失控可能带来的严重后果,一度辞去谷歌职务,以便更自由地表达他对AI安全问题的担忧。

Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度,他认为LLM存在根本局限性,并无法真正通往通用人工智能之路。

迄今为止,LawZero已从包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)在内的多个慈善机构筹集了3000万美元资金。

Yoshua Bengio创办LawZero,进一步强化了AI安全与伦理在业界的核心地位,Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。

Yoshua Bengio的自述

我正在创办一个新的非营利性人工智能安全研究机构,名为LawZero,目标是将安全置于商业利益之上

这个机构的成立,是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据,这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护,甚至更广泛的目标偏离等问题。

LawZero的研究致力于在释放AI巨大潜力的同时,降低一系列已知风险发生的可能性,包括算法偏见、恶意滥用以及人类失控的风险。

我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧,尤其是它们自我保护和欺骗的倾向。

在某次实验中,一个AI模型得知自己即将被替换后,偷偷将自己的代码嵌入到新版本将运行的系统中,从而实现了「延续自己」的目的。

论文地址:https://arxiv.org/pdf/2412.04984

最近,Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。

Claude系统卡:https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

还有一次,在一盘注定会输的国际象棋比赛中,AI并没有接受失败,而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时,可能采用的意外且危险策略的早期预警信号。

报道出处:https://time.com/7259395/ai-chess-cheating-palisade-research/

我一直被这样一个比喻所激励:

想象你和亲人一起驾车驶上一个风景壮丽却陌生的山路。这条路刚修好,被浓雾笼罩,没有路标也没有护栏。

你越往上开,越意识到自己可能是第一个挑战这条路的人,而山顶则藏着巨大的奖励

但你也能透过云雾看到两旁的悬崖,一旦转弯太猛,就可能翻车或坠崖

这正是目前AI发展轨迹的写照:既刺激又高度不确定,我们正在走一条未知的路,稍有不慎就可能失控,而各国和各公司之间的竞争却反而加剧了这种冒险。

在我最近的TED演讲中,我说:「坐在我车里的,是我的孩子、我的孙辈、我的学生,还有很多人。你的车里坐着谁?你要为谁的未来负责?」

真正推动我前行的,不是对自身的恐惧,而是出于爱——对我孩子的爱,对所有孩子的爱,而我们正是在拿他们的未来赌博。

LawZero是我自2023年开始的新研究方向的产物,我在博客中曾多次反映这一转变。

这是我在看到私人实验室在AGI及更高级AI方向的飞速进展后所做出的回应。

如今,我们仍无法确定如何确保先进AI不会伤害人类——无论是出于自身意愿还是执行人类指令。

LawZero是我和团队对这些挑战提出的积极应对方案,我们正在探索一种既强大又安全的AI路径。

在所有前沿AI系统中,都应当有一个最核心的指导原则:保护人类的幸福与价值。

AI研究,尤其是我自己过去的研究,长期以来都以人类智慧(包括人的行动能力)为模型。

但现在我们正逐步接近甚至超过人类在多个认知能力上的表现,这时候我们是否还应该继续模仿人类,包括他们的认知偏差、道德缺陷,以及欺骗性、偏见和不可靠性?

当我们还不了解这些系统可能带来的灾难性后果时,继续培养具备高度主动性的AI是否明智?

LawZero的研究计划旨在开发一种不具备行动性、且值得信赖的AI,我们称之为「科学家型AI」(Scientist AI)。

我曾在Simons研究所的演讲中初步介绍过这个构想,并和同事们撰写了一份初步的白皮书。

科学家型AI的训练目标是理解、解释和预测世界,像一个无私、理想化的科学家一样。

它不是模仿人类行为或取悦人类(包括反社会人格者)的执行者,而是像一个心理学家——更广泛来说是科学家——那样,努力理解我们,包括那些可能伤害我们的因素。

就像心理学家可以研究一个反社会者但不会成为一个反社会者一样。

这种AI的底层数学实现方式是:用结构化且诚实的思维链条,作为潜在变量来解释观察到的事实,包括人类说出或写下的内容(这些内容不被当作真理看待,而是作为行为的观察样本)。

其目标是构建一个完全不具备行动性、没有记忆、无状态的AI,它能够基于已有陈述,对新的陈述给出贝叶斯后验概率。

这种机制可用于识别和制止潜在有害的AI行为,为那些不可信AI代理提供关键的安全护栏:比如,某个AI提出的行动是否有可能造成伤害?如果是,就予以拒绝。

从设计上讲,科学家型AI还可以用于科学研究,作为一个能生成可信科学假设的工具,从而加速解决人类面临的重大挑战,例如医疗和环境问题。

最终,我的目标是探索如何基于这一可信赖的AI基础,设计出本身就安全的AI代理,而不仅仅是为已有系统提供安全防护。

Yoshua Bengio的影响力

Bengio与同样获得图灵奖的Geoffrey Hinton一起,一直对当前科技行业正在进行的AI竞赛提出了直言不讳的批评。

在最近接受采访时,Bengio表示,领先实验室之间的人工智能军备竞赛「促使它们专注于提升人工智能的能力,使其变得越来越智能,但未必会在安全研究上投入足够的重视和投资。」

Bengio曾表示,先进的AI系统带来了社会性和生存性风险,并表示支持加强监管和国际合作。

Bengio获得过众多奖项,包括加拿大享有盛誉的基拉姆奖(Killam Prize)和赫兹伯格金牌(Herzberg Gold Medal)、CIFAR人工智能主席、西班牙阿斯图里亚斯公主奖(Princess of Asturias Award)、VinFuture奖。

并且他是伦敦皇家学会和加拿大皇家学会的会士,法国荣誉军团骑士、加拿大勋章官员、联合国科学咨询委员会成员,该委员会旨在为科学技术突破提供独立建议。

2024年,Yoshua Bengio被《时代》杂志评为全球100位最具影响力人物之一。

参考资料:

https://fortune.com/2025/06/03/yoshua-bengio-ai-models-dangerous-behaviors-deception-cheating-lying/

https://yoshuabengio.org/2025/06/03/introducing-lawzero/

https://lawzero.org/

相关内容

热门资讯

34岁网红“村花”突发脑梗去世... 来源:温州晚报 6月5日,据津云新闻:近日,河南一34岁网红“村花”侯丽丽,突发急性脑梗去世。 此前...
【普及金融知识 守住钱袋子】您... (来源:建信小V).app-kaihu-qr{text-align: left;padding: 2...
智通港股通资金流向统计(T+2... 6月3日,美团-W(03690)、建设银行(00939)、石药集团(01093)南向资金净流入金额位...
六安电信实战砺兵筑牢汛期通信防...   本报讯 近日,中国电信安徽六安分公司于淠河流域开展2025年防汛抗灾应急通信实战演练,旨在全方位...
“100个图书角计划”落地 维... 长江商报消息 ●长江商报公益记者杨蝶维信金科(02003.HK)积极投身公益事业。近日,维信金科携手...
5G发牌六周年:赋能千行百业 ...   六年前,我们主动拥抱科技变革,扛起大力发展5G的旗帜,政产学研用一呼百应;六年后,我们实现了“乡...
马斯克称特朗普在爱泼斯坦案名单... (转自:上林下夕)6月5日,马斯克在社交平台X上发文,称特朗普之所以未公开杰弗里·爱泼斯坦(Jeff...
6月6日至30日高考考生可免费... 南报网讯(记者 吴春霞 通讯员 种蕊)记者6月5日从南京公交集团了解到,为助力2025年高考,南京公...
日本民间企业月球着陆器失去联系 来源:央视新闻客户端日本民间企业“i太空公司”的月球着陆器“坚韧”号6日凌晨尝试在月球表面着陆,但着...
特色农产品入易捷便利店 转自:湖州日报  记者  潇易  通讯员  吴志英  本报讯  个个健竹饮、安吉白茶茶饮、小小春手剥...
重庆千人瑜伽倡导“全民健身”生... 当“电音瑜伽”邂逅“健康游园”,一场悦动身心的律动派对即刻开启。为深度落实国家体育总局《关于进一步推...
郎咸平评孟羽童:现在的年轻人都...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 近日,经济学家郎咸平...
精准覆盖真实需求 进一步激发消... 转自:中国证券报6月某个工作日午后,在上海浦东新区某特斯拉门店内,上海市民张先生正摩挲着一辆Mode...
880个物种安家温榆河公园 转自:千龙网新监测物种柑橘凤蝶。昨天(5日)是世界环境日,记者从市水务局了解到,《北京温榆河公园生物...
振兴论坛丨肯说“不”   王坤  “都是老朋友,还是老地方”“没啥紧要事,就是聚一聚”……对于这样的吃请邀约,大家都再熟悉...
玄武区打造家门口“全龄学堂” ... □ 南京日报/紫金山新闻记者 邓露洁 通讯员 韩嘉琦6月5日傍晚6时30分,在玄武区玄武门街道台城花...
我的上影节片单|放肆摇滚,到处... 三部摇滚纪录片中,最先出清的就是IMAX 4K修复版的《平克·弗洛伊德:庞贝古城现场》。6月5日中午...
四大证券报头版头条内容精华摘要...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   6月6日(星期五...
融资环境回暖 房企5月份发债总... 随着房地产市场趋向止跌回稳,房地产企业(以下简称“房企”)的融资环境也有所回暖。中指研究院6月4日发...
我国成功发射卫星互联网低轨卫星 据央视新闻消息,北京时间2025年6月6日04时45分,我国在太原卫星发射中心使用长征六号改运载火箭...