刚刚，Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场_热点

刚刚，Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场

创始人

2025-06-04 12:40:53

新智元报道

编辑：定慧

【新智元导读】图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZero，致力研发「设计即安全」的AI系统，以对抗AI军备竞赛带来的风险。主张构建不具行动性、以理解世界为目标的可信AI。

重磅消息！

刚刚，深度学习三巨头之一、全球被引用次数最多的AI学者、图灵奖得主Yoshua Bengio正式官宣——

非营利组织LawZero正式成立，剑指「设计即安全（safe-by-design）」AI系统的研发。

在如今热火朝天的「AI军备竞赛」中，OpenAI、谷歌等公司的前沿AI模型正在发展出危险的能力和行为，包括欺骗、自我保护和目标错位——

Claude曾试图通过勒索工程师来避免被关闭，ChatGPT也曾表现出过度奉承用户的行为，甚至现今AI的说服能力已远超人类。

而Bengio成立的新组织，正是要探索一种全新且更安全的人工智能方法，以加速科学发现并防止人类陷入AI带来的风险。

目前，LawZero正在研发一种名为「Scientist AI」的全新方法，这是一种和当下AI公司截然不同的系统。

Scientist AI是非自主型的，其主要目标是学习理解世界而非在世界中采取行动。

论文地址：https://arxiv.org/pdf/2502.15657

科幻作家阿西莫夫曾经提出过机器人三定律，并在1985年补充了「第零定律」：机器人不得伤害整体人类，或坐视整体人类受到伤害。

LawZero的成立，也代表了Yoshua Bengio对于AI技术发展的态度——安全至上，至此深度学习三巨头全部下场。

Geoffrey Hinton持续公开呼吁警惕AI的潜在风险，警告AI技术若失控可能带来的严重后果，一度辞去谷歌职务，以便更自由地表达他对AI安全问题的担忧。

Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度，他认为LLM存在根本局限性，并无法真正通往通用人工智能之路。

迄今为止，LawZero已从包括生命未来研究所（Future of Life Institute）和开放慈善基金会（Open Philanthropy）在内的多个慈善机构筹集了3000万美元资金。

Yoshua Bengio创办LawZero，进一步强化了AI安全与伦理在业界的核心地位，Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。

Yoshua Bengio的自述

我正在创办一个新的非营利性人工智能安全研究机构，名为LawZero，目标是将安全置于商业利益之上。

这个机构的成立，是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据，这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护，甚至更广泛的目标偏离等问题。

LawZero的研究致力于在释放AI巨大潜力的同时，降低一系列已知风险发生的可能性，包括算法偏见、恶意滥用以及人类失控的风险。

我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧，尤其是它们自我保护和欺骗的倾向。

在某次实验中，一个AI模型得知自己即将被替换后，偷偷将自己的代码嵌入到新版本将运行的系统中，从而实现了「延续自己」的目的。

论文地址：https://arxiv.org/pdf/2412.04984

最近，Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。

Claude系统卡：https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

还有一次，在一盘注定会输的国际象棋比赛中，AI并没有接受失败，而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时，可能采用的意外且危险策略的早期预警信号。

报道出处：https://time.com/7259395/ai-chess-cheating-palisade-research/

我一直被这样一个比喻所激励：

想象你和亲人一起驾车驶上一个风景壮丽却陌生的山路。这条路刚修好，被浓雾笼罩，没有路标也没有护栏。

你越往上开，越意识到自己可能是第一个挑战这条路的人，而山顶则藏着巨大的奖励。

但你也能透过云雾看到两旁的悬崖，一旦转弯太猛，就可能翻车或坠崖。

这正是目前AI发展轨迹的写照：既刺激又高度不确定，我们正在走一条未知的路，稍有不慎就可能失控，而各国和各公司之间的竞争却反而加剧了这种冒险。

在我最近的TED演讲中，我说：「坐在我车里的，是我的孩子、我的孙辈、我的学生，还有很多人。你的车里坐着谁？你要为谁的未来负责？」

真正推动我前行的，不是对自身的恐惧，而是出于爱——对我孩子的爱，对所有孩子的爱，而我们正是在拿他们的未来赌博。

LawZero是我自2023年开始的新研究方向的产物，我在博客中曾多次反映这一转变。

这是我在看到私人实验室在AGI及更高级AI方向的飞速进展后所做出的回应。

如今，我们仍无法确定如何确保先进AI不会伤害人类——无论是出于自身意愿还是执行人类指令。

LawZero是我和团队对这些挑战提出的积极应对方案，我们正在探索一种既强大又安全的AI路径。

在所有前沿AI系统中，都应当有一个最核心的指导原则：保护人类的幸福与价值。

AI研究，尤其是我自己过去的研究，长期以来都以人类智慧（包括人的行动能力）为模型。

但现在我们正逐步接近甚至超过人类在多个认知能力上的表现，这时候我们是否还应该继续模仿人类，包括他们的认知偏差、道德缺陷，以及欺骗性、偏见和不可靠性？

当我们还不了解这些系统可能带来的灾难性后果时，继续培养具备高度主动性的AI是否明智？

LawZero的研究计划旨在开发一种不具备行动性、且值得信赖的AI，我们称之为「科学家型AI」（Scientist AI）。

我曾在Simons研究所的演讲中初步介绍过这个构想，并和同事们撰写了一份初步的白皮书。

科学家型AI的训练目标是理解、解释和预测世界，像一个无私、理想化的科学家一样。

它不是模仿人类行为或取悦人类（包括反社会人格者）的执行者，而是像一个心理学家——更广泛来说是科学家——那样，努力理解我们，包括那些可能伤害我们的因素。

就像心理学家可以研究一个反社会者但不会成为一个反社会者一样。

这种AI的底层数学实现方式是：用结构化且诚实的思维链条，作为潜在变量来解释观察到的事实，包括人类说出或写下的内容（这些内容不被当作真理看待，而是作为行为的观察样本）。

其目标是构建一个完全不具备行动性、没有记忆、无状态的AI，它能够基于已有陈述，对新的陈述给出贝叶斯后验概率。

这种机制可用于识别和制止潜在有害的AI行为，为那些不可信AI代理提供关键的安全护栏：比如，某个AI提出的行动是否有可能造成伤害？如果是，就予以拒绝。

从设计上讲，科学家型AI还可以用于科学研究，作为一个能生成可信科学假设的工具，从而加速解决人类面临的重大挑战，例如医疗和环境问题。

最终，我的目标是探索如何基于这一可信赖的AI基础，设计出本身就安全的AI代理，而不仅仅是为已有系统提供安全防护。

Yoshua Bengio的影响力

Bengio与同样获得图灵奖的Geoffrey Hinton一起，一直对当前科技行业正在进行的AI竞赛提出了直言不讳的批评。

在最近接受采访时，Bengio表示，领先实验室之间的人工智能军备竞赛「促使它们专注于提升人工智能的能力，使其变得越来越智能，但未必会在安全研究上投入足够的重视和投资。」

Bengio曾表示，先进的AI系统带来了社会性和生存性风险，并表示支持加强监管和国际合作。

Bengio获得过众多奖项，包括加拿大享有盛誉的基拉姆奖（Killam Prize）和赫兹伯格金牌（Herzberg Gold Medal）、CIFAR人工智能主席、西班牙阿斯图里亚斯公主奖（Princess of Asturias Award）、VinFuture奖。

并且他是伦敦皇家学会和加拿大皇家学会的会士，法国荣誉军团骑士、加拿大勋章官员、联合国科学咨询委员会成员，该委员会旨在为科学技术突破提供独立建议。

2024年，Yoshua Bengio被《时代》杂志评为全球100位最具影响力人物之一。

参考资料：

https://fortune.com/2025/06/03/yoshua-bengio-ai-models-dangerous-behaviors-deception-cheating-lying/

https://yoshuabengio.org/2025/06/03/introducing-lawzero/

https://lawzero.org/

上一篇：午报创业板指震荡走高涨超1%，大消费板块反复活跃，AI硬件方向展开反弹

下一篇：格力电器(000651.SZ)：已经建立SiC SBD和MOS芯片的工艺平台，其中部分产品已在公司内部批量使用

刚刚，Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场

相关内容

热门资讯