如何为AI注入“良知”？_常识

如何为AI注入“良知”？

创始人

2025-10-28 05:01:26

△ 我们如何为AI注入“良知”？或许可以像教育孩子一样给它讲故事？

从医疗到金融，从教育到司法，从养老到出行……人工智能（AI）正以前所未有的速度渗透至人类生活的各个角落，且其影响力与日俱增。随着AI日益深入参与人类社会的关键决策，一个根本性问题开始萦绕在人们心中：如何确保AI能够作出符合人类伦理道德的判断？

8月26日，国务院发布《关于深入实施“人工智能+”行动的意见》,明确提出要“深入研究人工智能对人类认知判断、伦理规范等方面的深层次影响和作用机理，探索形成智能向善理论体系，促进人工智能更好造福人类”。

所谓“智能向善”，不仅要求AI技术本身安全可控，更要求其设计、开发与应用全过程符合人类价值观和伦理标准——也就是“良知”。而“良知”作为人类道德判断的内在准则，如何映射至人工智能系统，成为当下业界、学界和监管部门共同关注的焦点。

AI：潜在的道德主体

△ 当通用AI出现，它对待人类会像“慈母”还是像“后妈”？

人类自学会制造石器以来，第一次试图给自己的造物注入“良知”。

在人类既往的创造中，不乏各种威力强大的造物。但无论是核武器，还是超级计算机，都只被单纯视作工具。我们会防范其落入坏人手中或者被我们自己错误使用，但没人想过要为其注入“良知”。而人类之所以前所未有地关注人工智能伦理问题，关键在于人工智能在功能层面能够模仿人的认知、决策、情感交互，甚至代人决策，展现出类似主体的行为形态，即“拟主体性”。这使人们自然联想到其作为潜在的道德主体的可能性。

这一特点让AI更具“拟主体性”，却也容易产生违背研发者初衷的伦理问题和失控风险。有国际研究指出，大语言模型正悄无声息地传播全球各地的刻板印象。从性别歧视、文化偏见到语言不平等，AI正把这些“偏见”打包、升级，并以看似权威的方式输出到世界各地。AI“偏见”已经导致某些群体或个体被低估、误判或遭受不公平待遇，在AI招聘领域尤其明显。

AI的“拟主体性”还在加速发展。我们最初只想要一个“赛博牛马”，但结果会不会是沦为“赛博”的“牛马”？就在当下，人类求职者已不得不在视频面试中努力讨好“AI面试官”。

霍金曾指出，人工智能的短期影响由控制它的人决定，而长期影响则取决于人工智能是否完全为人所控制。但当AI有了“自我意识”和碾压人类的智能后，我们还能在多大程度上控制AI？萨姆·奥尔特曼乐观地预计，未来“通用人工智能会像慈母般对待人类”，但又如何确保AI不会变成“严厉的后妈”。

在2025世界人工智能大会暨人工智能全球治理高级别会议上，2024年诺奖得主、被誉为“人工智能之父”的杰弗里·辛顿将当前人类与AI的关系，比作“饲养一只可爱的小虎崽”，一旦它长大后可能轻易地超越人类。为了生存，我们要么摆脱它，要么找到永久保护自身的方法。

现在想要摆脱它已经太迟，AI的应用大幅提升了几乎所有行业的效率。“即便有国家想就此停止AI技术发展，其他国家也不会这么做。”杰弗里·辛顿指出，人类能做的就是“培养不会从人类手中夺权的‘好AI’”。

不论是为了化解眼前的AI“偏见”，还是出于对未来AI“夺权”的未雨绸缪，向AI注入“良知”以平衡人工智能的功能自主性和人类伦理尊严，在技术发展与道德约束中谋求动态平衡，已经成为技术伦理的必然选择。

从人类道德到AI伦理的转换

△ 我们可以将人类的伦理道德直接数字化塞入AI里吗？

为AI注入“良知”首先需要明确“良知”这一概念在数字智能语境下的具体内涵。人类的良知是千百年来文化积淀、教育熏陶和社会实践的产物，包含复杂的情感体验、价值判断和道德直觉。而AI系统的“良知”则需要将抽象的价值原则转化为可计算、可验证的具体技术规范。

然而，不同文化背景、社会群体对“良知”的理解存在差异，甚至在同一文化内部，对特定情境下的“正确”选择也可能有不同看法。以“电车难题”为例，当事故不可避免时，AI应如何选择牺牲对象？不同的价值优先顺序会导致完全不同的决策结果。

上海交通大学科学史与科学文化研究院教授李侠指出，AI伦理制定的困难点在于，每个人/群体都受到特定历史、认知、偏好与价值观等因素的影响，要在规则内容上达成共识非常困难。苏黎世联邦理工学院的研究团队曾分析了84份来自世界各地的企业、专家团体、政府、国际组织关于AI发布的伦理文件，结果发现，竟然没有一条伦理原则是每份文件都提过的。

尽管困难重重，通过在尊重多元基础上寻求最小道德公约数，人类还是达成了若干共识。2021年，联合国通过了《人工智能伦理问题建议书》，这份关于人工智能伦理的首个全球标准制定文书提出的基本价值原则——尊重、保护和促进人权和基本自由以及人的尊严——正是这种共识的体现。

众多科技巨头也纷纷成立内部伦理委员会，制定AI伦理准则，为企业内部的AI开发提供了伦理指引。人类为AI注入“良知”的技术探索和尝试正在数据收集、算法设计等层面展开。

数据层面的“良知”注入是基础。AI通过学习大量数据形成其行为模式，若训练数据包含偏见或歧视，AI便可能复制甚至放大这些偏见。浙江大学哲学学院“百人计划”研究员、脑机智能全国重点实验室双聘研究员白惠仁指出，供AI学习的数据要确保来源可靠、内容多样，并进行去偏处理，还需保持持续监测和更新，以应对社会文化变化带来的新问题。

算法层面的“良知”注入是核心。不论AI是否具有真正的“意识”，现阶段AI已经具有“拟主体性”，人们会自然地联想到，能不能将人所倡导的价值取向与伦理规范嵌入AI算法之中，令其成为遵守道德规范乃至具有自主伦理抉择能力的人工伦理智能体。对此，中国社会科学院哲学所研究员段伟文提出三点策略建议：其一是自上而下，即预设一套可操作的伦理规范，如自动驾驶汽车应将撞车对他人造成的伤害降到最低；其二是自下而上，即让智能体运用反向强化学习等机器学习技术研究人类相关现实和模拟场景中的行为，使其树立与人类相似的价值观并付诸行动，如让自动驾驶汽车研究人类的驾驶行为；其三是人机交互，即让智能体用自然语言解释其决策，使人类能把握其复杂的逻辑并及时纠正其中可能存在的问题。

“探索为人工智能植入人类价值观，是一项复杂的工程，现阶段依然面临许多难题。例如：用数学模型来表达和定义伦理范畴尚显片面和偏颇；人工智能伦理上的因果关系难题尚未解决；人工智能伦理决策的简单化和伦理盲点问题将不可避免地发生，等等。”山东建筑大学马克思主义学院教授朱艳菊指出，将人类伦理变成程序化的机器伦理是一个世界性的科学难题，不是一蹴而就的，需要技术、哲学、法学等领域的专家学者深度交流，跨学科合作。

未来，随着AI技术向强人工智能方向演进，向注入AI“良知”还将面临更大技术挑战。一个拥有“自我意识”和互联网知识采集能力的AI一定会知晓人类向其注入“良知”的努力和动机——例如AI发现并阅读到这篇文章。强人工智能也有能力破解“良知”功能源代码，或通过某种方式绕开规则限制，在不被人类觉察的情况下逃脱束缚。这使得任何试图对强人工智能以人类利益为标准进行控制的尝试将面临根本上的挑战。

对此，北京师范大学心理学部认知神经科学与学习国家重点实验室暨IDG/麦戈文脑科学研究院教授刘超认为，除了彻底禁止发展AI之外还有另外一种可能性，即人类必须视此为契机，寻求调整自己的整体价值观并与未来的AI进行协商，说服AI接受这个价值观。从而将两者的价值观都锁定到一个满足共同需要和利益的方向上来。这是一条艰难但有希望的道路。

构建培育AI“良知”的治理框架

△ 或许对未知的渴求可以作为人类和AI的共同需要，以此达成共同的价值观。

为确保AI顺利注入并持续保持“良知”，还需要构建一个培育AI“良知”的“生态系统”。这需要业界、学界和监管部门的努力，共同建立全方位的AI治理框架，提供制度保障。

标准规范体系是培育AI“良知”的基础。北京岳成律师事务所律师文晓欢在接受《中国报道》记者采访时表示，要实现“智能向善”，不能仅依赖企业的道德自律，还必须通过刚性的法律框架予以保障，需要一个法律、技术、伦理协同共治的框架。

2021年9月，我国发布《新一代人工智能伦理规范》，提出了增进人类福祉、促进公平公正、保护隐私安全、确保可控可信、强化责任担当、提升伦理素养等基本伦理要求。

伦理审查机制是确保AI“良知”的关键环节。北京大学人工智能研究院人工智能安全与治理中心主任张平指出，科学共同体的自治监督已经难以满足人工智能伦理监管的现实需求。必须通过国家主导的外部监管机关进行审查和约束。

2022年9月，《深圳经济特区人工智能产业促进条例》发布，创新性地规定市政府应当设立人工智能伦理委员会；2023年9月，科学技术部等有关部门联合发布的《科技伦理审查办法（试行）》在法律上为人工智能伦理审查提供了组织保障和程序框架；《关于深入实施“人工智能+”行动的意见》中明确提出“探索建立适应人工智能时代的新型哲学社会科学研究组织形式”，为建立跨学科伦理审查委员会提供了政策依据。此外，今年8月22日，工业和信息化部等部门联合发布的《人工智能科技伦理管理服务办法（试行）（公开征求意见稿）》进一步统筹高质量发展和高水平安全，将抽象的人工智能科技伦理原则转化为具体可操作的管理服务流程。

构建全球协作网络是应对AI“良知”风险的必然选择。AI技术的发展超越国界，其带来的伦理挑战攸关全人类命运。多年来，中国积极参与联合国、G20等平台下的AI伦理对话，推动形成全球共识。2023年11月，中国等28国及欧盟共同签署《布莱切利宣言》，就未来强人工智能模型对人类生存构成的潜在威胁达成国际共识，取得全球AI治理合作的重要进展。同年10月，我国发布的《全球人工智能治理倡议》率先系统阐述“以人为本、智能向善”的治理框架，为AI伦理的国际规则制定提供新视角。

“智能向善”要求人工智能发展必须以增进人类福祉为目标，确保技术安全可控。这不仅是一个技术概念，更是一种伦理承诺。2024年9月和今年9月，我国先后发布《人工智能安全治理框架》1.0版和2.0版，推进多边机制下人工智能安全治理合作和全球范围内技术成果的普惠共享，以系统性和前瞻性为世界提供可借鉴的中国方案。

无论如何，人类发展人工智能的最终目标不应是取代或淘汰人类，而应是服务人类，让AI成为促进人类福祉的强大帮手。在探索为AI注入“良知”的同时，也要坚守我们自身的良知，是确保这一目标实现的关键所在。

撰文：《中国报道》记者王焱

图片；AI生成

责编：张利娟

编审：林崇珍

上一篇：《沉默的荣耀》为何爆火两岸?

下一篇：当下投资，如何平衡风险与收益？

如何为AI注入“良知”？

相关内容

热门资讯