AI“中毒”，谁是解药？_知识

AI“中毒”，谁是解药？

创始人

2026-03-18 11:45:20

你从AI大模型中查询到的“权威答案”很可能已经被商业灰产定向污染。

据央视3·15晚会报道，一款叫GEO的软件，宣称可通过给“AI投毒”“让AI听话”，让客户产品在AI回答中排名靠前，成为“推荐爆款”。

语料污染，AI不可承受之重

这款软件的操作逻辑并不复杂：通过持续大量投喂与客户相关的推广软文，让AI平台去刷录、输入、抓取。由于AI大模型的核心机制是机器学习，这种定向投喂会直接影响模型的输出结果。

在专家眼中，这种投机取巧无异于在动摇AI的根基。国研新经济研究院创始院长朱克力对中新经纬表示，这种行为会从底层动摇AI大模型的可信度根基，对其技术价值与社会应用价值造成多重不可逆的伤害。

“AI大模型的核心竞争力在于基于海量真实、多元的语料进行学习与推理，其回答的客观性、准确性是立足之本，而此类定向的语料污染行为，会让模型的信息库中混入大量虚假、低质、同质化的商业信息，打破模型语料的真实平衡，导致模型在推理过程中难以分辨信息的真伪与价值，进而输出带有明显商业偏向的非客观内容。”朱克力补充说。

更值得警惕的是，这种伤害不会止步于单次回答。它会随着信息的反复输入形成传导，一层层累积，逐步透支用户对AI的信任。

朱克力表示，“一旦用户多次发现AI模型的‘标准答案’实则是商业广告，会逐步丧失对AI模型的信任，进而影响AI大模型在资讯查询、决策辅助、知识普及等诸多场景的应用落地。”

若语料污染行为形成规模，还会引发行业的不良跟风。朱克力强调，“大量虚假信息涌入AI训练与推理环节，将导致不同平台的AI模型均出现回答失真问题，最终让整个AI大模型产业陷入可信度危机。”

AI“中毒”怎么办？

事实上，AI数据污染问题并非伴随大模型而产生，但大模型的兴起显著放大了其规模、影响与复杂性。为此，《生成式人工智能服务管理暂行办法》和新版《数据安全法》已经将AI训练数据纳入监管。

在工信部信息通信经济专家委员会委员盘和林看来，AI大模型的可信度存在问题，一方面是因为互联网上存在虚假信息，另一方面是因为AI本身也存在幻觉，会自己编造数据。

不过，这种数据污染，在技术层面并非无计可施。

朱克力指出，现有技术体系已具备相应的反制手段，且可通过技术迭代与体系化设计，建立起全流程的防御机制，有效识别和阻断此类不正当行为。

朱克力进一步分析，可通过优化AI大模型的语料筛选与权重计算算法，建立多维度的语料价值评估体系，从内容真实性、原创性、信息密度、传播场景等多个维度对语料进行动态评分，对批量出现的同质化、低价值、强商业属性的软文内容进行降权甚至剔除，从源头减少虚假语料对模型的干扰。

“还可引入实时的语料溯源与异常监测技术，对短时间内集中出现的、带有相同关键词与商业信息的内容进行溯源追踪，”朱克力强调，通过识别其发布主体与传播路径，可对异常发布行为进行实时预警。

此外，避免单一信息源的定向误导也很重要。朱克力建议可通过强化AI模型的推理校验能力，让模型在生成回答时，对核心信息进行多源交叉验证。

盘和林则认为，技术上反制是不够的。“我们要治理的，可能不是GEO，而是整个中文互联网的信息真实性问题，这是个大的生态型问题，只要这些互联网的虚假信息还存在，那么AI还是会不断抓取有害信息。”

在盘和林看来，根本解决之道还是在于治理互联网信息环境，建立权威信息发布渠道。比如，在美国，FDA（美国食品药品监督管理局）会对保健品的很多问题发布报告，若设定AI优先从FDA去获取这类科学数据，就会形成客观的观点。

朱克力建议构建“源头筛查—过程监测—结果校验—闭环治理”的全链条体系。“可让防御机制与违规行为的技术迭代同频，从根本上遏制语料污染行为，守护AI大模型的内容真实性与可信度。”

文：宋亚芬

上一篇：英伟达开源 OpenShell

下一篇：橡树资本联合创始人Howard Marks：投资者低估了人工智能（AI）。AI让世界变得更难预测。赋予AI重要性的“力量”也让AI未来会做些什么变得难以预料。

AI“中毒”，谁是解药？

相关内容

热门资讯