转自:团结报
□薛蒙蒙
如果你问一个路人“预算0元如何在北京旅游3天”,他可能会翻你一个白眼。但是如果你问AI同样的问题,你可能会收获900字以上的详细攻略,附带一句温馨提示:露宿街头时请确认合法性。
相信不少人已经遇到过这种情况:让AI写论文,发现不少参考文献是完全杜撰的;请AI提供购房策略,煞有介事地一顿分析后,发现楼盘是不存在的;让AI整理材料,发现完美的数据来源于混乱的逻辑……问AI一个问题,它给了你一个特别详细、丰富且看上去有逻辑的答案,但当我们去核实时,却发现这些信息完全是虚构的。
AI煞有介事地编造看似合理实则虚假的内容,这种现象被研究者们称为“AI幻觉”(AI Hallucinations)。AI在生成幻觉时不仅虚构信息或者误解语境,还会以相当自信且确定的语气展示内容,所以往往更难判断和防范。
造成“AI幻觉”的成因很多。
首先,这源于生成式AI先天缺陷。今天的生成式AI更像是一个沉浸在语料库海洋中学习说话的学习者,它不是在查找答案,而是在预测,下一个要说的最合理的词应该是什么。这类模型通过分析海量文本数据学习语言规律,本质上是在捕捉词汇、句式之间的统计关联,而非建立对现实世界的真实理解。
简而言之,从内部结构到训练过程,AI都没有“理解词义”这一步。它基于训练数据中观察到的语言模式生成答案,它不理解问题,也不区分信息真假,只是按统计规律给出看似合理的输出,因此也有研究者用“随机鹦鹉”形容大语言模型的这一特性。
其次,错误和老旧的“课本”也会生产“幻觉”。由于训练数据中可能混杂错误信息、过时知识或虚构内容,模型在生成文本时会无差别地模仿这些模式,尤其当遇到数据覆盖不足的领域或模糊问题时,更容易依赖概率拼接出看似合理但偏离事实的表述。
人工智能的“强迫症”也会加重“病情”。AI的设计目标更侧重于语言流畅度,模型总是默认追求生成“流畅自然”的文本,而非严格验证事实,这在代码的底层就刻上了“满分回答”的DNA标签。加之缺乏对物理世界、时间变化和因果关系的深层认知,使得AI在应对复杂推理或开放性问题时,可能将不同语境下的碎片信息错误关联,最终形成符合语言规则却脱离现实逻辑的“幻觉”输出。
我们该如何避免AI的“幻觉”呢?
想要获得准确答案,提问方式很关键。与AI交流也需要明确和具体,避免模糊或开放性的问题,提问越具体、清晰,AI的回答越准确。
而AI自己是这样回答这个问题的:
首先在提问时尽量明确具体,避免模糊或含混的表述,例如补充时间、领域等限定条件;其次对AI生成的关键信息(如数据、历史事件或学术结论)主动通过权威渠道交叉验证,尤其在涉及健康、法律等专业领域时;同时可借助“检索增强”工具(如联网搜索插件)将AI的生成能力与实时数据库结合,降低虚构风险;此外需理解AI并非全知,对于逻辑跳跃或缺乏可靠来源的“绝对化陈述”保持警惕,必要时要求模型标注信息的不确定性。
AI的“幻觉”不是技术故障,而是当前发展阶段不可避免的特性。正如人类学会使用计算器时要警惕按错数字,我们使用AI时也需要建立新的“数字素养”——在享受技术红利的同时,永远保持清醒的思考。
“本质上,将AI视为辅助工具而非权威来源,结合人类判断力,才能更安全地利用其创造力。”也许,AI的这句话正是我们和它相处的正确态度。