模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
创始人
2025-06-14 13:46:10
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

新智元报道

编辑:LRST

【新智元导读】研究人员发现,大语言模型的遗忘并非简单的信息删除,而是可能隐藏在模型内部。通过构建表示空间分析工具,区分了可逆遗忘和不可逆遗忘,揭示了真正遗忘的本质是结构性的抹除,而非行为的抑制。

近年来,大语言模型(LLM)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面,训练数据中的敏感信息也会被模型「记住」,并在推理阶段暴露出来。

在此背景下,机器遗忘(Machine Unlearning)技术应运而生,其目标是在不影响整体能力的前提下,有选择性地抹除特定知识。

然而,当前评估方法主要聚焦于token级别的表现(如准确率、困惑度),这些表层指标真的足以说明模型已「遗忘」?

最近,香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究人员首次揭示了遗忘现象背后的表示结构变化规律,通过构建一套表示空间的诊断工具,系统性地区分了「可逆性遗忘」与「灾难性不可逆遗忘」的本质差异

论文中整理成了一个统一的表示层分析工具箱(PCA相似度与偏移、CKA、Fisher信息),支持诊断大模型在Unlearning / Relearning / Finetuning等过程中的内在变化。

论文地址:https://arxiv.org/abs/2505.16831

工具箱地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

研究人员在多种方法(GA、NPO、RLabel)、数据集(arXiv、GitHub、NuminaMath)与模型(Yi-6B、Qwen-2.5-7B)上进行了全面实证,并从参数扰动角度揭示遗忘可逆性的理论依据。

模型遗忘

真正的遗忘,是结构性的抹除,而非行为的抑制

研究人员提出:「一个模型若仅仅在token输出上『忘记』,而其内部结构几乎未变,那它随时可以恢复原样。」

上图左侧(a)展示了两种典型遗忘场景:

右侧(b)则展示了研究人员构建的表示空间分析工具,包括PCA Similarity / Shift、CKA相似性分析、Fisher信息矩阵(FIM)。

表征空间分析揭示了「遗忘的可逆边界」

研究人员在Yi-6B模型上对不同方法(GA, GA+KL, NPO, RLabel)进行了单次遗忘实验,比较了三种指标:

在不同学习率下,多种方法的单次遗忘结果对比

进一步,研究人员探究了不同请求数量(N)和学习率(LR)组合下的变化:

在持续遗忘场景下,更大规模的遗忘实验配置(N×LR组合)下的性能波动

可视化诊断:模型真的「忘记」了吗?

PCA Similarity:衡量表示空间主方向变化

可以发现,对于可逆性遗忘,其表示空间在Relearning后高度恢复原始主方向,而不可逆性遗忘则呈现广泛漂移:

各层PCA主方向变化(Cosine相似度)分析

PCA Shift:量化表示分布中心的偏移程度

对于不可逆性遗忘,其「表示漂移」不仅方向变化,更伴随大尺度的空间位移,Relearning难以还原:

各阶段的PCA散点漂移示意图

CKA:表示空间结构相似性分析

Linear CKA可以测量各层之间的结构保留程度。

可逆性场景下,CKA几乎未受破坏,而不可逆性场景则迅速退化为低相关结构:

CKA曲线分析(逐层)

Fisher信息矩阵:重要参数的扰动程度

FIM从参数空间的角度提供了视角,研究人员聚焦Layer 31,观察其Fisher分布是否仍保留原始结构。

更复杂任务:可逆性能否扩展至复杂任务?

在Qwen2.5-7B上,研究人员扩展实验至MATH和GSM8K推理任务。

尽管任务复杂,依然能观察到「受控Relearning」可带来准确率恢复,尤其在可逆场景中甚至超越初始性能

MATH与GSM8K任务下各方法表现对比

结论

研究人员们从结构层面系统剖析了大模型遗忘的可逆性,得出以下核心结论:

持续遗忘风险远高于单次操作,GA/RLabel破坏性强:单次遗忘多数可恢复,而持续性遗忘(如100条请求)易导致彻底崩溃。GA、RLabel易过度遗忘,GA+KL、NPO类方法能显著提高稳定性。

真正的遗忘表现为结构漂移而非输出下降:不可逆遗忘伴随PCA主方向旋转、分布漂移、Fisher质量下降;仅凭token-level指标难以揭示这种深层变化。

遗忘可能带来隐式增强效果:在部分场景中,Relearning后模型对遗忘集的表现优于原始状态,提示Unlearning可能具有对比式正则化或课程学习效果。

结构诊断工具支持可控性遗忘设计:PCA/CKA/FIM不仅揭示是否崩溃,更可定位破坏位置,为实现「可控、局部、不可逆」的安全遗忘机制奠定基础。

参考资料:

https://arxiv.org/abs/2505.16831

相关内容

热门资讯

秀我中国丨详解国产脑机接口技术...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 来源:新华社.近日,...
处处有非遗 人人享非遗 转自:云南日报处处有非遗 人人享非遗——我省开展文化和自然遗产日宣传展示系列活动玉龙县节目展演。迪庆...
伊朗伊斯兰革命卫队航空航天部队... 当地时间6月14日,总台记者从伊朗方面获悉,伊朗伊斯兰革命卫队航空航天部队情报部门副负责人霍斯罗·胡...
伊朗称在多地击落以色列无人机 来源:央视新闻客户端 伊朗伊拉姆省官员当地时间14日表示,在多架无人机和飞行器侵犯该省领空后,国家防...
卡塔尔称正努力推动相关各方恢复... 转自:财联社【卡塔尔称正努力推动相关各方恢复对话 缓和地区局势】财联社6月15日电,据央视新闻报道,...
中国铁建相关公司新增一项100... (转自:快查一企业中标了)快查APP显示,中国铁建相关公司中铁建设集团有限公司于2025年6月14日...
思古悠悠 空阔高旷——倪瓒《古... 转自:光明网  【藏品的故事】  作者:徐小虎(南京博物院古代艺术部展陈主管)、万新华:(江苏省美术...
云南元阳阿者科村:云海梯田中的... 转自:光明网  【美丽乡村】  光明日报记者 郭俊锋 撰文/摄影  6月3日,云南元阳哈尼梯田成功入...
永定河源西洋河 一衣带水京蒙... 转自:内蒙古日报□本报记者  皇甫美鲜  海军  马旭冉  每到仲夏时节,当你走进乌兰察布市兴和县苏...
双向奔赴 亲上加亲 转自:内蒙古日报□本报记者  韩雪茹  乌兰察布市丰镇市菜农刚摘下的沾着露水的蔬菜,中午就已摆上北京...
在希望的田野上 转自:内蒙古日报□新华社记者  刘佑民  谢奔  李卓群  在坦桑尼亚莫罗戈罗省杜图米镇的稻田里,当...
内蒙古“三支一扶”和社区民生工... 转自:内蒙古日报本报6月14日讯  (记者  梅刚)6月14日,2025年内蒙古自治区高校毕业生“三...
李进:代码编织“天眼” “云... 转自:内蒙古日报□本报记者  巴依斯古楞  6月11日,在祖国北疆的二连浩特边境线上,一架警用无人机...
福建厦门:呵护青少年健康快乐成... 转自:光明网  光明日报记者 马跃华 光明日报通讯员 游涛  “您好!”“谢谢!”日前,当福建厦门海...
我国首颗地球物理场探测业务卫星... 转自:光明网  光明日报北京6月14日电(记者姚亚奇、张晓华 通讯员王豪、张未)14日15时56分,...
俄称在苏梅州等地占据更有利位置... 当地时间14日,俄罗斯国防部发布战报称,过去24小时,俄军在苏梅州、哈尔科夫、顿涅茨克地区、扎波罗热...
重庆彭水:电商助力山村振兴 转自:光明日报  夏夜的重庆武陵山区,一派凉爽清净。位于大山深处的彭水苗族土家族自治县乔梓乡长寿村的...
思古悠悠 空阔高旷 转自:光明日报    古木丛篁图轴(中国画)       102.9×43.9cm    倪瓒(元代...
宁夏吴忠:人才驱动 科创“破题... 转自:光明日报  6月11日,记者走进位于宁夏吴忠金积工业园区的君星坊食品科技有限公司展览厅,只见亚...
细磨细琢的诗意 转自:光明日报    《野草》封面设计    《山野掇拾》封面设计【书衣之美】  在中国现代文学的大...