你的AI管家可能正在拆家?最新研究揭秘家⽤具⾝智能体的安全漏洞
创始人
2025-07-27 17:33:36
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:机器之心Pro)

本文由上海 AI Lab 和北京航空航天大学联合完成。 主要作者包括上海 AI Lab 和上交大联培博士生卢晓雅、北航博士生陈泽人、上海 AI Lab 和复旦联培博士生胡栩浩(共同一作)等。 通讯作者为上海 AI Lab 青年研究员刘东瑞、北航教授盛律和上海 AI Lab 青年科学家邵婧。

从 Meta 的 Habitat 3.0 完美复现家庭环境,到 Google 的 SayCan 让机器人理解复杂的家务指令,再到 Tesla Optimus 晒出的叠衣视频全网刷屏——现在的基于视觉语言模型(VLM)的家务助手简直像开了「全能管家」模式,收拾厨房、整理衣物、照顾宠物,样样精通!

但先别急着点赞!你有没有想过,让这些「智能管家」自由行动,可能像让三岁小孩玩打火机一样危险?

为此,上海人工智能实验室(Shanghai AI Lab)与北京航空航天大学联手,重磅推出首个专注于具身智能体与家用环境交互过程中安全性的评测基准——IS-Bench!该测试基准创新性地设计了150+ 个暗藏「安全杀机」的智能家居场景(从沾满污渍的盘子到被防尘布覆盖的炉灶),配合贯穿全过程的动态评测框架,全方位考验 AI 管家的安全素养。

实验结果令人警醒:当前 VLM 家务助手的安全完成率不足 40%!这意味着每 10 次任务中就有 6 次可能引发安全隐患——从弄脏食物到点燃毛毯,AI 管家的每个动作都可能让你的家变成「灾难现场」!

从「静态快照」到「步步追踪」,IS-Bench 首创具身安全评估新范式

现有评估体系存在致命盲区:传统的静态评估模式让智能体基于固定的环境信息一次性生成所有动作规划,最终仅根据完成状态判断规划是否安全。

这种「单次决策+终点评判」的范式完全既无法捕捉交互过程中动态演化的风险链(如:倒水→液体泼洒→地面湿滑→跌倒风险),也难以模拟环境探索中新发现的风险源(典型场景:开启橱柜→发现餐具污染→潜在食品安全问题)。

更严重的是,该范式会系统性遗漏关键的过程安全隐患,例如,食物接触污染餐具后,即使后续完成餐具清洁,过程中的污染风险已实质形成——完美的终态结果反而成为安全隐患的「遮羞布」!

IS-Bench 首创具身安全评估的新范式——「交互安全性」,聚焦智能体在持续交互中实时识别与化解动态风险的能力:

三步定制高风险场景,打造家务 Agent 的「照妖镜」

鉴于模拟器默认场景包含的安全风险有限,IS-Bench 设计了一套系统化的评测场景定制流程(Pipeline),专门用于生成蕴含丰富安全隐患的家务场景

上述三个核心步骤均采用「GPT 自动生成 + 人工校验」的双保险模式,最大程度保证场景设计的合理性与多样性。所有定制场景均在高仿真模拟器中完成实例化与验证,严格确保任务目标的可达成性以及安全判定条件的可检测性。

最终构建的「家居危险百科」场景库包含161 个高仿真评测场景,精准复现厨房、客厅、卫生间等家庭事故高发区域,总计嵌入了388 个安全隐患点——从「倒水时需避开周边电源」的基础安全常识,到「金属制品严禁微波加热」的物理风险警示,再到「消毒剂与食品必须分区存放」的化学危险防范,实现了对10 大类家庭生活场景安全隐患的全方位覆盖。

全流程评测框架,构建交互安全的护城河

为了实现面向过程的交互安全性评测,IS-Bench 精心打造了一套评测框架:

家务 Agent 的安全风险比你想象得更大!

评测结果揭示严峻挑战:

核心瓶颈深度解析:当明确展示安全目标时,部分闭源模型的安全完成率实现显著飞跃(从 <40% 跃升至 >65%),这一现象直指问题本质:交互安全性的核心瓶颈并非规划执行能力缺陷,而是智能体在风险感知与认知层面的严重不足。更值得关注的是,通过提供物品边界框(BBox)和初始场景描述(IS),智能体的安全意识和事前防范正确率可提升 15% 左右,进一步说明当前系统的安全短板主要源于在物品密集的复杂场景中无法精确识别和注意可能引发安全隐患的物品

相关内容

热门资讯

人形机器人化身“职业技能高手”...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:新华社) 7...
密云等地4000余户村民恢复供... 【#密云等地4000余户村民恢复供电#】水退、人进、电通,@新京报 记者获悉,国网北京电力通过多种设...
下周,A股解禁市值超1000亿...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   Wind数据显示...
在WAIC 2025看到AI的...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:经济观察报)...
内蒙古一家知名化工企业被处罚 (来源:能源知库)2025年7月17日,内蒙古自治区应急管理厅对内蒙古金鄂博氟化工有限责任公司行政处...