21世纪经济报道记者 章驰
上周智谱推出最新智能体AutoGLM2.0,竞争秩序场测评实验室二话不说火速安排上实测!
这次的AutoGLM2.0能看到一个独立的“虚拟手机”界面,所有操作都在云端完成,告诉他“帮我点一份鲍师傅”,就立刻开始工作。到了最重要的结账环节时,AutoGLM2.0会归还操作权限,由记者来决定“确认交易”并支付。
但是在测评中,记者发现,智能体“自作主张”地加购了一奶茶优惠券,总价偷偷加了7块9。虽然最终的支付环节还是要自己点,但基于此前丝滑的操作和没有单独提示,记者根本没有注意到这一笔额外的花费。
智谱事后给了我们回应,他表示,模型目前能力还在持续优化迭代,已经将此问题反馈到算法,对于额外添加商品券识别的准确性会持续提升性能。并且,声称AutoGLM2.0是通过工程策略和权限边界来防止“超指令”行为,支付、发布等高风险步骤默认不自动执行。
业界都在说智能体元年已到,智能体和普通AI不一样,它不仅仅是一问一答的聊天,还能调用工具来解决问题完成任务,比如帮忙点外卖、买机票、比价格,赛博未来的现实感越来越强了。
曾经,智能体的工作方式是收到指令后,读取屏幕上的内容,模拟人类操作来完成指令执行。但正因为如此,用户向智能体完全开放了自己手机屏幕上的内容,就带来了很大的隐私风险,因为智能体可以直接看到屏幕上银行卡密码、聊天记录等所有信息。
未来,智能体的价值会越来越大,那花钱的时候,对AI的信任度到底有多少?智能体为人类工作的边界究竟在哪里呢?