炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:雷科技)
前段时间,豆包手机助手「横空出世」,给国内移动互联网生态带来了不小的冲击,同时也因为系统级的特殊权限要求而引发了不少争议。不过就像前几天文章中提到的那样,正是这种「争议」,推动着 AI 手机行业的发展和进步。
图片来源:豆包手机助手就在大家还在争论「AI 能不能操作手机」时,智谱突然把行业往前推了一大步。2025 年 12 月 9 日,智谱宣布开源其核心 AI Agent 模型 AutoGLM,任何厂商、任何设备、任何开发者,都可以基于它复现一个能看懂屏幕、能点能滑、能输入的 AI Agent。
图片来源:github而在雷科技看来,这件事的意义远不止「开源模型」四个字。
在大多数人的认知里,AI 助手能聊天、能总结、能搜索,这些能力已不足为奇,行业内多一个或少一个这类工具,差异并不大。但 AutoGLM 不一样,它不是用来聊天、回答问题或画图的 AI-Agent,而是 AI 能力组件的一部分。用更直接的话来说,AutoGLM 是 AI 的眼睛,是一个能看懂屏幕并完成任务的 AI。
不同于还有些遥远的 MCP 方案,AutoGLM 不依赖 App 源码,也不需要开发者额外为它适配标签,而是像人一样观看屏幕、理解按钮含义、推断当前界面逻辑,再去完成下一步操作。
在之前的文章中,我们提到过「AI 操作手机」的传统方案离不开无障碍标签或开发者接口,但因为大多数开发者都不在意无障碍标签,传统的 AI Agent 很难理解当前界面有哪些可以交互的地方。而 AutoGLM 采用的「GUI-Agent」可以绕开这种对开发人员的依赖,让模型直接对着屏幕画面做判断。
图片来源:智谱理解之后,执行也是 AI 的下一个挑战。很多人以为执行只是一个「点击」动作,但在真实场景里,这是一套连续决策。按钮到底是不是当前能点的?弹窗和底部菜单的关系如何?页面跳转是否成功?是否需要回退?流程中断时该从哪里继续?这不是简单的脚本录制能解决的,而需要模型具备自我纠错、自我规划的能力。AI 行业对这种连续的长任务起了一个非常直观的名字——任务链。
而任务链恰恰也是 AutoGLM 这种 GUI-Agent 方案的传统优势——AI 不需要顺着录好的流程走,而是理解画面后自主规划操作路径,能在几十步的长任务链中保持稳定工作,而不是像早期的 Agent 那样走两步就迷路。
更关键的是,AutoGLM 是一个开源模型,其能力是「可复现、可移植」的。其实在豆包手机助手面世之前,部分手机品牌也探索过类似的 AI Agent 功能,比如我们熟悉的荣耀 Magic 系列。但具备完整 AI 开发能力的手机企业始终还是少数,大多数品牌离不开和外部供应商的合作。
而 AutoGLM 直接把这层能力变成开放组件,让任何厂商都能在自己的手机上还原这套链路。也正是这种通用性,让 AutoGLM 在 AI 手机的竞争中显得尤为重要。
只不过即使是 AutoGLM,也和豆包手机助手一样面临着「权限」的问题。
AutoGLM 的开源,让很多人以为「有了能力,加上厂商合作,就能解决权限问题」。但很遗憾,这种期待并不现实。权限争议的本质不是技术问题,而是系统规则问题。
事件注入、屏幕读取、模拟输入都属于系统高敏权限,即使手机厂商愿意放开,也无法绕开应用自身的风控体系。风控体系是互联网平台的「安全神经系统」,几十年来都是用来识别脚本和异常行为的。当 AI 的行为特征与脚本高度重合时,误判就几乎不可避免。
但话又说回来,尽管 AI 企业和手机品牌不能解决来自 Android 最上层结构的问题,但这种 AI 算法与硬件品牌的合作依旧非常重要。系统层支持意味着 AI 可以在更稳定的环境里执行任务,不用通过各种奇技淫巧去绕过系统限制;应用层支持意味着未来可以建立更标准化的代理识别机制,用白名单、可信认证的方式让 App 风控知道「这是一个合法代理行为」,而不是未知来源的自动点击。
图片来源:modelcontextprotocol.io即使从行业发展的角度看,AutoGLM 的加入也让消费者意识到——AI 并不是只属于少数企业、少数人的「特权」,而是一个每个人未来都能用上的「新能力」。顺着这个角度,雷科技认为智谱开源 AutoGLM 的意义,不是让「AI 权限」的争议进一步扩大,而是将「AI 权限」的问题摆在大众面前,以用户习惯培养的方式,让「AI 权限」的争议更加透明,并最终被大众认可。
至于模型开源后,AI 手机会朝着什么方向发展?雷科技认为,豆包手机助手、AutoGLM 等技术的出现,很可能会在手机行业引入一个全新的「AI 派系」概念。
简单来说,在硬件同质化的大背景下,未来旗舰手机的竞争力可能会从现在的「品牌差异」「软件差异」变成未来的「AI 差异」——谁的 Agent 更稳定,谁的 Agent 更聪明,谁能覆盖更多真实应用,这些都可能成为新的竞争维度。甚至在某些场景下,用户可能根本不再关心「你手机是什么系统」,而只关心「你的 Agent 到底好不好用」。
图片来源:豆包手机助手毫无疑问,AutoGLM 的开源加速了这种变化。它让这种新竞争不再只属于头部厂商。许多中小手机品牌、操作系统厂商,甚至某些定制硬件设备厂商,都可能因为获得了完整的手机操作能力,而突然拥有了过去无法触及的差异化空间。
在雷科技看来,这也意味着未来手机的生态结构将从「品牌 + 系统」变成「品牌 + 系统 + AI」。三者之间的关系会越来越像今天的「芯片架构」,属于完全独立、却决定体验上限的关键层。
其实无论豆包手机助手也好,刚刚开源的 AutoGLM 也好,用户之所以会「紧张」,说到底还是因为对 AI 的不信任、不了解。经过十余年的发展,智能手机硬件、软件、交互逻辑已经高度定型。对手机用户,尤其是崇尚开放的国内 Android 手机用户来说,我们早已习惯了「一切自己动手」。突然引入一个全新的,和用户「平起平坐」的 AI Agent,难免会给手机用户带来「思想冲击」。
以小红书上的分享为例,不少用户认为「AI 可以查银行余额」是一件非常夸张的事。但从技术的角度看,这只不过是 AI 在用户授权下的一次简单、流程化的操作。
当然了,也有部分用户并非不信任 AI,而是不信任国内的互联网环境。对于这种看法,雷科技确实也无能为力:在国内移动互联网野蛮生长的时期,部分企业确实在便利性和隐私之间选择了前者。
但从另一个角度看,豆包手机助手与 AutoGLM 开源模型共同掀起的 AI 手机时代,恰好给了国内移动互联网一次拨乱反正的机会。手机 GUI-Agent 的出现将我们带到了行业规则的「真空区」,而我们现在最需要做的,恰恰是以先行者的身份,为这个「规则真空区」立下透明且强制的行业规则,让技术拥有真正展现自身实力、为用户服务的机会。
从目前的趋势来看,AI 操作手机已经从单点突破,进入到生态共建阶段。权限问题将会被新协议、新链路、新机制逐步解决,系统与 App 的关系也会因代理机制的成熟而重新定义。而手机的未来,也会因为 AI 的加入,从「人操作机器」迈向「机器替人操作」的新阶段。
如果说智能手机的前二十年,是把桌面互联网浓缩到手掌里的二十年,那么接下来的十年,很可能是把「操作权」交给 AI 的十年。而 AutoGLM 的开源,恰恰是这场手机转型的新开端。