从“破墙”到“握手”:手机终端智能体的技术原理与产业实践

文章探讨了人工智能从“思考”向“执行”进阶过程中,手机终端智能体面临的技术路径选择。重点对比了以字节跳动“豆包”为代表的“GUI 模拟”路线和以阿里、苹果为代表的“API 协同”路线。前者通过模拟点击实现跨应用操作,虽落地快但存在严重的隐私安全隐患及生态破坏风险;后者通过标准化接口(意图框架)实现数据交互,虽受限于商业惯性,但能通过“意图红利”实现多方增量共赢。文章结合 OpenAI、苹果及阿里 RecGPT 的实践,论证了 API 协同是释放 AI 潜力、推动产业生态升级的可持续路径。




原创 阿里研究院 2026-01-30 14:46 浙江

从“破墙”到“握手”:手机终端智能体的技术原理与产业实践

当人工智能从能思考进阶至会执行,智能体成为市场和公众的最大期待。而行业却在刚起步的阶段就遇到分岔路口。回归技术演进的本源,这场讨论的价值远超“孰优孰劣”的二元对立:在效率与秩序之间,我们需要建立怎样的产业新范式,才能让智能体走得又快又稳?

导语:

当人工智能从“能思考”进阶至“会执行”,智能体(Agent)成为市场和公众的最大期待。然而,行业却在刚起步的阶段就遇到分岔路口。2025年末至2026年初,从字节跳动试水跨应用的“豆包手机助手”,到阿里推出具备办事能力的“千问”APP,再到腾讯创始人对此进行的公开点评。这一系列行业动态,迅速将关于技术路径的探讨推向了聚光灯下。

一方是“GUI模拟”路线。智能体像人类用户一样,通过视觉识别“看”懂屏幕,利用模拟点击“操作”按钮。其优势在于极高的通用性与落地速度,理论上无需App厂商改造即可运行。但这种“破墙”式的读屏机制,也无可避免地触碰到了隐私边界与数据安全的深层命题。

另一方是“API协同”路线。智能体通过标准化的接口与App进行数据交互和指令传达。这是一条更符合软件工程逻辑的道路,交互可控、安全合规;但它同时也对生态的开放度提出了极高要求,意味着AI需要花费时间与成百上千个App逐一完成技术“握手”。

若抛开商业层面的竞逐,回归技术演进的本源,这场讨论的价值远超“孰优孰劣”的二元对立。它通过两种截然不同的解题思路,将AI落地“最后一公里”的核心挑战摆在了台前:在效率与秩序之间,我们究竟需要建立怎样的产业新范式,才能让智能体走得又快又稳?

一、“GUI模拟”的技术路线与治理困境

“GUI模拟”路线的核心原理在于利用系统级权限充当“虚拟手指”,通过读取屏幕信息并模拟用户点击来实现跨应用自动化操作。该方案因无需与应用方进行逐一适配,具备极强的短期落地能力,被视为Agent快速切入移动生态的“捷径”。然而,其技术基因决定了这本质上是一场伴随高风险的“越界”尝试,正面临来自系统安全、个人隐私与产业生态的三重质疑。

从安全边界的演进看,GUI模拟在不断突破操作系统安全边界。早期行业多利用安卓原生的“无障碍服务”进行辅助操作,这是谷歌为视障、肢障人士设计的关怀特性,旨在允许合规的辅助应用读取屏幕内容并代为交互。利用该接口进行自动化尚处于系统设计允许的权限范围内,当前国内主流手机厂商如小米、OPPO、VIVO的Agent探索多基于此。然而,这一机制难以保障交易安全,金融等高敏感行业对其应用进行限制。随后,出现了以智谱AutoGLM为代表的虚拟机模式,利用开发者权限在云端环境中运行,绕过本地物理设备的权限限制。但由于其缺乏实体终端,目前多用于开发者测试和原型验证。当前,豆包手机助手则采用了激进的系统级注入权限(INJECT_EVENTS)。不同于无障碍服务,它赋予了Agent直接向系统注入用户操作事件(如点击、滑动)的能力。该权限一旦授予,用户难以通过常规方式撤销,且三方安全软件难以有效拦截;它实质上绕过了安卓操作系统设计的沙箱机制,使得APP间的数据不能有效隔离,数据和隐私如果泄漏,责任难以清晰分割

从安全治理的视角看,GUI智能体的高频自动化操作,在技术特征上与灰产治理中常见的“自动化脚本”存在高度的技术同构性。App厂商部署反爬虫与防模拟策略,初衷并非为了封锁用户,而是为了维护既有生态的“膝跳反应”。例如微信公众号的阅读量、电商的信誉评价体系,用户阅读“10万+”文章、购买“高赞”商品,都是基于“真实的人类点击”。一旦不具备身份标识的GUI模拟大规模介入,平台将难以区分“善意的助手”与“恶意的刷量”,这不仅可能冲击现有的价值衡量标准,也让识别违规操作(如快手面对的批量僵尸号攻击)面临更复杂的甄别成本。

更为复杂的挑战,则在于隐私边界的界定。尽管GUI路线秉承“我的手机我做主”的理念,但在实际运行中,手机屏幕往往是多主体信息的汇聚地。当Agent为了理解任务而进行全量屏幕抓取时,微信群聊中好友的发言、相册背景中的亲密合影、甚至是一闪而过的短信验证码,都可能被纳入处理范围。这就造成了一个“授权盲区”:当用户在弹窗中点击“允许”时,默认只是交付了自己的权利,但一条对话记录里会有两个人的秘密;也难以预料账户号、验证码这些敏感信息泄漏后可能引发的资金风险。

尽管如此,以发展的视角审视,我们并不否认GUI模拟在特定阶段的战术价值,它作为一种“概念验证”(Proof of Concept),在产业合作尚未成熟之际让用户体验到了效率跃升,其产生的“鲶鱼效应”也倒逼APP厂商重新审视开放和加速合作。但如果GUI模拟成为常态化方案,产业可能陷入模型厂商与APP厂商之间无意义的攻防消耗:App厂商将升级风险防控机制,模型厂商则致力于让Agent更像人类行为以绕过防控。为了避免这种“逐底竞争”,产业界开始转向另一种权责更清晰、生态更健康的演进路径。

二、“API协同”的技术原理与产业实践

所谓“API协同”,其落地的技术载体正是“意图框架”(Intent Framework)。不同于“模拟手指”的单边越界,意图框架试图让智能体与App之间通过双方共同定义的开放接口(API)进行合作。例如,用户说“给我订一张高铁票”,Agent直接调用铁路12306的购票接口完成操作。这种方式依赖App厂商的合作与授权,数据传递遵循隐私协议,执行过程透明可审计,从而在手机、智能体和App三者之间划定了清晰的安全边界。

意图框架在技术架构和安全性上具备显著优势,但在产业落地进程中却显得极其缓慢。这并非技术挑战,而是受制于移动互联网时代的商业惯性。长期以来,App都是通过锁定用户入口,来构建广告变现与流量分发的护城河,开放API其实是一场“让渡入口权”和改变商业模式的大冒险。然而,近期全球范围内的产业实践表明,意图框架可以通过商业契约的重构和技术实现的升级,实现生态的增量共赢。

观察国际AI头部企业的实践路径,Agent赋能的“电商引流”正成为一种成熟的合作形态。OpenAI与电商平台Etsy的合作便展示了这种合作共生的潜力:双方确立了“Agent意图捕捉+App交付履约”的协同模式,ChatGPT作为“超级导购”,在对话中精准捕捉用户模糊的购物需求并收集必要信息,而库存匹配、地址验证及动态折扣计算等核心商业逻辑,则通过加密通道调用Etsy的后端API完成。Etsy最新财报显示,来自ChatGPT的流量展现出显著的高转化率,且极其契合工艺品电商非标品、长尾化的交易场景。在商业逻辑上,这一模式构建了“保护私域利益+增量价值付费”的良性闭环:交易订单完整导入商户后台,商户依然保有对客户关系的控制权,仅需为成交的增量订单支付小额技术服务费。这种尝试并未提高获客成本,而是让智能体、平台和商户三方都在各自的职能分工中获得了新增量。

除此之外,产业界也在探索另一种基于系统级“感知共享”的合作形态。Apple尝试用操作系统和模型能力洞察用户意图,再提供“屏幕感知(On-screen Awareness)”接口,让App在用户授权的前提下实现“知情晓义”。该架构愿景允许系统将跨应用的感知能力——如识别日历中“飞往三亚”的行程——转化为具体的旅行意图,并有偿分发给导航或穿搭类App。这实际上开启了手机系统Agent与App Agent协同的雏形:系统Agent负责全局意图的理解与分发,App则通过智能化转型,发展出垂直领域的Agent以承接细分服务。在此模式下,手机Agent不再是单纯的流量“截流者”,而是成为了帮助App获取新流量和高效履约的渠道。

在国内,阿里体系内的技术储备,也为这种“握手”机制提供了本土化的预演样本。尽管千问与淘宝尚未完全打通,但二者在技术底层已具备了标准的API协同能力:前端负责捕捉用户意图,而后端的交易逻辑、数据沉淀与用户关系维护,依然完整保留在App侧。这种“各司其职”的架构设计,不仅适用于阿里系应用,本质上更是一套开放的行业标准。任何第三方App都可以通过类似的标准化接口接入通用智能体,从而消除对于“入口被架空”的顾虑

更为关键的是,这种协作正在共同验证“意图增值”的商业逻辑。千问作为通用入口,擅长将用户模糊的生活意图(如“筹划海边旅行”)翻译为富含上下文的结构化指令;而App在接入后,并非被动接收流量,而是通过自身的智能化升级,利用Agent的“聪明”实现比传统搜索更有效的商品匹配。

在淘宝关于搜推模型升级的技术报告中,我们看到了这种“意图红利”的具象化表现:通过引入大模型技术(RecGPT),淘宝将传统的“关键词搜索”升级为“意图理解”。实验数据显示,这种包含了丰富上下文(如天气、场景、偏好)的推荐链路,不仅让用户的核心成交意愿(IPV)显著提升,更成功激活了大量以往难以被发现的“新奇特”长尾商品。这有力地证明了,当App能够承接来自通用Agent的“高阶意图”时,不仅能提升转化效率,还能挖掘出传统模式下被埋没的巨大增量价值。

综上所述,“API协同”的落地并非一蹴而就的技术升级,必须承认,每一个API接口字段的定义,每一次权限范围的谈判,都意味着Agent与App合作界面的重绘。这不仅关乎消费者福祉的提升,更涉及对实体世界中商家和制造厂商利益的保护。新模式也将倒逼App厂商必须走出舒适区,主动去改造原有的产品架构与服务逻辑。

短期来看,Agent与App各方在谈判桌上的博弈与磨合成本不可避免;但长期来看,这种博弈将推动产业向着更良性的方向演进。它迫使数字生态进行更精细的社会化分工,让Agent发挥语义理解的长处,让App深耕垂直领域的专业履约。同时,这种开放架构也保留了充分的竞争性:在这个新生态中,如果App依然固守封闭、拒绝创新,终将被那些能够更好利用模型意图理解能力的新一代App,甚至是Agent自身的原生功能所替代。

三、结语

智能体本质上不应被狭隘地定义为一款新的硬件产品或软件工具,它更是大模型技术红利拉动产业生态实现整体升级的核心引擎。这场升级不仅包括产业链条中各环节智能化程度的提升,更是一场关于生态间合作模式与责任分工的深刻重塑。

只有超越单边突进的博弈,坚定走向基于“API协同”的生态共生,通过建立清晰的安全责任边界和良性的价值增量机制,我们才能在“破旧”中不断“立新”,真正释放AI的潜力,共同迈向一个更加智能、开放、安全的繁荣未来。

本文作者:傅宏宇 徐玮 彭靖芷 袁媛

参考文献

C. Yi et al., "RecGPT Technical Report," arXiv preprint arXiv:2507.22879, 2025.

C. Yi et al., "RecGPT-V2 Technical Report," arXiv preprint arXiv:2512.14503, 2025.

-END-

 版块介绍 — 治理之智

在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。

推荐阅读

Reading

4、寻找高质量数据:对“确定性”的实践探寻和思考

5、薛澜:人工智能面临治理挑战

6、合成数据:治理之智

7、合成数据:大模型训练和应用的新方案

8、合成数据:前世今生

9、“全球AIGC版权侵权首判”留下的三个问题

10、2024年中国数据治理前瞻:再平衡与新常态

11、走向AGI时代——关于AI发展与治理的十段观察

12、段伟文|如何应对前沿科技的核心伦理风险?

13、大模型数据之二|中美大模型的竞争之路:从训练数据讲起

14、大模型训练数据之一|大模型训练的“阿喀琉斯之踵”:数据这么近那么远?

15、ChatGPT这么牛,我们应该如何兼顾发展和治理?

16、治理之智 | 合成数据:模型能力跃迁的必经之路

17、治理之智 | 对“数据入表”的若干思考:重视数据意识能力,回归要素价值本源

18、治理之智 | 算法影响评估的三个基本问题:制度定位、机制模式与改革启示(上篇)

19、治理之智 | 算法影响评估的三个基本问题:制度定位、机制模式与改革启示(下篇)

20、治理之智 | 检索增强:解决企业“上云用模”的数据安全隐忧

21、治理之智|用户-模型数据交互安全:挑战、应对及思考

22、治理之智 | 开源大模型风险治理机制的改革与创新——以DeepSeek为例

23、治理之智|模型蒸馏无需受法律限制,技术创新不宜过早下结论

24、治理之智 | Agent治理的起点:MCP提供了兼容性和安全性的技术方案

25治理之智 | 幻觉是模型创造能力的伴生品

26、治理之智|开源人工智能治理的全球实践及路径选择

27、治理之智|人工智能开源的价值、风险与生态治理研究

28、治理之智 | 《开源人工智能:合作的价值与未来》报告发布

29、治理之智 | 阿里巴巴人工智能开源治理合作研究成果在国际顶尖学术期刊《科学》(Science)上发表

30、治理之智 | 应对中企出海数字治理挑战,推动技术全球化有序发展

31、治理之智 | 以智能促安全:多模态技术演进与价值对齐

32、治理之智 | 从零和博弈走向长期合作:人工智能版权问题分析与思考

图片

如需转载,请在文章下留言-

阅读原文

跳转微信打开


AI 前线

智能体开启购物模式,重新定义智能,更出色的图片文字渲染,以及更多内容……

2026-1-31 18:11:08

AI 前线

[AINews] SpaceXai Grok Imagine API —— 排名第一的视频模型,拥有最优价格与延迟

2026-1-31 18:11:13

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索