手机Agent,转移交互范式的跃迁。自触控屏幕开启转移互联网黄金时期从此,App被策画为一个个独立的孤岛,用户通过点击图标进入特定的使用境况,依赖视觉和手动点击来杀青工作。跟着使用数目的延长和效力的堆叠,用户正在分歧App间切换、寻找效力入口、手动搬运数据的本钱明显上升。跟着大模子的打破性开展,转移交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然措辞外达思做什么,手机Agent便掌管将妄思转化为整体的实行程序并交付结果。若何正在碎片化的转移生态中让AI逾越使用围墙实行工作,业界目前有两条分歧的技能途径:
API范式:扶植准绳化的语义接口,App开采者主动适配并显示相应效力。Agent通过布局化的API移用来指示App实行工作,以苹果的Apple Intelligence及其App Intents框架为典范代外。
GUI范式:应用众模态模子看懂屏幕上的UI元素,应用体例辅助供职模仿手指的点击与滑动。这一齐线不依赖开采者的配合,试图以通用的视觉才具“暴力”打通通盘使用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一齐线的前卫。
焦点分歧比较,API Agent与GUI Agent旗鼓相当。比较了两种范式的技能途径分歧,GUI Agent的焦点上风正在于通用性高,正在牢靠性、机能、隐私危险角度则是API Agent更胜一筹。1)通用性: GUI Agent的通用性明显更高,这是焦点上风,不必要App 开采者举办适配。外面上只消是人类或许运用的 App,GUI-Agent 都能运用。处分了使用笼罩率的题目,新效力或未显示效力的适配度也更高。2)牢靠性;GUI Agent的牢靠性照旧较低。缘由包罗模子对繁复界面的识别才具还达不到百分百;必要众程序模仿用户操作,具体工作障碍率更高;UI 改版时容易失效。3)机能:API Agent 可能一次移用杀青繁复工作,后端直接驱动实行服从高。GUI Agent机能较低,杀青简略工作恐怕必要众次截图了解、视觉推理等繁复推算,算力消磨更大。截图上传到云端模子时,数据量普通高于API传输参数,延迟也更高。4)隐私危险:API-Agent 的使用端后台可举办慎密的数据和权限拘束,权限鸿沟明白。GUI-Agent 的隐私危险较高。它必要读取屏幕内容,容易显示闲聊记实、暗号、验证码等敏锐音信。除了技能题目,贸易阻力上咱们以为GUI Agent欠亨过授权,更容易受到使用厂商的抵触。
贸易样子演变:三方博弈与生态重构。手机Agent的兴盛意味着转移互联网流量的从头洗牌,手机厂商、大模子厂商和使用厂商三方权力将开展繁复的博弈。手机厂商希望从硬件售卖进一步获取流量入口的价格,OS成为了用户妄思的第一罗致者。好像于寻找广告恐怕演酿成一种新的竞价形式。大模子厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话杀青通盘需求。把将其他App酿成己方的后端数据库和器材。大模子厂商会踊跃寻求与二线手机厂商合营。字节跳动与中兴的合营即是典范案例。使用厂商,一方面恐怕与手机/模子厂商合营,怒放局部才具接口;另一方面,为爱戴本身好处,也恐怕拒绝或节制Agent的接入。Agent的授权鸿沟是必要进一步划分的功令题目。App本身也正在Agent化,比方微信最终会推出一个AI智能体,淘宝也正在实验通过“问问”等效力正在App内杀青自然措辞导购。咱们以为手机Agent的起色不会是API或GUI的单选题,看待高价格、涉及敏锐数据的操作(如支拨、通信、焦点营业流),API Agent有更高确实切度和隐私爱戴。看待只读、音信盘问类的需求,以及API尚未笼罩的使用,GUI Agent通过视觉贯通的式样运转可能更精巧通用。为分解决延迟和隐私题目,另日的手机措置器估计还将进一步优化视觉模子的推理才具,使GUI识别和决议正在端侧杀青,不再上传云端。
API Agent:腾讯控股、阿里巴巴、谷歌算力:寒武纪、海光音信、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾细密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮音信、东山细密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润修股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。
Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合音信、税友股份、新致软件、金桥音信、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微汇集、朗新集团、润达医疗、壹网壹创、万兴科技、用友汇集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得音信、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石汇集、迪安诊断、中科金财、恒生电子、星环科技、卫宁强健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发训导、新大陆、新开普等。
自触控屏幕开启转移互联网黄金时期从此,图形用户界面(GUI)向来是人机交互的绝对主导。正在这一范式下,App被策画为一个个独立的孤岛,用户通过点击图标进入特定的使用境况,依赖视觉和手动点击来杀青工作。这种以使用为中央的交互形式跟着使用数目的延长和效力的堆叠,用户正在分歧App间切换、寻找效力入口、手动搬运数据的本钱明显上升。跟着大模子的打破性开展,转移交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然措辞外达思做什么,手机Agent便掌管将妄思转化为整体的实行程序并交付结果。
若何正在紧闭且碎片化的转移操作体例中,让AI逾越使用围墙实行工作?业界慢慢分裂出两条分歧的技能途径:
API范式:扶植准绳化的语义接口。操作体例或平台厂商界说一套通用的妄思接口(如“订票”、“发送音书”),App开采者主动适配并显示相应效力。Agent通过布局化的API移用来指示App实行工作。这一齐线以苹果的Apple Intelligence及其App Intents框架为典范代外,夸大生态的有序整合与隐私安闲。
GUI范式:模仿人类的感知与操作。应用众模态模子看懂屏幕上的UI元素,应用体例辅助供职模仿手指的点击与滑动。这一齐线不依赖开采者的配合,试图以通用的视觉才具“暴力”打通通盘使用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一齐线的前卫。
![]()
苹果等厂商试图正在使用之上构修一层“语义互联网”,将App内的效力原子化,供AI调遣,这必要使用开采者配合接入。
苹果推出的Apple Intelligence其焦点并非仅仅是一个更敏捷的Siri,而是一套深度的体例级集成框架——App Intents(应存心图)。为了让 Siri 更好地贯通开采者的使用并杀青更通畅的对话式交互,开采者必要采用与使用效力相成婚的域和形式,开采者通过使应存心图、使用实体或使用罗列适当形式,确保 Apple Intelligence 或许贯通使用的操作和内容。
![]()
API范式的挑衅正在于分歧开采者对统一个效力的界说恐怕千差万别。为分解决这个题目,苹果供给了众个助手架构(Assistant Schema),每个架构都对应分歧的内容范围(比方浏览器、文档阅读器、文献拘束等)。这些架构助助 Siri 遵照内容的类型供给定制化的相应。助手架构可能贯通为一组准绳化的“模板”,Apple 策画这些模板是为了助助 Siri 识别使用的整体效力。好比开采者的使用是图片拘束类的,那么运用photos.openAsset如此的架构,可能让Siri贯通要显示一张照片。
本年10月谷歌正在安卓开采者博客吐露,开采者可能应用新的Prompt API构修己方的自界说天生式AI效力。本年蒲月的I/O大会上,谷歌推出了基于Gemini Nano模子的配置天生式人工智能API,通过简略的API简化了摘要、雠校和图片刻画等工作,使常睹工作变得更简略。
GUI Agent开始必要“贯通”屏幕。这首要依赖于大模子的众模态贯通才具,这方面才具上领先模子厂商连续打破,近期谷歌揭晓的Gemini 3 Pro的众模态贯通才具就大幅进取: 模子或许措置和贯通文本、图像、视频、音频甚至代码等众种模态的数据,并正在这些繁复数据之间举办推理,到达了史无前例的致密水准。Gemini 3 Pro正在Screen UnderStanding工作方面展现加倍卓着,正在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。
决议与计议:推理链与工作拆解以及实行流程中的动态计议:贯通屏幕后,Agent必要计议活动。比方面临“助我点一杯拿铁”如此的指令,咱们以为Agent恐怕会将其拆解为子工作序列:翻开App - 寻找咖啡 - 采用规格- 下单,Agent每实行一步,都要动态观望此刻屏幕形态断定下一步活动,比方点击下单后,恐怕弹出一个优惠券,也恐怕提示售罄。案例:智谱AutoGLM
2025年8月20日,北京AI公司“智谱 AI”揭晓,昨年揭晓的环球首个可自立操作手机的智能体产物AutoGLM再次升级,推出AutoGLM2.0,并迈出更具史乘意旨的一步——初次面向公家扫数怒放,无需邀请码即可运用。此次揭晓的AutoGLM2.0被定位为“实行型助手”。 正在存在场景中,用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款使用,杀青点餐、订票、查房、预定等供职。正在办公场景中,它也能跨使用实行完全流程,从检索原料到撰写文稿,再到天生视频、PPT或播客,并直接杀青揭晓。
2025年12月1日,字节揭晓豆包手机助手预览版。这是一个面向手机厂商的体例级供职,它将豆包大模子深度融入操作体例,让用户只需动嘴(或动一下手指),就能指示手机去实行那些原来需重点击几十次屏幕的繁琐操作。效力包罗跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队,是字节掌管 AI 硬件的 Ocean,它从属于字节 AI 产物大部分 Flow,首要成员来自字节众年来先后收购的极少硬件产物团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年插足字节的手机、硬件从业者。这款豆包与中兴合营的手机已正在豆包手机助手官网及中兴商城上架,售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和众家手机厂商叙合营。
正在与中兴努比亚(Nubia Z60 Ultra)的合营中,豆包助手被整合进体例底层。通过长按侧边键叫醒,豆包可能直接获取体例底层的屏幕缓冲区数据,无需通过Accessibility供职的截屏接口,大大低重了延迟。
豆包手机助手激发了被操作App的抗拒。据上观报道,12月3日,众位网友正在社交平台上反应,搭载豆包助手的努比亚M153工程机登录微信时,页面弹出“登录境况特地,需退换配置从头登录”的警戒。局部用户退换账号后虽能且则登录,但传输闲聊记实时再次被强制下线。更闭头的是,若通过豆包助手操作微信效力(如发送音书),体例直接提示“工作障碍”,并标注“尝试室效力暂不援救微信操作”。其它,12月3日上午,另有局部运用“豆包AI手机”的用户反应,因运用豆包手机助手操作微信,微信账号被封禁了。午时12时阁下,被封禁的微信连接被解封,可能寻常上岸,但无法运用豆包助手举办微信上的自愿化操作。另据网友正在社交媒体上反应,己方正在运用豆包AI手机助手的时刻遭到了农行、修行等APP内的强弹窗指挥,条件封闭豆包AI手机助手后再举办运用。
遵照以上对API Agent和GUI Agent技能途径的了解,咱们比较了两种范式的分歧,GUI Agent的焦点上风正在于通用性高,正在牢靠性、机能、隐私危险角度则是API Agent更胜一筹。除了技能题目,贸易阻力上咱们以为GUI Agent更容易受到使用厂商的抵触。
![]()
手机Agent的兴盛意味着转移互联网流量的从头洗牌,手机厂商、大模子厂商和使用厂商三方权力将开展繁复的博弈。手机厂商:从硬件售卖到获取流量入口的价格
正在App时期,用户翻开手机直接点击App,OS只是一层启动器。正在Agent时期,用户直接告诉OS“我要打车”,OS断定唤起哪个App。OS成为了妄思的第一罗致者。好像于寻找广告。当用户外达订客店妄思时,携程、飞猪、美团谁排正在第一位?这恐怕演酿成一种新的竞价形式。
大模子等厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话杀青通盘需求。可能贯通为思把将其他App酿成己方的后端数据库和器材。
合纵连横:为了取得体例级权限,大模子厂商踊跃寻求与二线手机厂商合营。字节跳动与中兴的合营即是典范案例。使用厂商:数据护城河的保护战
看待App厂商,一方面恐怕与手机/模子厂商合营,怒放局部才具接口;另一方面,为爱戴本身好处,也恐怕拒绝或节制Agent的接入。
对外经济交易大学法学院教育、数字经济与功令更始探究中央主任许可先容了发作正在美邦的Perplexity案。该案中,被告Perplexity是一家AI公司,其通过亚马逊付费会员账号助助用户购物,被亚马逊指控违法并给本身变成贸易亏损。Perplexity则主睹己方是“用户授权的代庖人”,以为亚马逊的指控是一种霸凌。许可指出,该案焦点争议反响了一种功令窘境:AI助手声称是用户权益延长,但平台以为其举止捣蛋了贸易生态和安闲序次。“正在良众景况下,用户权力安详台权力都必要研讨,必要双重授权以至众重授权。”许可说。
App本身也正在Agent化。正在腾讯2025年第三季度财报电话会上,腾讯总裁刘炽平披露微信AI化策略,鲜明吐露“微信最终会推出一个AI智能体”,让用户正在生态内即可杀青从需求贯通到供职交付的全流程。淘宝也正在实验通过“问问”等效力,正在App内杀青自然措辞导购。
![]()
预计另日,咱们以为手机Agent的起色不会是API或GUI的单选题,而是两者的交融。看待高价格、涉及敏锐数据的操作(如支拨、通信、焦点营业流),APIAgent有更高确实切度和隐私爱戴。看待只读、音信盘问类的需求,以及API尚未笼罩的使用,GUI Agent通过视觉贯通的式样运转可能更精巧通用。为分解决延迟和隐私题目,另日的手机措置器估计还将进一步优化视觉模子的推理才具,使GUI识别和决议正在端侧杀青,不再上传云端。
API Agent:腾讯控股、阿里巴巴、谷歌。算力:寒武纪、海光音信、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾细密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮音信、东山细密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润修股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。
Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合音信、税友股份、新致软件、金桥音信、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微汇集、朗新集团、润达医疗、壹网壹创、万兴科技、用友汇集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得音信、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石汇集、迪安诊断、中科金财、恒生电子、星环科技、卫宁强健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发训导、新大陆、新开普等。
行业角逐加剧危险:若相干企业加疾技能迭代和使用组织,具体行业角逐水准加剧,将会对目前行业内企业的延长出现胁制。
万分声明:《证券期货投资者妥贴性拘束主意》于2017年7月1日起正式履行。通过微信办法创制的基础料仅面向邦盛证券客户中的专业投资者。请勿对基础料举办任何办法的转发。若您非邦盛证券客户中的专业投资者,为包管供职质地、把握投资危险,请撤销体贴,请勿订阅、承受或运用基础料中的任何音信。因本订阅号难以创立拜访权限,若给您变成未便,烦请宽恕!感激您赐与的贯通和配合。
主要声明:本订阅号是邦盛证券推算机团队设立的。本订阅号不是邦盛推算机团队探究申诉的揭晓平台。本订阅号所载的音信仅面向专业投资机构,仅供正在新媒体靠山下探究见识的实时互换。本订阅号所载的音信均摘编自邦盛证券探究所依然揭晓的探究申诉或者系对已揭晓申诉的后续解读,若因对申诉的摘编而出现歧义,应以申诉密布当日的完全内容为准。基础料仅代外申诉密布当日的决断,相干的了解主睹及测度可正在不发出知照的情况下做出更改,读者参考时还须实时跟踪后续最新的探究开展。
基础料不组成对整体证券正在整体价位、整体时点、整体市集展现的决断或投资发起,不或许等同于引导整体投资的操作性主睹,通俗的部分投资者若运用基础料,有恐怕会因缺乏解读供职而对申诉中的闭头假设、评级、方针价等内容产心理解上的歧义,进而变成投资亏损。所以部分投资者还须寻求专业投资照料的引导。基础料仅供参考之用,罗致人不应纯粹依赖基础料的音信而代替本身的独立决断,应自立作出投资决议并自行经受投资危险。