文 | AI價(jià)值官 星 野
編輯 | 美 圻
三個(gè)月前,努比亞M153首銷售罄的消息刷屏科技圈,豆包手機(jī)助手讓人第一次直觀感受到AI真正"接管"手機(jī)是什么體驗(yàn)。但熱度還未散去,微信、支付寶、各大銀行App的封鎖接踵而至。差不多同一時(shí)間,OpenClaw在開發(fā)者圈以另一種方式驗(yàn)證了同一件事的價(jià)值,只不過是在電腦端而非移動(dòng)端。
隨著谷歌聯(lián)手三星推出Gemini手機(jī)智能體,小米開始下場“養(yǎng)蝦”,由豆包手機(jī)助手率先開啟的手機(jī)AI Agent賽道,競爭格局已迎來關(guān)鍵轉(zhuǎn)變,成為軟件廠商、手機(jī)廠商、操作系統(tǒng)三路人馬的同場競技。
三條路線的技術(shù)底座不同,生態(tài)身份不同,面臨的阻力也各自迥異。豆包的讀屏方案、谷歌的AppFunctions框架、小米的系統(tǒng)原生API——表面上都在解同一道題,內(nèi)核的邏輯卻大相徑庭。誰的方案能真正跑通,取決于它在整個(gè)移動(dòng)生態(tài)中處于什么位置,而不只是技術(shù)本身的優(yōu)劣。
豆包手機(jī)走到今天,面對(duì)的已經(jīng)不只是應(yīng)用生態(tài)的阻力,還有手機(jī)廠商用系統(tǒng)級(jí)權(quán)限構(gòu)筑起來的新壁壘。但字節(jié)的處境,也并非外界看起來那樣被動(dòng)。它在B端的MCP布局、飛書積累的協(xié)議化經(jīng)驗(yàn)、以及獨(dú)家內(nèi)容技術(shù)生態(tài),都是手機(jī)廠商無法復(fù)制的資產(chǎn)。問題在于,如何把這些資產(chǎn)轉(zhuǎn)化成應(yīng)用廠商愿意合作、硬件廠商無法忽視的實(shí)際籌碼。
01 手機(jī)版“龍蝦”來了,但第三方應(yīng)用還沒跟上
最近一段時(shí)間,一只叫做OpenClaw的"龍蝦"火出了AI圈,“賽博養(yǎng)蝦”快速出現(xiàn)人傳人現(xiàn)象。不過,對(duì)大多數(shù)普通用戶來說,OpenClaw的門檻依然不低——它運(yùn)行在電腦端,需要一定的技術(shù)背景才能部署和使用,距離真正的大眾普及還有相當(dāng)距離。
3月6日,小米正式啟動(dòng)移動(dòng)端系統(tǒng)級(jí)智能體Xiaomi miclaw的小范圍封閉測試。雷軍在轉(zhuǎn)發(fā)公告時(shí)只寫了三個(gè)字:"手機(jī)龍蝦"。這是小米對(duì)OpenClaw熱潮的正面回應(yīng),也是手機(jī)廠商"養(yǎng)蝦"浪潮中率先亮相的那一只。意味著這場AI Agent革命的戰(zhàn)場,正式從極客的電腦延伸到了普通用戶的手機(jī)。

從官方介紹來看,miclaw的核心賣點(diǎn)是把手機(jī)系統(tǒng)能力變成AI可直接調(diào)用的工具集。Xiaomi miclaw可將手機(jī)系統(tǒng)能力封裝為超過50項(xiàng)工具,并持續(xù)擴(kuò)展,即便執(zhí)行20步復(fù)雜操作也能保持需求連貫性。
生態(tài)聯(lián)動(dòng)是miclaw目前最核心的差異化能力。小米深耕IoT多年,米家生態(tài)接入設(shè)備已超過10億臺(tái),而miclaw第一次讓這個(gè)龐大的設(shè)備矩陣真正被AI統(tǒng)一調(diào)度——讀取設(shè)備狀態(tài)、發(fā)送控制指令,在用戶授權(quán)的情況下,所有接入米家的智能設(shè)備都能成為AI可驅(qū)動(dòng)的終端。
對(duì)于第三方應(yīng)用的接入,小米給出了兩條路徑:一是通過MCP協(xié)議,PC端已有的數(shù)千個(gè)MCP工具理論上可以直接接入手機(jī)AI;二是發(fā)布了第三方應(yīng)用接入SDK,第三方App主動(dòng)聲明自己能提供的工具能力,Xiaomi miclaw動(dòng)態(tài)發(fā)現(xiàn)和調(diào)用。

這兩條路徑都有一個(gè)醒目的前提:第三方需要"主動(dòng)"接入。從目前公開的演示和官方描述來看,微信、支付寶等高頻第三方應(yīng)用,并未出現(xiàn)在任何實(shí)際操作場景之中。小米也明確將miclaw定位為"早期技術(shù)探索階段"。
即便第三方生態(tài)的接入仍是未解題,miclaw已經(jīng)構(gòu)建出一個(gè)其他廠商難以復(fù)制的獨(dú)特優(yōu)勢(shì)。一個(gè)小米重度用戶,已經(jīng)可以用一句話調(diào)度家里所有的智能設(shè)備、讀取全部系統(tǒng)通知、管理日歷和健康數(shù)據(jù),并在小米自有應(yīng)用矩陣?yán)锿瓿上喈?dāng)一部分的日常任務(wù)。
值得關(guān)注的是,小米并不會(huì)是唯一一家“養(yǎng)蝦”的廠商。華為、OPPO、vivo均已在系統(tǒng)級(jí)Agent方向持續(xù)投入。對(duì)用戶而言,未來可能無需額外安裝任何應(yīng)用,通過系統(tǒng)OTA更新就能獲得Agent能力,普及門檻將降至歷史最低。
但對(duì)應(yīng)用生態(tài)而言,當(dāng)各家手機(jī)廠商同時(shí)推出各自的標(biāo)準(zhǔn)化調(diào)用體系,意味著美團(tuán)、攜程、支付寶等平臺(tái)需要面對(duì)多套SDK的接入請(qǐng)求——在商業(yè)談判尚未理順的階段,這可能反而形成適配壓力,讓應(yīng)用廠商在開放力度上更加審慎。
更深遠(yuǎn)的影響在于:當(dāng)系統(tǒng)級(jí)Agent成為每部手機(jī)的標(biāo)配,AI調(diào)度應(yīng)用的方式將逐步取代用戶主動(dòng)打開App的習(xí)慣,應(yīng)用分發(fā)邏輯將被重寫。誰掌握了AI調(diào)度的入口,誰就掌握了下一代流量的分配權(quán)——而這,恰恰是每一家手機(jī)廠商都清楚的終局。
02 GUI向左,OpenClaw向右,AI手機(jī)的正確姿勢(shì)是什么?
如果說2025年底豆包手機(jī)助手的亮相,是一場模型公司與硬件廠商聯(lián)合的突襲。到了2026年開年,這場戰(zhàn)役的格局已經(jīng)今非昔比。手機(jī)廠商、操作系統(tǒng)、AI模型公司正在同一條賽道上加速,目標(biāo)高度一致:讓AI接管手機(jī)操作,成為用戶的全能代理。
要理解它們的本質(zhì)差異,需要先厘清一個(gè)更底層的技術(shù)問題:AI到底應(yīng)該怎樣"操作"手機(jī)?
OpenClaw的核心設(shè)計(jì)理念是本地運(yùn)行,基于MCP協(xié)議的三層結(jié)構(gòu)——核心層調(diào)用大模型,適配層連接平臺(tái),技能層執(zhí)行任務(wù)——它不依賴視覺識(shí)別,而是通過系統(tǒng)API直接執(zhí)行指令。
豆包手機(jī)助手的路徑則截然相反:用戶下指令,手機(jī)截屏發(fā)給云端大模型,模型看懂屏幕后返回操作指令,手機(jī)執(zhí)行,再截屏,如此循環(huán)。這是一種徹底的"視覺仿人"路線,AI像人一樣盯著屏幕干活。
這套讀屏路線的早期成效有目共睹。2025年12月1日,豆包手機(jī)助手技術(shù)預(yù)覽版發(fā)布,搭載該助手的努比亞M153工程樣機(jī)首批3萬臺(tái)一夜售罄,在科技圈引發(fā)現(xiàn)象級(jí)關(guān)注。跨平臺(tái)比價(jià)點(diǎn)外賣、自動(dòng)整理旅行攻略、批量處理消息,幾乎覆蓋手機(jī)日常使用的全場景,只在付款等關(guān)鍵環(huán)節(jié)需要人工介入。
但這一技術(shù)路線,與現(xiàn)有移動(dòng)應(yīng)用生態(tài)存在天然沖突。實(shí)際落地中,微信曾觸發(fā)“登錄環(huán)境異?!?安全提示,部分銀行App也彈窗要求關(guān)閉AI助手相關(guān)功能,豆包因此宣布暫停金融場景的AI自動(dòng)操作。這背后既有用戶隱私與安全的合規(guī)考量,更核心的是商業(yè)利益博弈:AI時(shí)代流量入口、用戶數(shù)據(jù)與操作鏈路的價(jià)值愈發(fā)關(guān)鍵,讀屏路線試圖繞開現(xiàn)有App壁壘,勢(shì)必面臨極大的生態(tài)阻力。
谷歌和三星在2026年2月給出了一條更接近OpenClaw精神的路徑。三星Galaxy Unpacked2026發(fā)布會(huì)上,谷歌安卓生態(tài)系統(tǒng)總裁薩馬特展示了Gemini智能體,能夠在后臺(tái)自動(dòng)完成訂餐、叫車、購物等跨應(yīng)用復(fù)雜任務(wù)。
谷歌披露了一套名為"AppFunctions"的底層框架,類似MCP協(xié)議的本地版本,通過AppFunctions,應(yīng)用開發(fā)者可以定義功能接口,讓Gemini更精準(zhǔn)地調(diào)用;同時(shí)谷歌也在開發(fā)"UI自動(dòng)化框架",讓AI能在沒有官方適配的應(yīng)用上通過視覺識(shí)別完成任務(wù)。這是一套"雙保險(xiǎn)"路線:優(yōu)先推動(dòng)應(yīng)用主動(dòng)開放API,同時(shí)保留視覺讀屏作為備用。
該方案目前僅面向美國、韓國的Galaxy S26與Pixel 10 系列推出Beta版,僅覆蓋外賣、網(wǎng)約車等少量合作場景,能力落地高度依賴應(yīng)用方的適配與授權(quán)。

對(duì)此,中興通訊終端事業(yè)部總裁、努比亞總裁倪飛直白評(píng)價(jià):"看到三星S26+Gemini的組合,同樣采用了GUI方式,但只實(shí)現(xiàn)了努比亞M153的局部能力,還是有些遺憾。"這個(gè)對(duì)比并非毫無道理,但恰好說明了兩條路線的本質(zhì)取舍——豆包走 “先落地、再協(xié)調(diào)” 的快速覆蓋路線,谷歌+三星走 “先定生態(tài)規(guī)則、再逐步開放” 的穩(wěn)妥路線。
小米miclaw 的整體思路與谷歌高度相近,但二者的優(yōu)勢(shì)各有側(cè)重:谷歌掌控安卓全球系統(tǒng)級(jí)底層入口,而小米作為國內(nèi)頭部手機(jī)廠商,依托自身終端與用戶體量,在國內(nèi)應(yīng)用生態(tài)的實(shí)際落地對(duì)接中更具話語權(quán)。
國內(nèi)六家主流手機(jī)廠商的智能體用戶規(guī)模,一年內(nèi)合計(jì)增長6500萬,整體達(dá)到5.35億。這一體量讓手機(jī)廠商在與第三方應(yīng)用的合作中更具主動(dòng)權(quán),接入開放SDK,可借助系統(tǒng)級(jí)AI入口獲得新的用戶觸達(dá)渠道,雙方更易形成互利的合作關(guān)系。
無論是谷歌AppFunctions還是小米的開放SDK,核心難題都在于應(yīng)用廠商愿意開放的能力邊界。AI智能體替代用戶完成操作后,用戶無需打開App,平臺(tái)的廣告曝光、用戶交互、流量入口價(jià)值都會(huì)被大幅削弱,甚至可能沖擊現(xiàn)有App的產(chǎn)品形態(tài)與核心利益,這也是應(yīng)用方存在顧慮的重要原因。
這也決定了這類API開放路線能落地的場景,僅局限于應(yīng)用方主動(dòng)讓渡的范圍,難以完全滿足用戶的全場景需求。
三條路線的問題由此清晰呈現(xiàn)。豆包手機(jī)路線覆蓋場景最廣、用戶感知最直接,但應(yīng)用封鎖的壓力始終存在。谷歌+三星路線規(guī)范性最強(qiáng),有安卓生態(tài)和龐大應(yīng)用關(guān)系網(wǎng)絡(luò)托底,但先談妥再落地的節(jié)奏,決定了它能覆蓋的場景深度有限。小米miclaw路線話語權(quán)最高,系統(tǒng)原生的身份讓生態(tài)談判更順暢,但第三方核心應(yīng)用的接入同樣沒有現(xiàn)成答案。
這場博弈的核心矛盾不是技術(shù)問題,而是利益問題。誰能讓超級(jí)App相信開放API帶來的增量收益大于被AI抽走流量的損失,誰才能真正打通手機(jī)智能體的全場景能力。在這個(gè)問題沒有答案之前,所有路線都只是在各自已經(jīng)談妥的一畝三分地里,跑得盡可能順暢。
03 豆包手機(jī)助手的下一步應(yīng)該怎么走?
豆包手機(jī)是這場競賽的開創(chuàng)者,但開創(chuàng)者未必是終局的贏家。面對(duì)手機(jī)廠商集體入場,字節(jié)需要找到一條與硬件廠商摩擦最小、自身優(yōu)勢(shì)發(fā)揮最大的路線。
字節(jié)初期以純大模型供應(yīng)商身份推進(jìn)合作遇阻,轉(zhuǎn)而通過與手機(jī)廠商開展系統(tǒng)級(jí)深度合作落地豆包手機(jī)助手。華為、小米、OPPO、vivo 均將自有智能體視為系統(tǒng)核心與流量分配入口,不愿向第三方開放系統(tǒng)級(jí)主導(dǎo)權(quán)。在此背景下,字節(jié)一邊持續(xù)與多家手機(jī)廠商洽談合作,一邊優(yōu)先選擇與中興等廠商聯(lián)手,以降低合作門檻、快速驗(yàn)證能力落地。
這條路線的邏輯是清晰的:將AI能力深度植入硬件,打造"智能中樞"而非自有品牌手機(jī)。據(jù)供應(yīng)鏈消息,字節(jié)已于2025年底開啟豆包手機(jī)助手正式版項(xiàng)目,豆包二代手機(jī)預(yù)計(jì)將于2026年第二季度中后期發(fā)布,依舊延續(xù)與中興努比亞的合作模式。
豆包二代最關(guān)鍵的技術(shù)決策,是如何處理GUI讀屏與標(biāo)準(zhǔn)化API調(diào)用之間的關(guān)系。兩者的根本差異在于:讀屏是AI去適應(yīng)人類的操作界面,API調(diào)用是應(yīng)用主動(dòng)為AI提供能力接口,前者靈活但脆弱,后者穩(wěn)定但依賴應(yīng)用方的主動(dòng)配合。
兩套方案并行,是豆包二代目前最現(xiàn)實(shí)的路徑。阿里在內(nèi)的部分App與字節(jié)達(dá)成?;饏f(xié)議,允許努比亞設(shè)備正常登錄,豆包主動(dòng)限制操作場景;另有手機(jī)廠商智能體負(fù)責(zé)人透露,主動(dòng)尋求合作的App大廠明顯增多了。
目前豆包團(tuán)隊(duì)已與打車、外賣、訂票等領(lǐng)域的部分平臺(tái)達(dá)成常用權(quán)限合作,這是從讀屏向API調(diào)用遷移的早期信號(hào)。已談妥的高頻場景推進(jìn)標(biāo)準(zhǔn)化調(diào)用,尚未覆蓋的長尾場景保留讀屏作為補(bǔ)充——這是向協(xié)議化路線逐步靠攏的過渡方案,而非一次性的路線切換。
在這個(gè)過程中,定位的調(diào)整比技術(shù)路線的切換更為關(guān)鍵。OpenClaw之所以讓大廠放心,是因?yàn)樗辉噲D成為用戶與數(shù)字世界之間的唯一中介,只是提供工具,讓用戶自己決定用誰的模型、部署在誰的云上。豆包如果能將定位從"流量中介"調(diào)整為"能力增強(qiáng)層",主動(dòng)開放接口、讓應(yīng)用廠商也能從AI調(diào)度中獲益,封鎖的動(dòng)機(jī)自然會(huì)弱化。
字節(jié)在B端積累的MCP工程化經(jīng)驗(yàn),是支撐這一轉(zhuǎn)變的重要基礎(chǔ)。飛書的Lark MCP Server已將消息、日歷、云文檔、多維表格等協(xié)作能力以MCP標(biāo)準(zhǔn)對(duì)外開放,這套標(biāo)準(zhǔn)化能力的沉淀,意味著豆包在推進(jìn)C端API接入時(shí)有完整的技術(shù)框架可以直接復(fù)用。
對(duì)字節(jié)而言,豆包的機(jī)會(huì)不在于成為下一個(gè)流量控制點(diǎn),而在于能否在開放生態(tài)中成為最不可替代的能力提供者。開創(chuàng)一個(gè)賽道,和贏得一個(gè)賽道,從來都是兩件事——但對(duì)字節(jié)來說,至少這場仗還遠(yuǎn)沒有打完。

