文|硅谷101
最近,人形機(jī)器人賽道再次被推向了輿論的風(fēng)口浪尖,依然在“泡沫”與“前夜”的爭(zhēng)論中搖擺。
在硅谷,初創(chuàng)公司1X近期發(fā)布了Neo的演示視頻。在這支拍攝精美的廣告片中,Neo似乎能像人類一樣自然地做家務(wù),視頻瞬間在X和YouTube上引發(fā)熱議。但贊嘆聲未落,質(zhì)疑聲便鋪天蓋地而來——外界指出其流暢動(dòng)作的背后,其實(shí)嚴(yán)重依賴遠(yuǎn)程操控(Teleoperation),而非機(jī)器人的自主智能。這讓人不禁聯(lián)想到2023年那些聲稱擁有AI能力、實(shí)則依賴人工后臺(tái)處理的初創(chuàng)公司,“人工”智能的幽靈再次出現(xiàn)。
與此同時(shí),高盛在一份最新調(diào)研報(bào)告中,無情地指出機(jī)器人供應(yīng)鏈的“現(xiàn)實(shí)溫差”。盡管資本市場(chǎng)情緒高漲,企業(yè)產(chǎn)能規(guī)劃激進(jìn)——普遍在年產(chǎn)10萬至100萬臺(tái)之間——但實(shí)際的大規(guī)模訂單尚未落地。高盛甚至預(yù)測(cè),即便到了2035年,全球人形機(jī)器人總出貨量或僅為138萬臺(tái)。
盡管面臨“造假”質(zhì)疑與“產(chǎn)能過剩”的風(fēng)險(xiǎn),具身智能賽道在過去兩三年間仍吸引了巨額資本注入,并展現(xiàn)出與AI技術(shù)同步演進(jìn)的強(qiáng)勁勢(shì)頭。
本期《硅谷101》,特約研究員劉一鳴邀請(qǐng)了兩位深耕中美市場(chǎng)的資深投資人——華映資本海外合伙人Jonathan邱諄,Shanda Group合伙人/投資副總裁Christine Qing,透過資本的迷霧,審視具身智能賽道的真實(shí)格局。當(dāng)下的繁榮究竟是泡沫的預(yù)演,還是技術(shù)爆發(fā)的前夜?中美企業(yè)在戰(zhàn)略布局與核心優(yōu)勢(shì)上呈現(xiàn)何種差異?在商業(yè)化落地的競(jìng)賽中,哪些場(chǎng)景有望率先突圍?
以下是這次對(duì)話內(nèi)容的精選:
01、當(dāng)下的機(jī)器人賽道處于泡沫破裂前夕嗎?
一鳴:我們先來構(gòu)建一個(gè)全景圖。最近1X發(fā)布的視頻引發(fā)了很大爭(zhēng)議,被稱為“人工”智能,同時(shí)高盛的報(bào)告也指出產(chǎn)能與訂單的巨大落差。從投資視角來看,2025年的人形機(jī)器人賽道,究竟是處于一個(gè)類似“ChatGPT”爆發(fā)的前夜,還是已經(jīng)明顯過熱,甚至是泡沫破裂的前夕?
邱諄:我們內(nèi)部一直也在非常激烈地討論這個(gè)話題。一個(gè)核心觀點(diǎn)是:一定會(huì)有一定的過熱,但是我們覺得任何一個(gè)大的技術(shù)爆發(fā)的前夜都會(huì)過熱。所以作為投資人,我們其實(shí)還是希望能夠在這個(gè)過熱當(dāng)中,找到比較清晰的一些機(jī)會(huì),而不是因?yàn)檫^熱就完全否定它。
如果你問我現(xiàn)在的具體定位,我是把目前定義成“BERT時(shí)期”。
大家可能記得,Transformer架構(gòu)是2017年剛出來的,然后2018年的時(shí)候Google推出了BERT模型。BERT時(shí)期的意義在于,我們已經(jīng)有了一個(gè)比較清晰的技術(shù)路線了,大致知道是往這個(gè)方向走。映射到今天的機(jī)器人領(lǐng)域,我們看到了包括VLA(Vision-Language-Action)、RT-2、Pi0等模型,其實(shí)都有一個(gè)看上去很清晰的技術(shù)路線。
我們要區(qū)分兩個(gè)概念,其實(shí)所謂的“GPT時(shí)刻”有兩個(gè)階段。
第一個(gè)階段是GPT-3時(shí)刻,發(fā)生在2020年。它的標(biāo)志就是出現(xiàn)了一次“涌現(xiàn)”。簡(jiǎn)單來說,就是之前積累的大量的互聯(lián)網(wǎng)數(shù)據(jù)現(xiàn)在終于能夠用上了,被訓(xùn)練進(jìn)模型里了。其實(shí)在BERT時(shí)代,大家如果還能記得的話,那時(shí)候我們看一堆BERT的項(xiàng)目,它的意義是定義了預(yù)訓(xùn)練(Pre-train)這個(gè)技術(shù)路線——GPT中的“P”(Pre-train)其實(shí)從BERT時(shí)候就已經(jīng)定義了。但是因?yàn)樗皇巧墒降?,所以很多?shù)據(jù)是訓(xùn)練不進(jìn)去的。
直到GPT-3在2020年出現(xiàn),才把所有的數(shù)據(jù)一下訓(xùn)練出來,搞出了一個(gè)175B參數(shù)量的超級(jí)大模型。我覺得這個(gè)(數(shù)據(jù)涌現(xiàn))是我們現(xiàn)在對(duì)機(jī)器人領(lǐng)域很期望的一個(gè)標(biāo)志。
我一直的觀點(diǎn)就是:所有東西都是訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)的。今天雖然有這么多種收集訓(xùn)練數(shù)據(jù)的方法——遙操、動(dòng)捕、仿真等等——但事實(shí)上,行業(yè)內(nèi)還沒有訓(xùn)練出來一個(gè)真正的、從參數(shù)到性能都能夠有一定規(guī)模的模型。
第二個(gè)階段才是ChatGPT時(shí)刻。其實(shí)剛涌現(xiàn)的時(shí)候(GPT-3),大家并沒有真正能大規(guī)模用起來,實(shí)話說,因?yàn)樗幕卮鸷芏鄷r(shí)候其實(shí)還是不那么準(zhǔn)確的。直到ChatGPT出來,做了RLHF(人類反饋強(qiáng)化學(xué)習(xí))等后訓(xùn)練調(diào)優(yōu)之后,大家發(fā)現(xiàn)一下子這個(gè)效果立刻就很亮眼了,真的能用了。
所以回到機(jī)器人,我們還在等第一個(gè)時(shí)刻,即GPT-3時(shí)刻。我們很期待有一個(gè)涌現(xiàn)的出現(xiàn)。如果運(yùn)氣好的話,參考當(dāng)年從2018年到2020年也就兩年的時(shí)間,可能我們離這個(gè)時(shí)刻已經(jīng)很近了。
Christine:我非常同意Jonathan的觀點(diǎn),這肯定是分兩個(gè)階段爆發(fā)的。
我們?cè)诘谝粋€(gè)階段的確是做了一些深入到技術(shù)節(jié)點(diǎn)的思考。如果說第一階段在技術(shù)上有了GPT時(shí)刻,它的標(biāo)志是什么?我覺得可能是這個(gè)時(shí)候的具身智能機(jī)器人,已經(jīng)擁有了長(zhǎng)期動(dòng)作鏈的泛化能力。
這就意味著,機(jī)器人可以直接通過語言和視覺接收到人類的直接指令,然后將它分解為一系列復(fù)雜的動(dòng)作去完成它。
舉個(gè)例子,比如說我現(xiàn)在說:“你去廚房拿個(gè)杯子,倒水,然后放回桌子上?!边@里面的整個(gè)能力其實(shí)是涉及到從L0、L1甚至有一些L3的能力在里面。這已經(jīng)不是一個(gè)簡(jiǎn)單的腳本指令操作了,它是一個(gè)端到端的泛化。當(dāng)這個(gè)能力出現(xiàn)的時(shí)候,我們就可以說非常接近、甚至是達(dá)到了GPT爆發(fā)的第一步。
第二步,我覺得是一個(gè)類似ChatBot甚至iPhone的時(shí)刻。它最實(shí)質(zhì)性的標(biāo)志是:在C端的使用量有了一個(gè)在產(chǎn)品上面的規(guī)模性爆發(fā)。
在機(jī)器人上會(huì)不會(huì)復(fù)制軟件這種爆發(fā)規(guī)模?我覺得是有難度的,因?yàn)樗吘故且粋€(gè)軟件和一個(gè)軟硬一體的東西,甚至要落到一個(gè)具體的使用場(chǎng)景里面去落地。但是我覺得另外一個(gè)可能我們可以去類比的模型是蘋果手機(jī)。它一開始是慢的,但是一旦開始有了數(shù)據(jù),甚至是使用場(chǎng)景建立起來了,它就會(huì)變得非常的快,然后它這個(gè)市場(chǎng)是非常的穩(wěn)定且龐大的。
至于“過熱”這個(gè)問題,我是從兩個(gè)維度來看的。從產(chǎn)品或者Demo的實(shí)際能力(比如1X的視頻)以及技術(shù)成熟度來講,的確是不能和今天的估值做匹配的,現(xiàn)在的估值確實(shí)有些高。但是,如果我們是向前看,看這個(gè)未來的市場(chǎng)規(guī)模,那我們現(xiàn)在僅僅是開始了接近“物理AI”的可能性,這個(gè)市場(chǎng)的潛力是巨大的。對(duì)于風(fēng)險(xiǎn)投資來講,這種估值絕對(duì)是一個(gè)可消化的,也是一個(gè)必須提前占位的布局。
02、中美機(jī)器人故事:硅谷的“大腦”與深圳的“身體”
一鳴:兩位都是經(jīng)常在中美兩邊跑,看過很多創(chuàng)業(yè)公司和上市公司。大家都在談中美對(duì)比,無論在AI還是在機(jī)器人領(lǐng)域。在您看來,美國(guó)以特斯拉Optimus、Figure、Pi為代表的公司,跟中國(guó)像宇樹、智元、優(yōu)必選這些公司,它們?cè)趹?zhàn)略打法或者說一些核心優(yōu)勢(shì)上,有哪些異同?誰更領(lǐng)先?
邱諄:我們確實(shí)今年投國(guó)內(nèi)的具身項(xiàng)目投得比較多,從二月份開始已經(jīng)投了八九家了。因?yàn)槲易约阂恢痹诠韫?,跟這邊大部分的具身公司也都有交流。
嚴(yán)格來講,我覺得兩邊在很多方面還是比較接近的。
不論中美,確實(shí)都有不少公司是偏融資屬性、營(yíng)銷屬性的打法。其實(shí)很多視頻也是會(huì)有很多CGI或者加速在里面,或者用比較糙的辦法,拍很多次通過一次這樣,這是一類。當(dāng)然也有潛心不停地發(fā)論文、很學(xué)院派的,可能很多時(shí)候是以論文取勝,會(huì)不斷地有新的架構(gòu)、模型能夠跑出來。
中美的不同點(diǎn),可能更多是在技術(shù)棧上面的切分。
美國(guó)肯定相對(duì)還是偏“軟”一些,尤其是在大模型這一塊。從基座模型(Foundation Model)去驅(qū)動(dòng)具身模型的進(jìn)步這一塊,美國(guó)還是會(huì)領(lǐng)先的。不管是Pi也好、Skild AI也好,包括李飛飛的公司,都帶有很強(qiáng)的學(xué)院派色彩,強(qiáng)調(diào)從底層模型突破。
而從硬件的迭代上來說,中國(guó)是有巨大優(yōu)勢(shì)的。但我的觀點(diǎn)是,最后肯定是要融合,兩邊還是要融合的。很多機(jī)器人通用基礎(chǔ)模型的進(jìn)步一定也會(huì)推動(dòng)整個(gè)技術(shù)棧,包括硬件的進(jìn)步。所以兩邊的交流我看還是很多的,國(guó)內(nèi)會(huì)非常關(guān)注美國(guó)這邊最新的模型進(jìn)展,美國(guó)事實(shí)上在很多時(shí)候也是需要依賴國(guó)內(nèi)供應(yīng)鏈的更加成熟。
Christine:我完全同意Jonathan的看法。美國(guó)它肯定是先得要走通用的基礎(chǔ)模型,在他們的認(rèn)知里,硬件這個(gè)東西本身只是一個(gè)動(dòng)作的物理載體。
但是在中國(guó),因?yàn)榻衲晡以谥袊?guó)完全是一個(gè)學(xué)習(xí)心態(tài),我更多的是回中國(guó)去學(xué)習(xí),看這個(gè)“硬科技”都已經(jīng)發(fā)展到一個(gè)什么樣的水平了。
這周我剛剛從深圳回來,走訪了很多上下游企業(yè),包括做硬件的、軟件的、到做整機(jī)的。我聽到最多的一句話,我覺得很有意思,就是說:產(chǎn)品在深圳這個(gè)地方,機(jī)器人硬件產(chǎn)品甚至可以一天迭代三次。
我覺得這個(gè)速度是在硅谷想都不敢想的一件事情。硅谷既沒有膽量去做這件事情,也沒有能力去做這件事情。
所以我覺得他們是各有所長(zhǎng)。但是這個(gè)“長(zhǎng)”最后怎么變成一個(gè)綜合能力,也是我們一直在持續(xù)思考的一件事情。具身智能,既有“身體”又有“智能”,最終它落到場(chǎng)景的時(shí)候,應(yīng)該怎么去融合?
在這件事情上,我覺得學(xué)得最好的其實(shí)還是特斯拉。畢竟埃隆·馬斯克在上海超級(jí)工廠學(xué)習(xí)中國(guó)生產(chǎn)、學(xué)習(xí)了那么多年,他肯定是有所得的。他知道如何將極致的制造效率與頂尖的軟件能力結(jié)合,所以特斯拉的確是目前為止做得最好的。
一鳴:其實(shí)現(xiàn)階段因?yàn)檐浖暮芏喾夯赃€沒有得到更廣泛的運(yùn)用,可能硬件上的一些創(chuàng)新在這個(gè)時(shí)間點(diǎn)是能更出一些現(xiàn)成的結(jié)果的。在商業(yè)化應(yīng)用上,你覺得是硬件公司會(huì)走得更往前一點(diǎn),還是說兩方面都得等互相的進(jìn)展才行?
邱諄:最后一定是垂直整合(Vertical Integration)。
當(dāng)然商業(yè)化也分幾種。第一種是短期的商業(yè)化,你手上有啥硬件,你就試圖去賣,找短期的客戶,這當(dāng)然也算是商業(yè)化。但我們作為風(fēng)險(xiǎn)投資,看的是Long Capital,是一個(gè)跨周期的、最后能夠?qū)崿F(xiàn)具身智能爆發(fā)性技術(shù)突破的商業(yè)化。
從這個(gè)角度講,兩邊肯定還是要一起的。
美國(guó)它確實(shí)是需要供應(yīng)鏈的推動(dòng)。其實(shí)這個(gè)已經(jīng)很多年了,美國(guó)從最近才開始說我要供應(yīng)鏈回流,自己要有國(guó)產(chǎn)替代的供應(yīng)鏈。但大概至少在十幾二十年時(shí)間之內(nèi),其實(shí)還是嚴(yán)重依賴的。
其實(shí)十幾年前,美國(guó)當(dāng)時(shí)做智能硬件最有名的一個(gè)孵化器叫Highway1,還有一個(gè)叫PCH。他們每年或者每半年有一個(gè)批次,所有的十幾二十個(gè)初創(chuàng)公司都得拉到中國(guó)去。當(dāng)時(shí)其實(shí)華人創(chuàng)業(yè)者還不是很多,大部分是白人或者本地創(chuàng)業(yè)者,都被拉到華強(qiáng)北的一棟樓里面,必須在那邊待上三個(gè)月。
為什么?因?yàn)樗杏布牡家螅何冶仨毜媚軌蛳碌綐窍拢軌蛸I一個(gè)他要的零件,去調(diào)他新的硬件的架構(gòu),去買一個(gè)新的電阻、電容。要在美國(guó),你就很難做到這一點(diǎn)。實(shí)際上直到今天,很多人還是在淘寶上下單,然后等著轉(zhuǎn)一大圈物流配送到美國(guó)。確實(shí),硬件迭代這個(gè)事情在美國(guó)是挺難的,這個(gè)確實(shí)會(huì)阻礙到它的商業(yè)化。
而在國(guó)內(nèi),雖然硬件供應(yīng)鏈很強(qiáng),但是我一直的一個(gè)觀點(diǎn)叫“軟件定義、軟件驅(qū)動(dòng)”——如果你沒有基座模型,沒有VLA這種大模型的支持,你只靠供應(yīng)鏈的進(jìn)步也是無法實(shí)現(xiàn)充分的商業(yè)化的。
所以最后兩邊很可能還是一個(gè)互通、并駕齊驅(qū),互相借鑒、互相融合。
Christine:中國(guó)現(xiàn)在在進(jìn)入一個(gè)商業(yè)化的初期,但是結(jié)論其實(shí)是一樣的。誰會(huì)進(jìn)入規(guī)模化的商業(yè)化?現(xiàn)在很難講。
中國(guó)的供應(yīng)鏈、成本、場(chǎng)景、數(shù)據(jù)這個(gè)優(yōu)勢(shì),我覺得最大的一個(gè)優(yōu)勢(shì)其實(shí)是場(chǎng)景和數(shù)據(jù)的開放性。
我舉一個(gè)例子,有一家機(jī)器人公司在奔馳的產(chǎn)線上面做試點(diǎn)。他們的Demo是怎么做的?因?yàn)閲?guó)外的產(chǎn)線數(shù)據(jù)非常敏感,所以它是在那個(gè)產(chǎn)線上做了一個(gè)小的黑屋,就像一個(gè)帳篷一樣,就讓這個(gè)機(jī)器人在這個(gè)小黑屋里面做一個(gè)復(fù)制性的動(dòng)作。這就是美國(guó)的生產(chǎn)線或者生產(chǎn)場(chǎng)景,它對(duì)它的數(shù)據(jù)、對(duì)它執(zhí)行的任務(wù)本身就是這么的敏感。
但是在中國(guó)沒有這個(gè)問題。如果你有能力可以部署一萬臺(tái)這個(gè)機(jī)器人到我的產(chǎn)線上來干活,那我這個(gè)數(shù)據(jù)是可以開放給你用的,或者這是一個(gè)互幫互助的過程。所以那就說明了我們一直在說的數(shù)據(jù)、數(shù)據(jù)、數(shù)據(jù),那它的數(shù)據(jù)飛輪是不是就會(huì)先于美國(guó)第一步開始?
因?yàn)槲覀円仓繭penAI最開始是想要做機(jī)器人的基模的,為什么做不下去?因?yàn)樗貌坏綌?shù)據(jù),這是一個(gè)非常大的問題。
在美國(guó)的數(shù)據(jù)保護(hù),其實(shí)對(duì)機(jī)器人具身數(shù)據(jù)的使用、收集都是非常的挫敗。但是美國(guó)的能力確實(shí)是在于他們的軟件、大模型能力這塊。那就注定了他們從開始做這件事情的時(shí)候,他們就是以底層能力去定義機(jī)器人,就是用軟件、用大模型能力去定義機(jī)器人,而不是說我要一步一步地商業(yè)化去掙錢,把它作為一個(gè)里程碑。
另外,說到商業(yè)化,我們要看市場(chǎng)在哪里。美國(guó)市場(chǎng)的ROI(投資回報(bào)率)的確對(duì)于機(jī)器人來講是最高的。一旦它替代人了以后,它的市場(chǎng)價(jià)值以及它可以去商業(yè)化的場(chǎng)景,在物流,如果是To C端的話肯定就是養(yǎng)老的這些場(chǎng)景,它都是有大量的需求,并且付費(fèi)力是非常強(qiáng)的。
03、投資邏輯大辯論:泛化能力是分水嶺
一鳴:現(xiàn)在市場(chǎng)上有一類公司,可能它沒有到泛化性的那種智能,它可能用一些原來的那種工業(yè)機(jī)器人,再結(jié)合一些智能化做了一些改進(jìn),也許在產(chǎn)線也能用,但這些公司也許它有現(xiàn)金流,也許它能在未來融到更多錢。另一類是講究全棧、講究泛化的具身智能。這兩派,你覺得哪一派可能更現(xiàn)實(shí)一點(diǎn),或者說更有可能能成功?
邱諄:我不覺得這是兩派,這是兩個(gè)完全不同的投資邏輯。
第一類,我們稱之為“先進(jìn)制造”或者“智能硬件”。比如掃地機(jī)器人、協(xié)作機(jī)械臂、AGV。它們是專用設(shè)備,解決特定問題。你可以給它加芯片、跑控制算法去智能化,但它不需要訓(xùn)練那么大個(gè)模型,去搜集海量的人類數(shù)據(jù)。
第二類才是真正的“具身智能”(Embodied AI)。具身其實(shí)應(yīng)該是有一個(gè)比較清晰的定義的:具身一定是數(shù)據(jù)驅(qū)動(dòng)的,而且具身大概率是人形的。
很多人可能不理解為什么要做人形,其實(shí)都是因?yàn)閿?shù)據(jù)驅(qū)動(dòng)。因?yàn)槲覀冏詈蟀l(fā)現(xiàn),不管你用什么樣的數(shù)據(jù),只要你到一定的數(shù)據(jù)量,大概率都是跟人相關(guān)的。不管你是用大量的互聯(lián)網(wǎng)視頻,還是遙操、動(dòng)捕、示教,其實(shí)你會(huì)發(fā)現(xiàn)畫面里都是個(gè)人在操作。
如果你只是一個(gè)機(jī)械臂,那你就不是具身了。
最后區(qū)分兩者的一個(gè)很簡(jiǎn)單的方法就是:我看他要不要數(shù)據(jù)?
如果我是一個(gè)機(jī)械臂,我可以裝攝像頭,但我不需要那么多人類的數(shù)據(jù)去訓(xùn)練我這么大個(gè)模型,那我就是第一類。
第一類“先進(jìn)制造”的結(jié)果其實(shí)還是個(gè)專用設(shè)備。在很多專用的場(chǎng)合,包括AGV、協(xié)作機(jī)器人,它們解決的是專用問題。這類公司非常多,上市公司里就有,它們可以產(chǎn)生巨大的投資回報(bào),但是它們的投資策略、邏輯和對(duì)團(tuán)隊(duì)的評(píng)估,和第二類是完全不一樣的。
第二類具身智能,是最近這一兩年,尤其GPT出來之后才有的。馬斯克為什么能做Optimus?也是因?yàn)樗写竽P停蠫rok、有xAI,所以他才敢做這個(gè)事情。
做具身的人,一定不會(huì)做“三個(gè)手臂”的機(jī)器人。理論上講,三個(gè)手臂肯定比兩個(gè)手臂效率高,但為什么不做?唯一的原因就是:我無法去收集三個(gè)手臂的數(shù)據(jù)。我要遙操,我也找不到一個(gè)人能夠同時(shí)控制三個(gè)手臂;我所有的視頻訓(xùn)練數(shù)據(jù)里,都找不到三個(gè)手臂的人類。這是個(gè)很重要的點(diǎn)。
所以,這是兩個(gè)不同的賽道。先進(jìn)制造也能成功,但它不具備具身智能那種通過海量數(shù)據(jù)訓(xùn)練出的泛化能力。
04、先投“上半身”(大腦/靈巧手)還是“下半身”(運(yùn)動(dòng)控制)
一鳴:這其實(shí)也帶來了一個(gè)很有趣的投資思路上的分階段。我記得去年行業(yè)里還有些討論,說我們應(yīng)該是先投“上半身”(包括靈巧手、視覺,解決靈巧性問題),還是投資“下半身”(運(yùn)動(dòng)控制,也就是投腿和底盤)?您覺得在不同的年份,可能在今年也許更關(guān)注哪一個(gè)方向?
邱諄:我剛才提到一個(gè)詞叫“垂直整合”(Vertical Integration),通俗點(diǎn)說就是全身。
我其實(shí)不覺得具身是一個(gè)能分成上半身、下半身或者是個(gè)腰、腿的。我覺得最后其實(shí)都是全身。當(dāng)然可能最后是個(gè)大腦驅(qū)動(dòng)的事,小腦這些都是為大腦服務(wù)的?;蛘呶覀冋f技術(shù)一點(diǎn),其實(shí)還是一個(gè)軟件定義、軟件驅(qū)動(dòng)的概念,最后還是所有的這些算法和數(shù)據(jù)決定了這個(gè)事情能不能做出來。
具身這個(gè)事情是能做出來還是不能做出來,關(guān)鍵在于所謂“大腦”,就是基座模型的研發(fā)。所以理論上來講,最有價(jià)值的應(yīng)該還是集中在這一塊。
當(dāng)然不同的人可能有不同的切入點(diǎn)。比如有的團(tuán)隊(duì)偏控制算法(小腦),但他現(xiàn)在也得找人訓(xùn)練VLA,把視覺語言融進(jìn)來,做成端到端。
如果你只做下半身,那大概率你會(huì)變成一個(gè)硬件的供應(yīng)鏈。這也沒有問題,但如果上層的軟件定義的邏輯變了——因?yàn)樗x你嘛——如果它定義你最后把你定義出去了,那你可能就出局了。就是說你的這個(gè)腿到底是怎么做的?其實(shí)你要很緊密地跟隨著技術(shù)棧的上層,最后還是做大腦這一層去。
一鳴:從商業(yè)價(jià)值上,像宇樹在2023年之前,其實(shí)它的估值一直是上不去的,可能只有智元的一半都不到。但智元因?yàn)樗侵v了一個(gè)更全棧、更偏軟件更強(qiáng)的故事,所以它整體估值一下子漲得很猛。
邱諄:沒錯(cuò)。商業(yè)價(jià)值而言,宇樹是不小的。但宇樹的一個(gè)風(fēng)險(xiǎn)就是說,一旦技術(shù)棧發(fā)生變化了——當(dāng)然它好在現(xiàn)在都是科研——但如果下游客戶都商業(yè)化之后,發(fā)現(xiàn)原來的方案不行,它還能不能繼續(xù)出貨量產(chǎn)?這個(gè)還沒有被完全證實(shí)。
就是有可能最后技術(shù)路線大家都用你做科研,最后科研完了之后發(fā)現(xiàn)其實(shí)應(yīng)該用另外一種方案。所以我認(rèn)為,大而全也未必是正確的,還是要找一個(gè)很清晰的切入點(diǎn),比如你有一個(gè)很強(qiáng)的VLA算法,或者端到端的解決方案。
Christine:我們是做早期投資,所以對(duì)于早期我們現(xiàn)在來講的話,我一定是關(guān)注大腦,甚至運(yùn)動(dòng)算法都只是為大腦而做輔助的。這個(gè)事情是非常非常明確的。如果分成上半身、下半身,我們一定是上半身。
我最近關(guān)注的公司基本上一個(gè)是大腦、端到端的算法,然后數(shù)據(jù)的獲取。大家都在找一個(gè)切入口。但是我覺得大腦從它的基模感知到規(guī)劃,其實(shí)感知到規(guī)劃已經(jīng)是機(jī)器人的L2定義了,都沒太有人真正地做好這件事。Optimus秀了一個(gè)Demo,但其他的我覺得還沒有真正做好。
另外一個(gè)就是它的手,手的靈巧性。我們現(xiàn)在也在關(guān)注手它現(xiàn)版的上下游的成熟度,因?yàn)橹割^也是大腦在控制,所以這塊操控也是一個(gè)從軟件到硬件的一整個(gè)能力,我們也是在關(guān)注的。
05、沒有觸覺數(shù)據(jù),機(jī)器人學(xué)不會(huì)靈巧性?
一鳴:機(jī)器人先驅(qū)Rodney Brooks最近有一篇論文,觀點(diǎn)很犀利。他覺得現(xiàn)階段的機(jī)器人是很難真正學(xué)會(huì)靈巧性和泛化性的。他的核心論點(diǎn)在于:我們現(xiàn)在都在靠視覺數(shù)據(jù)來做,但其實(shí)人體觸覺數(shù)據(jù)非常重要,而觸覺數(shù)據(jù)現(xiàn)在幾乎是零。所以他也覺得這一波的所謂的泛化性是很難在短期內(nèi)實(shí)現(xiàn)的。您怎么看這個(gè)風(fēng)險(xiǎn)?
邱諄:這個(gè)可能是泡沫風(fēng)險(xiǎn)的一部分。但對(duì)于早期投資來說,我們就是冒險(xiǎn),其實(shí)有風(fēng)險(xiǎn)的地方就有冒險(xiǎn)。
我其實(shí)非常同意他那篇論文里面說的所有的觀點(diǎn),但這恰恰就是冒險(xiǎn),就是現(xiàn)在想解決的這些問題。
事實(shí)上我們不僅是觸覺,所有這些力反饋、變形、人類具有的這些傳感器的信息,其實(shí)都是缺乏的。但是,現(xiàn)實(shí)上最后能夠?qū)崿F(xiàn)的這個(gè)方案,不會(huì)是完全仿生的一種方案,它一定會(huì)走一些捷徑。就像當(dāng)年做飛機(jī)的時(shí)候,人們發(fā)現(xiàn)不是把鳥的翅膀的所有的動(dòng)作全都能夠模仿了之后才能飛,那不然當(dāng)時(shí)可能會(huì)說飛機(jī)永遠(yuǎn)是造不出來的。但事實(shí)上你最后會(huì)發(fā)現(xiàn)你能走一些捷徑。
就比如說現(xiàn)在VLA的一個(gè)核心點(diǎn)就是:我最后輸出的還是Token,我還是做下一個(gè)Token預(yù)測(cè)。雖然它跟人是很不一樣的,但核心點(diǎn)就是說你要怎么樣去搜到大量的數(shù)據(jù)。
我覺得觸覺是一個(gè)挺難的點(diǎn),因?yàn)闅v史上也沒有這些數(shù)據(jù)。VLA的好處是視覺(V)和語言(L)都是有的,互聯(lián)網(wǎng)上有大量數(shù)據(jù)。如果數(shù)據(jù)要從0開始,這確實(shí)比較難。
但我還是覺得,現(xiàn)在的具身,最后就是把你已經(jīng)有的這些數(shù)據(jù)能夠灌到一個(gè)模型里面。為什么我們?cè)诘菺PT-3時(shí)刻?只要有了這一堆數(shù)據(jù),能夠訓(xùn)練出來一個(gè)規(guī)模至少是不錯(cuò)的一個(gè)模型出來,這個(gè)時(shí)刻到了就行了,不用太糾結(jié)一定要有觸覺數(shù)據(jù)。如果糾結(jié)這個(gè)事情上,我覺得GPT可能當(dāng)年就出不來了。
Christine:我看下來覺得Brooks其實(shí)講了三個(gè)比較重要的問題:第一是數(shù)據(jù)的成本太高;第二是數(shù)據(jù)的結(jié)構(gòu)太稀缺(尤其是觸覺);第三是模型的形態(tài)還不到。
但是說機(jī)器人還是最終學(xué)不會(huì)嗎?我覺得不是這樣子的。這只能說是今天的實(shí)際困境,但他不能預(yù)測(cè)未來一定會(huì)卡在這里。
06、數(shù)據(jù)冷啟動(dòng)的困局,遠(yuǎn)程操控是“造假”還是“特洛伊木馬”?
一鳴:這就回到了我們開頭的1X Neo機(jī)器人。它進(jìn)入家庭卻依賴遠(yuǎn)程操控,被質(zhì)疑是“假智能”。但這是否也是一種數(shù)據(jù)收集的策略?通過這種手段先進(jìn)入家庭,收集數(shù)據(jù),然后再迭代?
邱諄:這就是最經(jīng)典的“數(shù)據(jù)冷啟動(dòng)”問題(Data Bootstrapping)。你沒有數(shù)據(jù),所以你的效果不好;效果不好就沒有人用;沒人用你就更沒數(shù)據(jù)。這是一個(gè)死循環(huán)。
1X想從這突破,其實(shí)大方向我是認(rèn)可的。這就像自動(dòng)駕駛早期的影子模式。
但事實(shí)上,很多自動(dòng)駕駛公司到今天也沒有真正突破。唯獨(dú)有一家多少算是突破了,就是特斯拉。但是,特斯拉是賣車的。首先很多人買它的車不是說我就為了用你FSD,我就是買一輛很牛的電車。所以你先得有一個(gè)“特洛伊木馬”,你總得先有一個(gè)東西能進(jìn)到他家里去。
我覺得對(duì)1X,它難的點(diǎn)就是說它現(xiàn)在還沒有一個(gè)“車”這么一個(gè)東西。它一上來就跳到了FSD了相當(dāng)于。特斯拉是經(jīng)過了至少兩個(gè)階段,第一階段我先賣車,第二階段再升級(jí)FSD。如果你能做到這一點(diǎn),我覺得是有可能的。
但是,如果第一天就買一個(gè)說會(huì)自動(dòng)駕駛的汽車,但這車本身沒什么用,而且還需要家里有個(gè)攝像頭實(shí)時(shí)被人盯著——這在C端太難以想象了。
Christine:其實(shí)我對(duì)1X這次出這個(gè)Neo機(jī)器人也是持有一定的保留意見的。我的一個(gè)最核心的問題就是說:你有沒有足夠的數(shù)據(jù)去支撐它是可以和人共處的?
參考自動(dòng)駕駛的邏輯,安全是一個(gè)漸進(jìn)的狀態(tài)。你要證明你的駕駛記錄到底有多少人工接管,中間至少花了三四年的時(shí)間去監(jiān)督這個(gè)車。有了足夠的數(shù)據(jù)累積了以后,才會(huì)跟監(jiān)管說我可以做無人駕駛了。
那么最后機(jī)器人和人的互動(dòng),怎么樣才能夠界定這個(gè)安全的邊界?如果1X直接推向C端家庭,這是一定要去做的一件事情?,F(xiàn)在落地肯定會(huì)先落到B端,在一個(gè)更結(jié)構(gòu)化的環(huán)境里面,風(fēng)險(xiǎn)性更可控,建立安全記錄。
一鳴:所以1X那個(gè)Neo實(shí)際銷量怎么樣?
邱諄:我沒有數(shù)據(jù),但我很懷疑,非常懷疑。至少C端我覺得太難以想象了。這不僅僅是隱私問題,它是實(shí)時(shí)就得有個(gè)人在后面盯著你,這已經(jīng)把隱私推到另外一個(gè)層面了。
07、真實(shí)的商業(yè)化落地:誰在買單?
一鳴:Christine,你最近去深圳調(diào)研,像智元跟比亞迪也有合作。你覺得具體的無論小B還是大B,或者工廠這種場(chǎng)景,你有看到什么好的實(shí)際落地的應(yīng)用?之前很多演示都有“擰螺絲”這個(gè)環(huán)節(jié),這有意義嗎?
Christine:擰螺絲我認(rèn)為可以通過自動(dòng)化專用設(shè)備來完成,不一定非要具身智能。
但是,目前確實(shí)有一些場(chǎng)景在嘗試。我覺得工業(yè)場(chǎng)景肯定是非常有意義的,然后零售場(chǎng)景也是很有意義的。因?yàn)樵诿绹?guó)和日本,零售場(chǎng)景對(duì)于上貨、下貨以及點(diǎn)貨、理貨,是有真實(shí)需求的。
現(xiàn)在的狀態(tài)是,大家都在嘗試,但能力還沒有到。現(xiàn)在全部都是演示階段,且是一個(gè)不穩(wěn)定的演示,故障率很高。
我在亞馬遜那里看到一個(gè)場(chǎng)景:翻箱子。這個(gè)動(dòng)作目前應(yīng)該是亞馬遜在物流上用人形機(jī)器人在做。
一鳴:翻箱子是為了什么?
Christine:為了貼標(biāo)簽和掃描條形碼。它需要必須某一面是朝上的,但箱子進(jìn)來時(shí)不一定完全是那樣的,所以就讓機(jī)器人來翻箱子,依靠視覺判斷條形碼位置。
一鳴:這聽起來跟具身好像也沒什么關(guān)聯(lián),更像個(gè)專用設(shè)備?
邱諄:擰螺絲我可以補(bǔ)充一下。很多工廠里的擰螺絲,如果位置固定,用專用設(shè)備確實(shí)可以做。但是很多車廠的擰螺絲其實(shí)是需要很強(qiáng)的泛化能力的。因?yàn)樗莻€(gè)螺絲的位置、松緊度其實(shí)是挺不確定的。
現(xiàn)在哪一家具身說已經(jīng)把擰螺絲解決了?我感覺好像還沒有。這個(gè)場(chǎng)景可能他們還是得做。但是這個(gè)場(chǎng)景怎么選?現(xiàn)在就是冷啟動(dòng)的問題,你沒有擰螺絲的數(shù)據(jù)?,F(xiàn)在很多公司讓工人戴著動(dòng)捕設(shè)備、或者用遙操去收集數(shù)據(jù)。大家確實(shí)比較看好這個(gè)場(chǎng)景,比亞迪這些車廠也有需求,但目前還在收數(shù)據(jù)和訓(xùn)練的過程中。
我覺得像Figure這種也不一定真正的能夠?qū)崿F(xiàn)。
一鳴:物流場(chǎng)景需要泛化能力的機(jī)器人嗎?
邱諄:事實(shí)上,工業(yè)場(chǎng)景和倉儲(chǔ)物流的自動(dòng)化已經(jīng)做得挺充分了。傳送帶、AGV都很成熟。但是你會(huì)發(fā)現(xiàn)中間還是需要人。
這個(gè)點(diǎn)就是具身想做的事情。自動(dòng)化已經(jīng)做了很多,但直到今天,在很多的環(huán)節(jié)里面還是需要一個(gè)人在那個(gè)地方做。新的需求就是希望能代替這個(gè)人,這就對(duì)泛化能力要求很高了。
Christine:對(duì),這個(gè)倒讓我想起來了一個(gè)案子。我也是在富士康的工廠里面看到的,在他們的物流中心,其實(shí)他的內(nèi)倉庫是100%自動(dòng)化的,但是他外倉庫的話永遠(yuǎn)會(huì)占兩到三個(gè)人。他們要負(fù)責(zé)抽箱、檢查、蓋箱、封箱。其實(shí)他們是非常希望用具身智能來解決這個(gè)問題的,這就是非結(jié)構(gòu)化場(chǎng)景的機(jī)會(huì)。
08、硬件的未來:機(jī)器人產(chǎn)業(yè)鏈會(huì)像手機(jī)一樣“模塊化”嗎?
一鳴:我們看到現(xiàn)在機(jī)器人有很多核心零部件,比如減速器、靈巧手。目前這個(gè)供應(yīng)鏈的成熟度如何?未來硬件有沒有可能像智能手機(jī)產(chǎn)業(yè)鏈那樣,大家買個(gè)胳膊、買個(gè)腿,就能很容易攢出一臺(tái)機(jī)器人?
邱諄:先說一下我的觀點(diǎn):雖然我們?cè)诳从布?,其?shí)還是軟件定義的這個(gè)概念。
硬件一定會(huì)進(jìn)步,但硬件的進(jìn)步往往是線性的,你很難一下指望它有一個(gè)指數(shù)性的大的爆發(fā)。其實(shí)我們今天看減速器或者電機(jī),跟多少年前并沒有極其巨大的實(shí)質(zhì)性突破。
最后大部分時(shí)候是出現(xiàn)一個(gè)什么情況呢?軟件會(huì)說:無論什么硬件,只要有的,我的算法剛好就能用上。
軟件定義的一個(gè)核心點(diǎn)就是說:我的突破是盡量去靠軟件實(shí)現(xiàn)的,我甚至可以把硬件做得很down(低配),甚至有個(gè)詞叫“現(xiàn)貨供應(yīng)”(COTS),我就買這種最一般的硬件,我也能把這個(gè)事情搭出來。
實(shí)話說,我們今天看的激光雷達(dá),跟最早那個(gè)Velodyne相比,其實(shí)原理沒變。但為什么當(dāng)年不行?就是因?yàn)楝F(xiàn)在的軟件算法突然能把你的傳感器數(shù)據(jù)用上了,能夠進(jìn)到訓(xùn)練流程里了,這下把你推起來了。
所以,不要太指望硬件本身有巨大的迭代。今天的大模型基本上是在現(xiàn)有的“樂高積木”上去搭。你要突然發(fā)明一個(gè)新的硬件,它要經(jīng)過整個(gè)量產(chǎn)的周期,其實(shí)這個(gè)時(shí)間成本也是比較長(zhǎng)的。
Christine:我大概是分三步來看這件事情的:
第一個(gè)是供應(yīng)鏈。我同意Jonathan的點(diǎn),其實(shí)它是已經(jīng)存在的一個(gè)行業(yè),只是我們?cè)谧鲆粋€(gè)重新整合。
第二個(gè)點(diǎn)其實(shí)就來到了整合,和機(jī)器人公司對(duì)硬件的設(shè)計(jì)定義。我覺得現(xiàn)在這個(gè)設(shè)計(jì)其實(shí)還沒有完全迭代成為我們最終看到的版本。包括其實(shí)我今年上半年聽說Optimus在硬件設(shè)計(jì)上的確是有一些短板的,所以它年中推翻了,現(xiàn)在重新設(shè)計(jì)。所以硬件的設(shè)計(jì)和定義可能還會(huì)進(jìn)行很快速度的演變。
第三步,最重要的智力(大腦)其實(shí)跟本體也是相關(guān)的。這是一個(gè)互相依靠的關(guān)系。做出來的大腦,你要有一個(gè)非??煽康挠布趴梢浴,F(xiàn)在的返修率還很高,下一步其實(shí)就是怎么把一個(gè)人形機(jī)器人做到夠堅(jiān)固、夠有魯棒性。我覺得明年可能會(huì)有更好的一個(gè)硬件迭代。
一鳴:如果軟件統(tǒng)治一切,那投資邏輯是不是應(yīng)該滿倉特斯拉?
Christine:我覺得它有兩個(gè)絕對(duì)的壁壘:第一個(gè)軟件它是絕對(duì)的壁壘,第二個(gè)壁壘我認(rèn)為其實(shí)是整合能力。軟硬整合、技術(shù)到產(chǎn)品落地整合、應(yīng)用場(chǎng)景整合。這也是為什么特斯拉目前看來最強(qiáng),因?yàn)樗荲ertical Integrated(垂直整合)。
邱諄:確實(shí)。不過如果我們非??粗剀浖鋵?shí)Google在這方面倒不一定比不過特斯拉。因?yàn)閷?duì)具身來說,更重要的還是基模這一塊。Google從DeepMind到Gemini的積累是非常深厚的。如果真的是軟件能夠決定一切的話,Google可能會(huì)有優(yōu)勢(shì);但是如果最后還是靠垂直整合的話,那特斯拉是有優(yōu)勢(shì)。這有兩面性。
09、大膽預(yù)測(cè)未來5年的機(jī)器人世界
一鳴:最后我們做一個(gè)大膽的預(yù)測(cè)。我們離機(jī)器人真正進(jìn)家庭、幫人類干活,還有多遠(yuǎn)?
邱諄:預(yù)測(cè)越遠(yuǎn)越不準(zhǔn)。如果看5年:
現(xiàn)在我們處于“BERT時(shí)刻”。大概2-3年后,我們應(yīng)該會(huì)看到機(jī)器人的“GPT-3時(shí)刻”。也就是說,我們能看到今天的這么多的具身數(shù)據(jù),能夠出現(xiàn)一個(gè)涌現(xiàn)的狀態(tài),能夠訓(xùn)練出來一個(gè)收斂的模型了。
然后再過個(gè)2-3年(即5年后),可能會(huì)迎來機(jī)器人的“ChatGPT時(shí)刻”。
但這不代表機(jī)器人滿街跑。因?yàn)榇蠹铱匆幌陆裉斓腃hatGPT,直到今天它也并不是說應(yīng)用滿大街爆發(fā)的,實(shí)話說真正的一個(gè)殺手級(jí)應(yīng)用可能還是ChatGPT自己。
很有可能五年以后,我們看到第一個(gè)實(shí)際的、泛化的應(yīng)用場(chǎng)景出現(xiàn),機(jī)器人讓大家能夠接受它了,它的執(zhí)行準(zhǔn)確率和安全性讓你開始用了。我覺得可能五年后能到這一點(diǎn)。
就真的你要等到它能夠比較安全、便宜、進(jìn)到你家里頭,那可能真的還要再過蠻久的時(shí)間。
Christine:我同意。采用曲線一定是:第一個(gè)肯定是到ToB的生產(chǎn)場(chǎng)景里面,非常結(jié)構(gòu)化的環(huán)境。
第二個(gè)我覺得它應(yīng)該是到餐廳里面去,可以做一些細(xì)碎的工作,但還是在B端,在人控制的半結(jié)構(gòu)化場(chǎng)景。
最后人們開始跟它接觸了以后才會(huì)對(duì)它產(chǎn)生信任感,然后才會(huì)說到C端家庭。
我最近可能在往機(jī)器人方向看得多一點(diǎn)的是“世界模型”這個(gè)方向。通過游戲或模擬環(huán)境,讓用戶互動(dòng)來標(biāo)注數(shù)據(jù),這可能是解決數(shù)據(jù)稀缺的一個(gè)新穎路徑。我覺得明年世界模型會(huì)有一個(gè)比較明確的收斂方向。
來源:硅谷101

