四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

機(jī)器人“大腦”60年進(jìn)化史:基礎(chǔ)模型的五代進(jìn)化與三大閉源流派

掃一掃下載界面新聞APP

機(jī)器人“大腦”60年進(jìn)化史:基礎(chǔ)模型的五代進(jìn)化與三大閉源流派

真正干活的機(jī)器人還有多遠(yuǎn)?

文|硅谷101

2025年,機(jī)器人公司發(fā)布的Demo都有點(diǎn)魔幻:

首先是Figure AI,在10月發(fā)布了第三代機(jī)器人,能做各種家務(wù),Demo也很酷炫,但任務(wù)的成功率存在很多質(zhì)疑,而且臉的設(shè)計,恐怖谷現(xiàn)象有點(diǎn)嚴(yán)重。

10月底發(fā)布demo的另一家明星公司1X,整個臉部設(shè)計就可愛了非常多,感覺是更愿意讓大家搬到家里的。但是叫做Neo的這款機(jī)器人依賴遠(yuǎn)程操控,被批評是“假智能”,而且有各種隱私問題。

同時,特斯拉的機(jī)器人雖然也發(fā)布了各種Demo的更新,包括在12月發(fā)布的非常順滑的跑步Demo,但明顯量產(chǎn)計劃在2025年遇到了極大的挑戰(zhàn),讓公司不得不暫停生產(chǎn),重新設(shè)計硬件。

我們的機(jī)器人系列已經(jīng)聊了靈巧手,以及2025年具身智能行業(yè)年度盤點(diǎn),本篇文章就來深聊一下這個產(chǎn)業(yè)的一個核心技術(shù):機(jī)器人基礎(chǔ)模型。我們試圖回答這樣一個問題:為什么2025年突然變成了機(jī)器人基礎(chǔ)模型的“元年”?

我們也走訪了硅谷的前沿機(jī)器人公司和實驗室,而基礎(chǔ)模型篇會分為“閉源”和“開源”兩篇,系統(tǒng)拆解當(dāng)下主流機(jī)器人的“大腦”是如何被訓(xùn)練出來、如何接入真實世界、以及不同路線背后的技術(shù)與商業(yè)邏輯。帶你看清,大模型時代的機(jī)器人,大腦究竟是怎么長成的。本篇文章我們先來聊一聊目前資本市場的寵兒——閉源系統(tǒng)。

01 機(jī)器人基礎(chǔ)模型:從60年代到2025年的范式革命

如果要用一句話解釋機(jī)器人基礎(chǔ)模型,最簡單的類比是:如果說GPT是“會說話的大腦”,那機(jī)器人基礎(chǔ)模型就是“會動手的大腦”。

但這個“會動手的大腦”,人類研究了整整60年才做出來。我們先來回顧一下,大模型出現(xiàn)以前的四大機(jī)器人范式。

Chapter 1.1 第一代:編程式機(jī)器人(1960s-1990s)

1961年,世界上第一臺工業(yè)機(jī)器人Unimate在通用汽車的工廠里“上班”了。它的工作很簡單:從生產(chǎn)線上抓起滾燙的金屬零件,放到另一條生產(chǎn)線上。

從現(xiàn)在的眼光看,它蠻“傻”的,因為完全靠編程,工程師用代碼告訴它:

步驟1:手臂向左移動30厘米

步驟2:手爪閉合

步驟3:手臂向上移動50厘米

步驟4:手臂向右旋轉(zhuǎn)90度

步驟5:手爪松開

聽起來很傻對吧?但在當(dāng)時,這已經(jīng)是革命性的突破了。這種方式的問題很明顯:零容錯、零靈活性。

如果零件的位置偏了1厘米,機(jī)器人就抓不到,如果換一個不同尺寸的零件,就得重新寫代碼。更別說應(yīng)對意外情況——比如零件掉在地上,機(jī)器人就徹底不知道該干什么了。

但在工廠這種高度可控的環(huán)境里,這套方法管用了幾十年。直到今天,很多汽車工廠的焊接機(jī)器人,還在用這套“編程式”的邏輯。

Chapter 1.2 第二代:基于SLAM的方法(1990s-2010s)

到了90年代,機(jī)器人學(xué)家們意識到:光靠編程不行,機(jī)器人得能“感知”環(huán)境。于是出現(xiàn)了SLAM(同時定位與地圖構(gòu)建)、運(yùn)動規(guī)劃這些技術(shù)。

這里的核心思路是:先用傳感器“看”周圍環(huán)境,建立一個3D地圖,然后在地圖上規(guī)劃路徑,最后執(zhí)行動作。這個方式最成功的應(yīng)用就是掃地機(jī)器人。

風(fēng)靡一時的Roomba就是這么工作的:它用激光雷達(dá)掃描房間,建立地圖;然后規(guī)劃一條覆蓋所有區(qū)域的路徑;再按照路徑移動,遇到障礙物就繞開。

這套方法在“導(dǎo)航”任務(wù)上很成功:早期的無人車、無人機(jī)、物流機(jī)器人,基本都是這個套路。但在“操作”任務(wù)上就不行了,因為操作任務(wù)太復(fù)雜了,比如讓機(jī)器人疊一條毛巾,傳統(tǒng)方法是四步:

1.用視覺識別毛巾的四個角

2.計算每個角的3D坐標(biāo)

3.規(guī)劃手臂的運(yùn)動軌跡

4.執(zhí)行抓取、折疊、放下

聽起來挺合理,但實際操作中到處是坑:毛巾可能皺成一團(tuán),根本識別不出“四個角”;毛巾是柔性的,你一抓它就變形,3D坐標(biāo)立刻失效;每一步都可能出錯,一出錯整個流程就崩了。

2010年,加州伯克利的一個研究團(tuán)隊做過一個實驗:讓機(jī)器人疊毛巾,用的就是這套“感知→規(guī)劃→執(zhí)行”的方法。結(jié)果平均一條毛巾要花24分鐘。

而疊毛巾在如今AI時代來臨之后,也同樣是非常核心的,需要基礎(chǔ)模型去驅(qū)動機(jī)器人攻破的任務(wù)。

Chapter 1.3 第三代:行為克隆(2010s中期)

既然手工設(shè)計規(guī)則不行,那能不能讓機(jī)器人直接“學(xué)”人類怎么做?這就是行為克?。˙ehavior Cloning)的思路,也叫模仿學(xué)習(xí)(Imitation Learning)。

同樣以疊毛巾為例,機(jī)器人模仿學(xué)習(xí)會這么做:讓人類演示很多次怎么疊毛巾;記錄下每一幀的視覺輸入和動作輸出;訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)輸入→輸出的映射;機(jī)器人看到毛巾,直接輸出該做什么動作。

2015年,Google Brain的一個團(tuán)隊用這個方法,讓機(jī)器人學(xué)會了抓取各種物體。他們收集了數(shù)十萬次抓取的數(shù)據(jù),訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),推動了“視覺-動作”學(xué)習(xí)在機(jī)器人抓取任務(wù)上的進(jìn)展。

這可以說是個巨大的進(jìn)步!第一次,機(jī)器人不需要手工編寫規(guī)則,可以通過數(shù)據(jù)學(xué)習(xí)了。

但這個方法有個致命缺陷:數(shù)據(jù)效率太低。它需要數(shù)十萬次抓取數(shù)據(jù)來訓(xùn)練,而且這只是“抓取”這一個動作。如果要學(xué)“疊毛巾”,可能100萬次演示都不夠了。

更要命的是,這個方法的泛化性很差。你用A型號機(jī)器人收集的數(shù)據(jù),訓(xùn)練出來的模型,在B型號機(jī)器人上基本不能用。

Chapter 1.4 第四代:強(qiáng)化學(xué)習(xí)(2010s后期)

2016年,AlphaGo戰(zhàn)勝李世石,證明了強(qiáng)化學(xué)習(xí)的威力。機(jī)器人科學(xué)家們想:能不能讓機(jī)器人也用強(qiáng)化學(xué)習(xí),自己摸索出怎么完成任務(wù)?

強(qiáng)化學(xué)習(xí)的核心思路是:不需要人類演示,讓機(jī)器人自己嘗試,做對了給獎勵,做錯了給懲罰,機(jī)器人慢慢學(xué)會怎么做能獲得最多獎勵。

當(dāng)時,波士頓動力的機(jī)器人就開始將強(qiáng)化學(xué)習(xí)引入移動控制系統(tǒng),讓它們能在各種復(fù)雜地形上行走、跳躍、后空翻。

但強(qiáng)化學(xué)習(xí)也有個大問題:太慢了。AlphaGo為了學(xué)會下圍棋,在仿真環(huán)境里自己和自己下了幾千萬局,但機(jī)器人操作任務(wù),很難在仿真環(huán)境里練,因為環(huán)境復(fù)雜度太高,非常難設(shè)置,和真實物理世界差別較大,導(dǎo)致仿真不準(zhǔn)。

但真機(jī)試錯呢?太慢、太貴、太危險。想象一下,讓機(jī)器人學(xué)疊毛巾,它可能要試幾百萬次,其中大部分時候會出現(xiàn)的情況是:抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。這樣學(xué)下去,要到猴年馬月?

而且強(qiáng)化學(xué)習(xí)有個更根本的問題:它不知道“常識”。人類知道,毛巾是軟的、可以折疊的、有一定的摩擦力。但強(qiáng)化學(xué)習(xí)的機(jī)器人,需要通過無數(shù)次試錯才能“發(fā)現(xiàn)”這些常識,效率太低。

Chapter 1.5 第五代:VLA模型(2020s中期-現(xiàn)在)

大語言模型的出現(xiàn),改變了一切。2022年,ChatGPT橫空出世,人們發(fā)現(xiàn):大語言模型里蘊(yùn)含了人類世界的大量“常識”:它知道毛巾是什么、疊是什么意思、先做什么后做什么。它有推理能力、規(guī)劃能力、泛化能力。

行業(yè)里的第一反應(yīng)就是,能不能把大語言模型和機(jī)器人結(jié)合起來?于是,VLA(Vision-Language-Action)模型誕生了。VLA模型的革命性在于,它把三個東西統(tǒng)一到一個神經(jīng)網(wǎng)絡(luò)里:

Vision(視覺):看到當(dāng)前的場景;Language(語言):理解任務(wù)目標(biāo)和常識;Action(動作):輸出具體的控制指令。

舉個例子,你對機(jī)器人說:“幫我把桌上的蘋果放到籃子里?!眰鹘y(tǒng)方法需要四步:

1.視覺識別“蘋果”和“籃子”

2.規(guī)劃“抓取蘋果”的軌跡

3.規(guī)劃“移動到籃子”的軌跡

4.規(guī)劃“放下”的動作

VLA模型呢?一個端到端的神經(jīng)網(wǎng)絡(luò),直接從“語言指令+視覺輸入”,輸出“下一步該做什么動作”。

更神奇的是,它會“常識推理”。比如你說“幫我準(zhǔn)備早餐”,面對著家庭環(huán)境,它知道:要從冰箱拿出雞蛋;雞蛋要小心拿,不能摔碎;面包要放進(jìn)烤面包機(jī)。

這些常識,不需要你一條條編程,也不需要它自己試錯幾百萬次去“發(fā)現(xiàn)”。 因為大語言模型里已經(jīng)有了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們在架構(gòu)層面用的VLA,VLA簡單來說就是我們拿了大模型領(lǐng)域VLM作為所謂的backbone(核心),但是我們會在最終輸出結(jié)果的時候,把這個結(jié)果轉(zhuǎn)化成在機(jī)器人領(lǐng)域可用的action(動作)。action(動作)直觀理解就是,比如說我要把這個手臂移動到某一個坐標(biāo)點(diǎn)的這些命令。

VLA其實大家詬病最多的是:為什么我們需要L(Language、語言)?因為在過去傳統(tǒng)的機(jī)器人算法里面很多都是純基于視覺。但是你仔細(xì)去想,其實你大腦其實會產(chǎn)生類似于語言的東西,去告訴你在一個長線任務(wù)中,到底你第一步做什么,第二步做什么。

L的作用就在于對于一些非常復(fù)雜的任務(wù)的時候,它是可以通過在大語言上面已經(jīng)訓(xùn)練出來很多邏輯性的東西,比如說你要喝水,它就會知道你需要找杯子或者找瓶子。這個是通過大語言模型已經(jīng)直接可以給你的一些東西。利用VLA的主要目的,其實就是如何把Language(語言)跟Vision(視覺)能夠更好地結(jié)合起來,否則你如果只有Vision(視覺),你能做的任務(wù)可能就都是短線的,你做不了任何長線的、需要去做推理的一些任務(wù),所以這是我們?yōu)槭裁捶浅W⒌匾胝Z言這部分的主要原因。

那為什么2025年成了“具身機(jī)器人基礎(chǔ)模型元年”呢?因為三個關(guān)鍵因素在這一年同時成熟了。

第一個因素:大語言模型“夠用了”。

2024年到2025年,OpenAI、Anthropic、Google這些公司陸續(xù)發(fā)布新模型,大語言模型已經(jīng)“成熟”了,至少對于機(jī)器人需要的那部分能力,理解指令、規(guī)劃任務(wù)、常識推理,已經(jīng)足夠好了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第一是大模型本身已經(jīng)趨近于成熟,你們可以看到最近不管是OpenAI還是其他的公司,發(fā)布的模型已經(jīng)是增量式的增長,它不是像從3.5到4的時候的這種跨越式的增長,所以我們覺得大模型的能力已經(jīng)趨于穩(wěn)定,而且已經(jīng)足夠可以為具身智能提供一個很好的基礎(chǔ),所以這是從模型層面的一個最重要的因素。

第二個因素:算力價格腰斬再腰斬。

2023年,租一張NVIDIA H100 GPU是天價,還得排隊才能拿到貨,而隨著GPU云服務(wù)商價格戰(zhàn)打響,和NVIDIA的GPU大量鋪貨,初創(chuàng)公司都租得起幾千張卡來訓(xùn)練模型了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第二個因素是整體的算力強(qiáng)度肯定是越來越強(qiáng),每一年英偉達(dá)等芯片公司都會做更強(qiáng)的芯片,等效的算力價格其實也在降低,隔幾年可能等效的價格就變成了過去的一半,所以計算的增強(qiáng)對于整個具身智能也有很大的推進(jìn)影響。

第三個因素:硬件供應(yīng)鏈成熟。

這個變化很多人沒注意到。2024年,隨著人形機(jī)器人熱潮,大量資本涌入上游零部件廠商,特別是中國的供應(yīng)商們,電機(jī)、減速器、傳感器這些東西,原本都是小眾產(chǎn)品,但2024年開始,好幾家供應(yīng)商都拿到了大額融資,開始擴(kuò)產(chǎn),硬件便宜了,做機(jī)器人的門檻就降低了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第三是整個機(jī)器人硬件的各種零部件的成熟度是比較高的,特別是從去年開始火熱起來的這一波人形機(jī)器人的助推讓大家花了很多的精力跟資本去投入到很多基礎(chǔ)部件,包括電機(jī)、減速器這些部件的研發(fā),這一塊的成熟度和成本都有提升和降低,所以我們覺得這個時機(jī)會比較成熟一些。

這三個關(guān)鍵元素,讓2025年成為了一個特殊的時間窗口,基于VLA的新一代范式的機(jī)器人跑出來了。

2025年是人形機(jī)器人大年,第一臺機(jī)器人管家終于登場了,人形機(jī)器人將有望成為史上最龐大的產(chǎn)業(yè)之一,這將是一個5萬億的市場,全世界將遍布十億臺機(jī)器人。

但VLA模型也不是完美的,而它的核心挑戰(zhàn)是數(shù)據(jù)。大語言模型可以用互聯(lián)網(wǎng)上的文本訓(xùn)練,但機(jī)器人需要的是“真機(jī)數(shù)據(jù)”——必須有機(jī)器人本體的傳感器數(shù)據(jù)。而這種數(shù)據(jù),互聯(lián)網(wǎng)上根本沒有。

YouTube上有無數(shù)人類疊衣服的視頻,但沒有一個視頻告訴你,疊衣服的時候手指關(guān)節(jié)的角度是多少、施加的力量是多少,這就是為什么,這場“軍備競賽”的核心,除了算法,還有數(shù)據(jù)。誰能用最低的成本,采集到最高質(zhì)量的數(shù)據(jù),誰就能主導(dǎo)這個市場。

所以,機(jī)器人基礎(chǔ)模型不是憑空冒出來的,它是60年技術(shù)積累的集大成者,它繼承了:編程式機(jī)器人的“精確控制”;基于模型方法的“環(huán)境感知”;行為克隆的“示范學(xué)習(xí)”;強(qiáng)化學(xué)習(xí)的“自我優(yōu)化”;再加上了大語言模型的“常識推理”,這才是真正的“基礎(chǔ)模型”。

可能你想知道,現(xiàn)在搭載了VLA模型的機(jī)器人,都到什么程度了?我們這次也走訪了Dyna Robotics。

這家在硅谷炙手可熱的機(jī)器人明星公司的三位華人創(chuàng)始人中,Lindon Gao和York Yang是連續(xù)創(chuàng)業(yè)者,之前創(chuàng)立的AI購物車公司Caper AI以3.5億美元的價格,被Instacart收購;Jason Ma則是前DeepMind研究科學(xué)家,專攻機(jī)器人基礎(chǔ)模型。

這家公司成立才一年,已經(jīng)完成兩輪融資:2025年3月種子輪2350萬美元,同年的9月A輪1.2億美元,估值超過6億美元。投資方名單堪稱豪華:英偉達(dá)、亞馬遜、三星、LG。而讓他們最先火出圈的,并不是多么華麗的任務(wù)或者demo,而就是非常樸實的“疊毛巾”和“疊衣服”。

我們也和機(jī)器人以及和York比拼了一下手速,雖然在疊衣服這件事情上,我倆都比機(jī)器人快,但說實話我覺得我倆真不一定有Dyna的機(jī)器人疊得好。并且,關(guān)鍵點(diǎn)在于:機(jī)器人雖然目前還比較慢,但它可以7*24運(yùn)作,還不用休息,只要經(jīng)濟(jì)賬算得過來,落地就是可行的。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

因為正常人工的很多場景,你1個人就是8個小時,而機(jī)器可以讓它跑15個小時或者24個小時,可以彌補(bǔ)掉效率的一定的損失。

第二是疊毛巾本身確實是一個不錯的商業(yè)落地場景,因為它相對比較單一,也是比較固定的一個任務(wù)。但是在像美國這樣高人工成本的國家,確實要花掉很多的資金在這件事情上面,所以我們聊的這些商家客戶都非常有意愿去使用機(jī)器人來做這件事情。

02 閉源模型機(jī)器人主要流派

看完Dyna的機(jī)器人,我們再來看看,2025年的機(jī)器人賽道,還有哪些玩家:

我們可以把他們分成三個流派來看,表面上看,他們爭的是技術(shù)路線、市場份額、融資估值,但本質(zhì)上,他們爭的是同一個問題:什么才是實現(xiàn)“通用機(jī)器人”的正確路徑?

Chapter 2.1 流派一:全棧整合派

這一派的代表公司是特斯拉Optimus和Figure AI。核心信念是:機(jī)器人基礎(chǔ)模型不能和硬件分離,必須垂直整合、深度耦合,才能發(fā)揮最大效果。

作為這個流派最激進(jìn)的代表,特斯拉的CEO馬斯克曾經(jīng)說過一句很狂的話:“特斯拉八成的價值將來自于Optimus機(jī)器人?!?/p>

馬斯克的自信來自特斯拉FSD(完全自動駕駛)十年的積累,特斯拉Optimus前工程主管Milan Kovac曾經(jīng)說,“我們只是從輪子上的機(jī)器人變成長著腿的機(jī)器人”。

特斯拉有數(shù)百萬輛車收集的真實世界數(shù)據(jù)、端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu)、規(guī)模龐大的標(biāo)注團(tuán)隊,所以他這個邏輯聽起來無懈可擊:既然FSD能讓汽車在復(fù)雜路況中自主駕駛,那同樣的架構(gòu),為什么不能讓機(jī)器人在復(fù)雜環(huán)境中自主操作?都是感知、決策、執(zhí)行的閉環(huán),都是端到端的神經(jīng)網(wǎng)絡(luò),只是輸出從“方向盤角度”變成了“關(guān)節(jié)角度”而已。

但2025年的現(xiàn)實并沒有這么美好。年初,馬斯克在內(nèi)部會議上信誓旦旦地說:2025年要生產(chǎn)5000臺Optimus,其中1000臺會部署在特斯拉自己的工廠。但是到年中,實際上組裝了1000多臺后,特斯拉Optimus人形機(jī)器人的生產(chǎn)計劃就已經(jīng)暫停,面臨重新設(shè)計。

而Optimus最近還面臨一個更大的風(fēng)波,就是它在特斯拉活動現(xiàn)場分發(fā)瓶裝水時,突然做出了好像要把頭上某個不存在的東西拽下來的動作,然后摔了一跤。 這個動作實在是太像人類操作員摘下頭戴式設(shè)備的動作,于是這段視頻馬上爆火,不少人馬上提出來質(zhì)疑:Optimus,是不是有操作員在遠(yuǎn)程操控?

Optimus的發(fā)展看起來不像馬斯克號稱的那么順利,問題出在哪?

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

他們本身是最早在人形機(jī)器人領(lǐng)域做出本體,有過一定的demo演示的公司。他們現(xiàn)在主要利用的是人類視頻做遷移,它的優(yōu)勢毋庸置疑,人類視頻其實是最容易采的,因為你不需要任何的外設(shè)備,你采集的也是人手去操作的場景,可擴(kuò)展上來說,特斯拉這個模式是最高的。

但是它的幾個主要的問題在于,第一,人類的手和機(jī)器人的手,如果你想讓它這個能力遷移得很好,需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手,非常接近人的自由度,這件事本身是一件非常困難的事情。

第二,但你再接近,它也不是完全一樣。所以在機(jī)器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會有一個鴻溝,就我們所謂的embodiment gap(物理差異),這個embodiment gap在當(dāng)前學(xué)術(shù)界也好、工業(yè)界也好,大家都公認(rèn)是一個比較難解決的問題。所以這樣的數(shù)據(jù)遷移的效率會比較低,哪怕你采集了很多數(shù)據(jù),如果只有30%或者50%可用,你的總數(shù)量就會需要去乘以可能性的數(shù)字,所以這是它的一定的局限性。

特斯拉想用海量人類視頻訓(xùn)練基礎(chǔ)模型,但人手和機(jī)器手的物理差異(embodiment gap)是個繞不過去的坎。即使你有YouTube上所有的人類操作視頻,轉(zhuǎn)換效率也是個問題。

這就是全棧整合派的第一個困境:你控制了全鏈條,但也意味著全鏈條的每個環(huán)節(jié)都是你的瓶頸。硬件不夠好,模型再強(qiáng)也白搭;模型不夠強(qiáng),硬件再好也發(fā)揮不出來。

但特斯拉的優(yōu)勢是錢多、人多、還有馬斯克,Optimus會不會最終成功?可能要再過兩年才能見分曉。

而Figure AI走的是類似特斯拉的路線,但更激進(jìn)。這家公司2022年才成立,創(chuàng)始人Brett Adcock之前做過電動垂直起降飛機(jī),算是從“飛行機(jī)器人”跨界到“地面機(jī)器人”。

2024年初,F(xiàn)igure AI做了個大膽的決定:和OpenAI深度合作,將GPT-4直接接入人形機(jī)器人中。那段時間,他們放出來的demo震撼全行業(yè):機(jī)器人能聽懂人類的指令,能和人對話,能自己決定做什么。比如你說“可以給我點(diǎn)吃的嗎”,它會主動遞給你一個蘋果

但好景不長。2025年2月,F(xiàn)igure AI突然主動宣布和OpenAI“分手”:他們要獨(dú)立推出自己的基礎(chǔ)模型,不再依賴OpenAI的技術(shù)。分手后的Figure AI,兩周后就迅速推出新Helix模型,定位為通用人形機(jī)器人VLA模型,強(qiáng)調(diào)是完全自研、用于控制整個人形機(jī)器人。

不得不說,能夠放棄OpenAI的“粗大腿”,F(xiàn)igure AI確實有兩把刷子。

Helix創(chuàng)新地采用了“System 1,System 2”雙系統(tǒng)架構(gòu):System 2像你的大腦皮層,負(fù)責(zé)“想清楚該干什么”;System 1像你的小腦,負(fù)責(zé)“手腳怎么配合”。當(dāng)你拿杯子喝水時,大腦皮層只需要決定“現(xiàn)在該拿杯子了”,小腦會自動調(diào)動20多塊肌肉完成抓取動作,你根本不需要意識到。

這個架構(gòu)解決了一個長期困擾機(jī)器人的問題:視覺-語言模型很聰明但太慢,傳統(tǒng)機(jī)器人控制策略很快但不夠通用。Helix讓兩者各司其職、端到端訓(xùn)練,既能理解復(fù)雜指令,又能實時精確控制。

更酷的是,Helix用單一神經(jīng)網(wǎng)絡(luò)控制整個上半身的35個自由度——包括手腕、軀干、頭部、每根手指,它還能同時控制兩個機(jī)器人協(xié)作完成任務(wù)。這就是Figure 和OpenAI“分手”后交出的答卷。

2025年9月,F(xiàn)igure AI完成了10億美元的C輪融資,估值從26億美元飆升到390億美元——15倍的漲幅,不到一年時間。投資方名單讀起來像科技圈的奧斯卡頒獎典禮:微軟、OpenAI、英偉達(dá)、貝佐斯、英特爾、三星……聽起來,已然成為具身機(jī)器人的“扛把子”。

總結(jié)一下,這一派的核心理念是:基礎(chǔ)模型的通用性來自于“足夠大、足夠端到端”,只要模型參數(shù)夠多、訓(xùn)練數(shù)據(jù)夠多、軟硬整合夠深,涌現(xiàn)能力就會自然出現(xiàn)。這是從GPT-4的成功中總結(jié)出來的經(jīng)驗——但這個經(jīng)驗在物理世界是否成立,還是個未知數(shù)。

Chapter 2.2 流派二:垂直突破派

如果說全棧整合派追求的是“一步到位的通用性”,那垂直突破派追求的是“從專精到泛化的涌現(xiàn)”。

他們的核心信念是:與其訓(xùn)練一個什么都會但什么都做不好的大模型,不如先讓模型在某個垂直場景做到極致,在這個過程中積累的“學(xué)習(xí)能力”會自然遷移到其他場景。

Dyna Robotics是這個流派比較清晰的代表,他們走的路線很特別:做通用形態(tài)的機(jī)器人,但是在模型層面會先利用比較成熟的能力,落地一些可以打工的場景,用于了解行業(yè)的know how(實際知識),并更好的指導(dǎo)算法研究的方向。也就是說,先讓機(jī)器人在洗衣房、餐廳、健身房這些場景“打工”,邊干活邊學(xué)習(xí)。

在2025年4月,他們發(fā)布了“首個可在真實環(huán)境中持續(xù)高性能運(yùn)行的機(jī)器人基礎(chǔ)模型”DYNA-1。在24小時內(nèi),他們的機(jī)器人自主折疊了700多張餐巾,成功率超過99.4%,完全無需人工干預(yù),吞吐量達(dá)到人類速度的60%。但顯然,Dyna的野心不止于疊毛巾。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第一是我們要澄清,我們不是一個做疊毛巾的公司,我們的基礎(chǔ)模型里面包含了各種各樣的數(shù)據(jù),有各種疊的:疊毛巾、疊餐巾、疊衣服,也有切菜、切水果、準(zhǔn)備食物,也有做早餐、清掃或者說擺放、物流場景的一些分揀,其實各種各樣的數(shù)據(jù)我們都有,我們的基礎(chǔ)模型其實是一個非常廣的模型。

我們的泛化性最主要還是來自于基礎(chǔ)的大模型,我們是希望基礎(chǔ)大模型能夠有足夠強(qiáng)的能力,在大部分的任務(wù)上不太需要非常多的定制。在早期可能你會發(fā)現(xiàn)遷移到一個新的任務(wù)的過程會比較冗余、比較繁雜,你會需要再重新采很大一部分的數(shù)據(jù),然后混到一起去做訓(xùn)練,但隨著你的基礎(chǔ)大模型數(shù)據(jù)量越來越大之后,你會發(fā)現(xiàn)哪怕去遷移到一個從未見過的這個任務(wù)上面,它其實需要的遷移成本也會越來越低。

我們過去可能會需要采幾個月的數(shù)據(jù)去遷移某一個任務(wù),但是到現(xiàn)在可能有一些簡單的任務(wù),可能一兩天的數(shù)據(jù)就可以遷移過去。所以整體來說只要你的基礎(chǔ)模型能力越來越強(qiáng),學(xué)習(xí)能力越來越強(qiáng)的話,你去遷移到新任務(wù)的能力也會越來越強(qiáng)。

Dyna對基礎(chǔ)模型的理解和全棧整合派完全不同,他們的理解是:與其訓(xùn)練一個什么都會但什么都做不好的泛化模型,不如先讓模型在某個任務(wù)上深度專精。在這個過程中積累的“學(xué)習(xí)能力”會幫助它更快掌握其他任務(wù)。就像把鋼琴練到音樂學(xué)院水平的人,上手吉他會比完全沒學(xué)過樂器的人快得多,因為掌握了“如何學(xué)習(xí)”的元技能。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們確實也看到當(dāng)你單一任務(wù)的能力提升得很強(qiáng)之后,它對于學(xué)習(xí)新任務(wù)有一定的促進(jìn)作用,我們拿最優(yōu)質(zhì)的數(shù)據(jù)到基礎(chǔ)的數(shù)據(jù)集里面做預(yù)訓(xùn)練之后,這個模型再去擴(kuò)展到新的任務(wù)上,它會更快、需要的數(shù)據(jù)更少,所以這個也是我們在實踐過程中找到一個有點(diǎn)反直覺,但是確實它發(fā)生了的一件事。我們對于它的理解可能就像人,如果你的學(xué)習(xí)能力本身很強(qiáng),那你學(xué)習(xí)新的東西的能力就會很強(qiáng),學(xué)習(xí)能力很強(qiáng)的前提是你可能過去已經(jīng)在很多任務(wù)上你自己做過實踐、做過學(xué)習(xí),你才會有強(qiáng)的學(xué)習(xí)能力。

所以我們覺得學(xué)習(xí)能力本身和學(xué)習(xí)的過程也是關(guān)聯(lián)的。

這個理念背后基于這樣一個觀點(diǎn):機(jī)器人基礎(chǔ)模型和大語言模型的Scaling Law(縮放定律)可能不一樣。

大語言模型的規(guī)律是:模型越大、數(shù)據(jù)越多,性能就越好,但機(jī)器人基礎(chǔ)模型的性能瓶頸,不只在“模型容量”和“數(shù)據(jù)量”,更在“數(shù)據(jù)質(zhì)量”和“物理一致性”。如果訓(xùn)練數(shù)據(jù)里的物理接觸不準(zhǔn)確,模型學(xué)到的就是錯誤的物理直覺,參數(shù)越大,錯誤越被“放大”。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

為什么說基于某種程度,它的Scaling Law(縮放定律)肯定不像大語言模型這么簡單粗暴。因為我們之前也和挺多做大語言模型的這些人聊過,他們已經(jīng)發(fā)現(xiàn),語言方向的數(shù)據(jù),哪怕用很多低質(zhì)量數(shù)據(jù),比如一堆文本,中間插了一段廣告,然后再是接著文本,就這樣的數(shù)據(jù)它一樣能訓(xùn)練出比較好的模型。因為模型它看的數(shù)據(jù)足夠多之后,它自動就會過濾掉廣告。但是機(jī)器人當(dāng)前我們覺得規(guī)模化更多的是來自于需要比較高質(zhì)量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面,機(jī)器人模型可能就不知道我要注意力集中在哪一個地方,所以最終它其實出來的效果并沒有那么好。

我們現(xiàn)在看到的是如果你的數(shù)據(jù)質(zhì)量足夠好,隨著數(shù)據(jù)量的增加,數(shù)據(jù)多樣性的增加,整體的基礎(chǔ)模型能力就會有很大的提升,對下游的各種需要fine-tune(微調(diào))的一些小任務(wù)也會有很大的提升,這個是實打?qū)嵞軌蚩吹玫降摹?/p>

所以Dyna選擇“小而精”的路線:

  • 與其訓(xùn)練一個100億參數(shù)的泛化模型,不如訓(xùn)練一個10億參數(shù)的專精模型
  • 要保證每一條訓(xùn)練數(shù)據(jù)都是高質(zhì)量的真實物理交互
  • 讓模型在實際部署中通過強(qiáng)化學(xué)習(xí)自我優(yōu)化

他們認(rèn)為:深度專精某個任務(wù)的過程中,模型學(xué)到的不只是“怎么疊毛巾”,還有“怎么快速學(xué)習(xí)新任務(wù)”的元能力。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

所以我們現(xiàn)在挺關(guān)注的,比如像強(qiáng)化學(xué)習(xí)的一些路徑,像通過大模型的基礎(chǔ)能力的學(xué)習(xí),比如說折疊能力、擺放能力的學(xué)習(xí),讓它擁有一個自我迭代、自我去學(xué)習(xí)新技能的能力,我覺得這個是最重要的。

但最終我們會覺得基礎(chǔ)的大模型可能在普通的一些任務(wù),比如說家用的很多:你幫我拿一個水、你幫我開一下門,類似的任務(wù)中,它應(yīng)該是可以直接完成的。

同樣重視元學(xué)習(xí)能力的,也還有諸如Skild AI這樣從“通用模型”切入,但并不做硬件的公司,他們核心邏輯是:用大規(guī)模仿真數(shù)據(jù)訓(xùn)練出一個通用的“大腦”,然后讓這個大腦能快速適配到不同的機(jī)器人硬件和任務(wù)場景。

比如說,同一個模型既能控制機(jī)械臂抓取物體,也能讓四足機(jī)器人行走,還能指揮人形機(jī)器人完成復(fù)雜操作,不需要每個任務(wù)都從頭訓(xùn)練,而是靠一個強(qiáng)大的基礎(chǔ)模型來遷移學(xué)習(xí)。有傳聞稱,英偉達(dá)和軟銀將領(lǐng)頭對它投資10億美元,估值將高達(dá)140億美元。

這個路線,還有一個特殊玩家值得一提:亞馬遜。2025年7月,亞馬遜宣布部署了第100萬臺機(jī)器人。100萬臺是什么概念?亞馬遜目前有156萬名員工,也就是說機(jī)器人數(shù)量即將超過人類員工。

但這100萬臺機(jī)器人,全都是專用機(jī)器人,針對具體場景優(yōu)化:Hercules能搬運(yùn)1250磅貨物,Pegasus用于包裹分揀、運(yùn)輸,但亞馬遜的野心不止于此。他們的Agentic AI團(tuán)隊正在開發(fā)通用機(jī)器人基礎(chǔ)模型,還在舊金山辦公室建了個叫“humanoid park”的室內(nèi)測試場,訓(xùn)練人形機(jī)器人應(yīng)對復(fù)雜障礙。

亞馬遜的策略和Dyna如出一轍:與其一開始就做大而全的通用模型,不如先在垂直場景積累世界上最好的數(shù)據(jù)和最強(qiáng)的能力,然后再泛化。

Chapter 2.3 流派三:生態(tài)平臺派

如果說前兩派是在爭“誰的路線更快”,那第三派爭的是“誰能制定行業(yè)標(biāo)準(zhǔn)”。他們的核心信念是:在基礎(chǔ)模型這個賽道,最終贏家不一定是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。

首先,NVIDIA的邏輯很簡單:做機(jī)器人界的Android。

2025年3月的GTC大會上,黃仁勛隆重介紹了GR00T N1,并且把它開源了,聽起來很美好,但你要用GR00T N1,就得用全套NVIDIA生態(tài),一個都跑不掉。這就是生態(tài)鎖定的威力:一旦你用了NVIDIA的全套工具鏈,切換成本高到讓人望而卻步。NVIDIA的護(hù)城河不是模型本身,而是整個生態(tài)。

Google走的是另一條路:通過開源研究建立影響力。

Google在機(jī)器人通用策略上選擇了一條“研究驅(qū)動、開源優(yōu)先”的路線。它推出的RT系列,強(qiáng)調(diào)大規(guī)模機(jī)器人演示數(shù)據(jù)、跨任務(wù)/跨平臺通用模型,并通過論文+開放數(shù)據(jù)集的方式在學(xué)術(shù)與研究社區(qū)建立了強(qiáng)大影響力。在Gemini 3發(fā)布后,Google最近也加快了步伐,還挖來了前波士頓動力首席技術(shù)官Aaron Saunders,想推動Gemini Al成為通用機(jī)器人控制平臺。

而OpenAI和Meta是這一派的另一種玩法:小步快跑,只為占坑。

OpenAI和機(jī)器人的關(guān)系,就像一對分分合合的情侶:早在2018年,他們就在機(jī)械手-操作任務(wù)上取得突破;但之后團(tuán)隊規(guī)模與優(yōu)先級有所收縮。到2024年和2025年初,他們上演了和Figure從熱戀到斷裂式分手的戲碼;但到了2025年下半年,他們又開始招聘多位專注于人形機(jī)器人控制算法的研究人員。

此外,OpenAI也試圖通過撒錢投資的方式,打造自己的生態(tài)影響力,2024年11月,OpenAI與杰夫·貝佐斯共同參與了Physical Intelligence的4億美元融資。

Meta的策略類似但更低調(diào)。2025年初,Meta在其Reality Labs旗下組建了一個新機(jī)器人部門,由前Cruise CEO Marc Whitten牽頭,目標(biāo)是開發(fā)類人機(jī)器人平臺。Meta CTO Andrew Bosworth曾公開提到,其團(tuán)隊正在構(gòu)建一種“world model”,以支撐機(jī)器人完成比“行走”和“跑跳”更細(xì)致的操控動作。

Chapter 2.4 三派之爭的本質(zhì):對“通用性”的不同賭注

表面上看,三派是在爭技術(shù)路線、爭市場、爭估值,但本質(zhì)上,他們賭的是關(guān)于“通用性”的三個相通、但又不同的假設(shè):

全棧整合派相信:通用性=足夠大的模型+足夠多的數(shù)據(jù)+足夠深的軟硬整合,只要這三個條件滿足,涌現(xiàn)能力會自然出現(xiàn),這是從GPT-4的成功中總結(jié)出來的經(jīng)驗。

垂直突破派相信:通用性=深度專精帶來的遷移能力,機(jī)器人的Scaling Law和語言模型不同,“小而精”可能比“大而全”更有效,關(guān)鍵是找到正確的“元學(xué)習(xí)”路徑。

生態(tài)平臺派相信:通用性=生態(tài)標(biāo)準(zhǔn)化程度,技術(shù)路線誰贏不重要,重要的是讓所有人都用你的工具鏈,最終贏家不是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。

當(dāng)然,還有“半開源半閉源”的兩家知名公司,Physical Intelligence(PI)和Genesis AI。我們會在我們的開源篇文章里重點(diǎn)介紹他們。

這幾大派系誰對誰錯?2025年還沒有答案。但可以確定的是:這場關(guān)于基礎(chǔ)模型的競賽,才剛剛開始。

03 2025年現(xiàn)狀:展示很精彩,落地還未知

馬斯克對特斯拉機(jī)器人的夢想很宏大,但現(xiàn)實是Optimus還在艱難爬坡。

12月19日,特斯拉官方發(fā)布了一份名為《特斯拉人形機(jī)器人2025年度報告》的視頻回顧,詳細(xì)披露了其人形機(jī)器人Optimus在過去一年中的技術(shù)迭代與進(jìn)化路徑,視頻以O(shè)ptimus加速跑進(jìn)2026年的畫面收尾,暗示明年將有更大幅度的技術(shù)跨越。我們也拭目以待。

同時,F(xiàn)igure AI拿了10億美元,估值390億,但真正商業(yè)化部署的也就幾十臺。NVIDIA的GR00T N1發(fā)布了,但有多少公司真正用起來了?不好說。

但是,我們也看到了各家都在令人驚嘆的進(jìn)展,有特斯拉這樣手握重金押注,也有Figure、Dyna為代表的創(chuàng)業(yè)公司在快速前進(jìn),還有OpenAI、Meta的低調(diào)入局,都在用重金、重資產(chǎn)的方式推進(jìn)機(jī)器人基礎(chǔ)模型。

這讓我們相信,尤其是是在家用機(jī)器人領(lǐng)域,機(jī)器人開始幫忙干些討厭的家務(wù),已不再那么遙遠(yuǎn)。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們是覺得最先肯定是在,像我們當(dāng)前在開拓的一些市場,比如商用服務(wù)的一些人工的部分,就是和人工一起去完成一些任務(wù)這樣的一些場景。但是我們覺得家用其實也沒有那么遙遠(yuǎn),并不需要完整的、非常通用的AGI。你可能只需要幾個任務(wù)就可以進(jìn)入到家庭的場景里,先讓機(jī)器人在家里面干起活來,然后逐漸地通過模型的迭代讓它產(chǎn)生更多的能力。

我們自己的目標(biāo),在2026年我們至少希望在商用場景有比較大規(guī)模的部署,在家用我們會擇機(jī)看。比如像疊衣服,我們采訪過很多身邊的朋友,其實大家都覺得這個功能他們非常需要,當(dāng)我們的硬件成本降到普通家庭可承擔(dān)的范圍內(nèi),我們可能就會優(yōu)先,比如先以疊衣服的功能賣給家庭,然后逐漸去拓展一些其他的功能。所以這個時間線應(yīng)該也不遙遠(yuǎn),可能也就在1~2年左右。

怎么樣,幾百美元可以幫你疊衣服、準(zhǔn)備早餐和做清潔的機(jī)器人助手,你會買嗎?

有關(guān)閉源模型的內(nèi)容我們就先聊到這里,但有一群人在用完全不同的方式做同樣的事:他們開源模型、他們分享數(shù)據(jù)、他們相信“聚沙成塔”的力量。他們說:“開放才能實現(xiàn)具身智能。”

下一篇機(jī)器人的文章我們會聊到:NVIDIA的“開放”到底有多開放?它和真正的開源有什么區(qū)別?為什么有人說GR00T N1是“偽開源”?Physical Intellig ence為什么要開源π0?一個剛成立、剛拿到投資的公司,為什么要把最核心的模型免費(fèi)放出來?他們的商業(yè)模式是什么?開源vs閉源,誰會贏?這場戰(zhàn)爭的本質(zhì)是什么?是技術(shù)路線之爭,還是商業(yè)模式之爭?

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

機(jī)器人“大腦”60年進(jìn)化史:基礎(chǔ)模型的五代進(jìn)化與三大閉源流派

真正干活的機(jī)器人還有多遠(yuǎn)?

文|硅谷101

2025年,機(jī)器人公司發(fā)布的Demo都有點(diǎn)魔幻:

首先是Figure AI,在10月發(fā)布了第三代機(jī)器人,能做各種家務(wù),Demo也很酷炫,但任務(wù)的成功率存在很多質(zhì)疑,而且臉的設(shè)計,恐怖谷現(xiàn)象有點(diǎn)嚴(yán)重。

10月底發(fā)布demo的另一家明星公司1X,整個臉部設(shè)計就可愛了非常多,感覺是更愿意讓大家搬到家里的。但是叫做Neo的這款機(jī)器人依賴遠(yuǎn)程操控,被批評是“假智能”,而且有各種隱私問題。

同時,特斯拉的機(jī)器人雖然也發(fā)布了各種Demo的更新,包括在12月發(fā)布的非常順滑的跑步Demo,但明顯量產(chǎn)計劃在2025年遇到了極大的挑戰(zhàn),讓公司不得不暫停生產(chǎn),重新設(shè)計硬件。

我們的機(jī)器人系列已經(jīng)聊了靈巧手,以及2025年具身智能行業(yè)年度盤點(diǎn),本篇文章就來深聊一下這個產(chǎn)業(yè)的一個核心技術(shù):機(jī)器人基礎(chǔ)模型。我們試圖回答這樣一個問題:為什么2025年突然變成了機(jī)器人基礎(chǔ)模型的“元年”?

我們也走訪了硅谷的前沿機(jī)器人公司和實驗室,而基礎(chǔ)模型篇會分為“閉源”和“開源”兩篇,系統(tǒng)拆解當(dāng)下主流機(jī)器人的“大腦”是如何被訓(xùn)練出來、如何接入真實世界、以及不同路線背后的技術(shù)與商業(yè)邏輯。帶你看清,大模型時代的機(jī)器人,大腦究竟是怎么長成的。本篇文章我們先來聊一聊目前資本市場的寵兒——閉源系統(tǒng)。

01 機(jī)器人基礎(chǔ)模型:從60年代到2025年的范式革命

如果要用一句話解釋機(jī)器人基礎(chǔ)模型,最簡單的類比是:如果說GPT是“會說話的大腦”,那機(jī)器人基礎(chǔ)模型就是“會動手的大腦”。

但這個“會動手的大腦”,人類研究了整整60年才做出來。我們先來回顧一下,大模型出現(xiàn)以前的四大機(jī)器人范式。

Chapter 1.1 第一代:編程式機(jī)器人(1960s-1990s)

1961年,世界上第一臺工業(yè)機(jī)器人Unimate在通用汽車的工廠里“上班”了。它的工作很簡單:從生產(chǎn)線上抓起滾燙的金屬零件,放到另一條生產(chǎn)線上。

從現(xiàn)在的眼光看,它蠻“傻”的,因為完全靠編程,工程師用代碼告訴它:

步驟1:手臂向左移動30厘米

步驟2:手爪閉合

步驟3:手臂向上移動50厘米

步驟4:手臂向右旋轉(zhuǎn)90度

步驟5:手爪松開

聽起來很傻對吧?但在當(dāng)時,這已經(jīng)是革命性的突破了。這種方式的問題很明顯:零容錯、零靈活性。

如果零件的位置偏了1厘米,機(jī)器人就抓不到,如果換一個不同尺寸的零件,就得重新寫代碼。更別說應(yīng)對意外情況——比如零件掉在地上,機(jī)器人就徹底不知道該干什么了。

但在工廠這種高度可控的環(huán)境里,這套方法管用了幾十年。直到今天,很多汽車工廠的焊接機(jī)器人,還在用這套“編程式”的邏輯。

Chapter 1.2 第二代:基于SLAM的方法(1990s-2010s)

到了90年代,機(jī)器人學(xué)家們意識到:光靠編程不行,機(jī)器人得能“感知”環(huán)境。于是出現(xiàn)了SLAM(同時定位與地圖構(gòu)建)、運(yùn)動規(guī)劃這些技術(shù)。

這里的核心思路是:先用傳感器“看”周圍環(huán)境,建立一個3D地圖,然后在地圖上規(guī)劃路徑,最后執(zhí)行動作。這個方式最成功的應(yīng)用就是掃地機(jī)器人。

風(fēng)靡一時的Roomba就是這么工作的:它用激光雷達(dá)掃描房間,建立地圖;然后規(guī)劃一條覆蓋所有區(qū)域的路徑;再按照路徑移動,遇到障礙物就繞開。

這套方法在“導(dǎo)航”任務(wù)上很成功:早期的無人車、無人機(jī)、物流機(jī)器人,基本都是這個套路。但在“操作”任務(wù)上就不行了,因為操作任務(wù)太復(fù)雜了,比如讓機(jī)器人疊一條毛巾,傳統(tǒng)方法是四步:

1.用視覺識別毛巾的四個角

2.計算每個角的3D坐標(biāo)

3.規(guī)劃手臂的運(yùn)動軌跡

4.執(zhí)行抓取、折疊、放下

聽起來挺合理,但實際操作中到處是坑:毛巾可能皺成一團(tuán),根本識別不出“四個角”;毛巾是柔性的,你一抓它就變形,3D坐標(biāo)立刻失效;每一步都可能出錯,一出錯整個流程就崩了。

2010年,加州伯克利的一個研究團(tuán)隊做過一個實驗:讓機(jī)器人疊毛巾,用的就是這套“感知→規(guī)劃→執(zhí)行”的方法。結(jié)果平均一條毛巾要花24分鐘。

而疊毛巾在如今AI時代來臨之后,也同樣是非常核心的,需要基礎(chǔ)模型去驅(qū)動機(jī)器人攻破的任務(wù)。

Chapter 1.3 第三代:行為克?。?010s中期)

既然手工設(shè)計規(guī)則不行,那能不能讓機(jī)器人直接“學(xué)”人類怎么做?這就是行為克隆(Behavior Cloning)的思路,也叫模仿學(xué)習(xí)(Imitation Learning)。

同樣以疊毛巾為例,機(jī)器人模仿學(xué)習(xí)會這么做:讓人類演示很多次怎么疊毛巾;記錄下每一幀的視覺輸入和動作輸出;訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)輸入→輸出的映射;機(jī)器人看到毛巾,直接輸出該做什么動作。

2015年,Google Brain的一個團(tuán)隊用這個方法,讓機(jī)器人學(xué)會了抓取各種物體。他們收集了數(shù)十萬次抓取的數(shù)據(jù),訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),推動了“視覺-動作”學(xué)習(xí)在機(jī)器人抓取任務(wù)上的進(jìn)展。

這可以說是個巨大的進(jìn)步!第一次,機(jī)器人不需要手工編寫規(guī)則,可以通過數(shù)據(jù)學(xué)習(xí)了。

但這個方法有個致命缺陷:數(shù)據(jù)效率太低。它需要數(shù)十萬次抓取數(shù)據(jù)來訓(xùn)練,而且這只是“抓取”這一個動作。如果要學(xué)“疊毛巾”,可能100萬次演示都不夠了。

更要命的是,這個方法的泛化性很差。你用A型號機(jī)器人收集的數(shù)據(jù),訓(xùn)練出來的模型,在B型號機(jī)器人上基本不能用。

Chapter 1.4 第四代:強(qiáng)化學(xué)習(xí)(2010s后期)

2016年,AlphaGo戰(zhàn)勝李世石,證明了強(qiáng)化學(xué)習(xí)的威力。機(jī)器人科學(xué)家們想:能不能讓機(jī)器人也用強(qiáng)化學(xué)習(xí),自己摸索出怎么完成任務(wù)?

強(qiáng)化學(xué)習(xí)的核心思路是:不需要人類演示,讓機(jī)器人自己嘗試,做對了給獎勵,做錯了給懲罰,機(jī)器人慢慢學(xué)會怎么做能獲得最多獎勵。

當(dāng)時,波士頓動力的機(jī)器人就開始將強(qiáng)化學(xué)習(xí)引入移動控制系統(tǒng),讓它們能在各種復(fù)雜地形上行走、跳躍、后空翻。

但強(qiáng)化學(xué)習(xí)也有個大問題:太慢了。AlphaGo為了學(xué)會下圍棋,在仿真環(huán)境里自己和自己下了幾千萬局,但機(jī)器人操作任務(wù),很難在仿真環(huán)境里練,因為環(huán)境復(fù)雜度太高,非常難設(shè)置,和真實物理世界差別較大,導(dǎo)致仿真不準(zhǔn)。

但真機(jī)試錯呢?太慢、太貴、太危險。想象一下,讓機(jī)器人學(xué)疊毛巾,它可能要試幾百萬次,其中大部分時候會出現(xiàn)的情況是:抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。這樣學(xué)下去,要到猴年馬月?

而且強(qiáng)化學(xué)習(xí)有個更根本的問題:它不知道“常識”。人類知道,毛巾是軟的、可以折疊的、有一定的摩擦力。但強(qiáng)化學(xué)習(xí)的機(jī)器人,需要通過無數(shù)次試錯才能“發(fā)現(xiàn)”這些常識,效率太低。

Chapter 1.5 第五代:VLA模型(2020s中期-現(xiàn)在)

大語言模型的出現(xiàn),改變了一切。2022年,ChatGPT橫空出世,人們發(fā)現(xiàn):大語言模型里蘊(yùn)含了人類世界的大量“常識”:它知道毛巾是什么、疊是什么意思、先做什么后做什么。它有推理能力、規(guī)劃能力、泛化能力。

行業(yè)里的第一反應(yīng)就是,能不能把大語言模型和機(jī)器人結(jié)合起來?于是,VLA(Vision-Language-Action)模型誕生了。VLA模型的革命性在于,它把三個東西統(tǒng)一到一個神經(jīng)網(wǎng)絡(luò)里:

Vision(視覺):看到當(dāng)前的場景;Language(語言):理解任務(wù)目標(biāo)和常識;Action(動作):輸出具體的控制指令。

舉個例子,你對機(jī)器人說:“幫我把桌上的蘋果放到籃子里?!眰鹘y(tǒng)方法需要四步:

1.視覺識別“蘋果”和“籃子”

2.規(guī)劃“抓取蘋果”的軌跡

3.規(guī)劃“移動到籃子”的軌跡

4.規(guī)劃“放下”的動作

VLA模型呢?一個端到端的神經(jīng)網(wǎng)絡(luò),直接從“語言指令+視覺輸入”,輸出“下一步該做什么動作”。

更神奇的是,它會“常識推理”。比如你說“幫我準(zhǔn)備早餐”,面對著家庭環(huán)境,它知道:要從冰箱拿出雞蛋;雞蛋要小心拿,不能摔碎;面包要放進(jìn)烤面包機(jī)。

這些常識,不需要你一條條編程,也不需要它自己試錯幾百萬次去“發(fā)現(xiàn)”。 因為大語言模型里已經(jīng)有了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們在架構(gòu)層面用的VLA,VLA簡單來說就是我們拿了大模型領(lǐng)域VLM作為所謂的backbone(核心),但是我們會在最終輸出結(jié)果的時候,把這個結(jié)果轉(zhuǎn)化成在機(jī)器人領(lǐng)域可用的action(動作)。action(動作)直觀理解就是,比如說我要把這個手臂移動到某一個坐標(biāo)點(diǎn)的這些命令。

VLA其實大家詬病最多的是:為什么我們需要L(Language、語言)?因為在過去傳統(tǒng)的機(jī)器人算法里面很多都是純基于視覺。但是你仔細(xì)去想,其實你大腦其實會產(chǎn)生類似于語言的東西,去告訴你在一個長線任務(wù)中,到底你第一步做什么,第二步做什么。

L的作用就在于對于一些非常復(fù)雜的任務(wù)的時候,它是可以通過在大語言上面已經(jīng)訓(xùn)練出來很多邏輯性的東西,比如說你要喝水,它就會知道你需要找杯子或者找瓶子。這個是通過大語言模型已經(jīng)直接可以給你的一些東西。利用VLA的主要目的,其實就是如何把Language(語言)跟Vision(視覺)能夠更好地結(jié)合起來,否則你如果只有Vision(視覺),你能做的任務(wù)可能就都是短線的,你做不了任何長線的、需要去做推理的一些任務(wù),所以這是我們?yōu)槭裁捶浅W⒌匾胝Z言這部分的主要原因。

那為什么2025年成了“具身機(jī)器人基礎(chǔ)模型元年”呢?因為三個關(guān)鍵因素在這一年同時成熟了。

第一個因素:大語言模型“夠用了”。

2024年到2025年,OpenAI、Anthropic、Google這些公司陸續(xù)發(fā)布新模型,大語言模型已經(jīng)“成熟”了,至少對于機(jī)器人需要的那部分能力,理解指令、規(guī)劃任務(wù)、常識推理,已經(jīng)足夠好了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第一是大模型本身已經(jīng)趨近于成熟,你們可以看到最近不管是OpenAI還是其他的公司,發(fā)布的模型已經(jīng)是增量式的增長,它不是像從3.5到4的時候的這種跨越式的增長,所以我們覺得大模型的能力已經(jīng)趨于穩(wěn)定,而且已經(jīng)足夠可以為具身智能提供一個很好的基礎(chǔ),所以這是從模型層面的一個最重要的因素。

第二個因素:算力價格腰斬再腰斬。

2023年,租一張NVIDIA H100 GPU是天價,還得排隊才能拿到貨,而隨著GPU云服務(wù)商價格戰(zhàn)打響,和NVIDIA的GPU大量鋪貨,初創(chuàng)公司都租得起幾千張卡來訓(xùn)練模型了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第二個因素是整體的算力強(qiáng)度肯定是越來越強(qiáng),每一年英偉達(dá)等芯片公司都會做更強(qiáng)的芯片,等效的算力價格其實也在降低,隔幾年可能等效的價格就變成了過去的一半,所以計算的增強(qiáng)對于整個具身智能也有很大的推進(jìn)影響。

第三個因素:硬件供應(yīng)鏈成熟。

這個變化很多人沒注意到。2024年,隨著人形機(jī)器人熱潮,大量資本涌入上游零部件廠商,特別是中國的供應(yīng)商們,電機(jī)、減速器、傳感器這些東西,原本都是小眾產(chǎn)品,但2024年開始,好幾家供應(yīng)商都拿到了大額融資,開始擴(kuò)產(chǎn),硬件便宜了,做機(jī)器人的門檻就降低了。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第三是整個機(jī)器人硬件的各種零部件的成熟度是比較高的,特別是從去年開始火熱起來的這一波人形機(jī)器人的助推讓大家花了很多的精力跟資本去投入到很多基礎(chǔ)部件,包括電機(jī)、減速器這些部件的研發(fā),這一塊的成熟度和成本都有提升和降低,所以我們覺得這個時機(jī)會比較成熟一些。

這三個關(guān)鍵元素,讓2025年成為了一個特殊的時間窗口,基于VLA的新一代范式的機(jī)器人跑出來了。

2025年是人形機(jī)器人大年,第一臺機(jī)器人管家終于登場了,人形機(jī)器人將有望成為史上最龐大的產(chǎn)業(yè)之一,這將是一個5萬億的市場,全世界將遍布十億臺機(jī)器人。

但VLA模型也不是完美的,而它的核心挑戰(zhàn)是數(shù)據(jù)。大語言模型可以用互聯(lián)網(wǎng)上的文本訓(xùn)練,但機(jī)器人需要的是“真機(jī)數(shù)據(jù)”——必須有機(jī)器人本體的傳感器數(shù)據(jù)。而這種數(shù)據(jù),互聯(lián)網(wǎng)上根本沒有。

YouTube上有無數(shù)人類疊衣服的視頻,但沒有一個視頻告訴你,疊衣服的時候手指關(guān)節(jié)的角度是多少、施加的力量是多少,這就是為什么,這場“軍備競賽”的核心,除了算法,還有數(shù)據(jù)。誰能用最低的成本,采集到最高質(zhì)量的數(shù)據(jù),誰就能主導(dǎo)這個市場。

所以,機(jī)器人基礎(chǔ)模型不是憑空冒出來的,它是60年技術(shù)積累的集大成者,它繼承了:編程式機(jī)器人的“精確控制”;基于模型方法的“環(huán)境感知”;行為克隆的“示范學(xué)習(xí)”;強(qiáng)化學(xué)習(xí)的“自我優(yōu)化”;再加上了大語言模型的“常識推理”,這才是真正的“基礎(chǔ)模型”。

可能你想知道,現(xiàn)在搭載了VLA模型的機(jī)器人,都到什么程度了?我們這次也走訪了Dyna Robotics。

這家在硅谷炙手可熱的機(jī)器人明星公司的三位華人創(chuàng)始人中,Lindon Gao和York Yang是連續(xù)創(chuàng)業(yè)者,之前創(chuàng)立的AI購物車公司Caper AI以3.5億美元的價格,被Instacart收購;Jason Ma則是前DeepMind研究科學(xué)家,專攻機(jī)器人基礎(chǔ)模型。

這家公司成立才一年,已經(jīng)完成兩輪融資:2025年3月種子輪2350萬美元,同年的9月A輪1.2億美元,估值超過6億美元。投資方名單堪稱豪華:英偉達(dá)、亞馬遜、三星、LG。而讓他們最先火出圈的,并不是多么華麗的任務(wù)或者demo,而就是非常樸實的“疊毛巾”和“疊衣服”。

我們也和機(jī)器人以及和York比拼了一下手速,雖然在疊衣服這件事情上,我倆都比機(jī)器人快,但說實話我覺得我倆真不一定有Dyna的機(jī)器人疊得好。并且,關(guān)鍵點(diǎn)在于:機(jī)器人雖然目前還比較慢,但它可以7*24運(yùn)作,還不用休息,只要經(jīng)濟(jì)賬算得過來,落地就是可行的。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

因為正常人工的很多場景,你1個人就是8個小時,而機(jī)器可以讓它跑15個小時或者24個小時,可以彌補(bǔ)掉效率的一定的損失。

第二是疊毛巾本身確實是一個不錯的商業(yè)落地場景,因為它相對比較單一,也是比較固定的一個任務(wù)。但是在像美國這樣高人工成本的國家,確實要花掉很多的資金在這件事情上面,所以我們聊的這些商家客戶都非常有意愿去使用機(jī)器人來做這件事情。

02 閉源模型機(jī)器人主要流派

看完Dyna的機(jī)器人,我們再來看看,2025年的機(jī)器人賽道,還有哪些玩家:

我們可以把他們分成三個流派來看,表面上看,他們爭的是技術(shù)路線、市場份額、融資估值,但本質(zhì)上,他們爭的是同一個問題:什么才是實現(xiàn)“通用機(jī)器人”的正確路徑?

Chapter 2.1 流派一:全棧整合派

這一派的代表公司是特斯拉Optimus和Figure AI。核心信念是:機(jī)器人基礎(chǔ)模型不能和硬件分離,必須垂直整合、深度耦合,才能發(fā)揮最大效果。

作為這個流派最激進(jìn)的代表,特斯拉的CEO馬斯克曾經(jīng)說過一句很狂的話:“特斯拉八成的價值將來自于Optimus機(jī)器人?!?/p>

馬斯克的自信來自特斯拉FSD(完全自動駕駛)十年的積累,特斯拉Optimus前工程主管Milan Kovac曾經(jīng)說,“我們只是從輪子上的機(jī)器人變成長著腿的機(jī)器人”。

特斯拉有數(shù)百萬輛車收集的真實世界數(shù)據(jù)、端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu)、規(guī)模龐大的標(biāo)注團(tuán)隊,所以他這個邏輯聽起來無懈可擊:既然FSD能讓汽車在復(fù)雜路況中自主駕駛,那同樣的架構(gòu),為什么不能讓機(jī)器人在復(fù)雜環(huán)境中自主操作?都是感知、決策、執(zhí)行的閉環(huán),都是端到端的神經(jīng)網(wǎng)絡(luò),只是輸出從“方向盤角度”變成了“關(guān)節(jié)角度”而已。

但2025年的現(xiàn)實并沒有這么美好。年初,馬斯克在內(nèi)部會議上信誓旦旦地說:2025年要生產(chǎn)5000臺Optimus,其中1000臺會部署在特斯拉自己的工廠。但是到年中,實際上組裝了1000多臺后,特斯拉Optimus人形機(jī)器人的生產(chǎn)計劃就已經(jīng)暫停,面臨重新設(shè)計。

而Optimus最近還面臨一個更大的風(fēng)波,就是它在特斯拉活動現(xiàn)場分發(fā)瓶裝水時,突然做出了好像要把頭上某個不存在的東西拽下來的動作,然后摔了一跤。 這個動作實在是太像人類操作員摘下頭戴式設(shè)備的動作,于是這段視頻馬上爆火,不少人馬上提出來質(zhì)疑:Optimus,是不是有操作員在遠(yuǎn)程操控?

Optimus的發(fā)展看起來不像馬斯克號稱的那么順利,問題出在哪?

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

他們本身是最早在人形機(jī)器人領(lǐng)域做出本體,有過一定的demo演示的公司。他們現(xiàn)在主要利用的是人類視頻做遷移,它的優(yōu)勢毋庸置疑,人類視頻其實是最容易采的,因為你不需要任何的外設(shè)備,你采集的也是人手去操作的場景,可擴(kuò)展上來說,特斯拉這個模式是最高的。

但是它的幾個主要的問題在于,第一,人類的手和機(jī)器人的手,如果你想讓它這個能力遷移得很好,需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手,非常接近人的自由度,這件事本身是一件非常困難的事情。

第二,但你再接近,它也不是完全一樣。所以在機(jī)器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會有一個鴻溝,就我們所謂的embodiment gap(物理差異),這個embodiment gap在當(dāng)前學(xué)術(shù)界也好、工業(yè)界也好,大家都公認(rèn)是一個比較難解決的問題。所以這樣的數(shù)據(jù)遷移的效率會比較低,哪怕你采集了很多數(shù)據(jù),如果只有30%或者50%可用,你的總數(shù)量就會需要去乘以可能性的數(shù)字,所以這是它的一定的局限性。

特斯拉想用海量人類視頻訓(xùn)練基礎(chǔ)模型,但人手和機(jī)器手的物理差異(embodiment gap)是個繞不過去的坎。即使你有YouTube上所有的人類操作視頻,轉(zhuǎn)換效率也是個問題。

這就是全棧整合派的第一個困境:你控制了全鏈條,但也意味著全鏈條的每個環(huán)節(jié)都是你的瓶頸。硬件不夠好,模型再強(qiáng)也白搭;模型不夠強(qiáng),硬件再好也發(fā)揮不出來。

但特斯拉的優(yōu)勢是錢多、人多、還有馬斯克,Optimus會不會最終成功?可能要再過兩年才能見分曉。

而Figure AI走的是類似特斯拉的路線,但更激進(jìn)。這家公司2022年才成立,創(chuàng)始人Brett Adcock之前做過電動垂直起降飛機(jī),算是從“飛行機(jī)器人”跨界到“地面機(jī)器人”。

2024年初,F(xiàn)igure AI做了個大膽的決定:和OpenAI深度合作,將GPT-4直接接入人形機(jī)器人中。那段時間,他們放出來的demo震撼全行業(yè):機(jī)器人能聽懂人類的指令,能和人對話,能自己決定做什么。比如你說“可以給我點(diǎn)吃的嗎”,它會主動遞給你一個蘋果

但好景不長。2025年2月,F(xiàn)igure AI突然主動宣布和OpenAI“分手”:他們要獨(dú)立推出自己的基礎(chǔ)模型,不再依賴OpenAI的技術(shù)。分手后的Figure AI,兩周后就迅速推出新Helix模型,定位為通用人形機(jī)器人VLA模型,強(qiáng)調(diào)是完全自研、用于控制整個人形機(jī)器人。

不得不說,能夠放棄OpenAI的“粗大腿”,F(xiàn)igure AI確實有兩把刷子。

Helix創(chuàng)新地采用了“System 1,System 2”雙系統(tǒng)架構(gòu):System 2像你的大腦皮層,負(fù)責(zé)“想清楚該干什么”;System 1像你的小腦,負(fù)責(zé)“手腳怎么配合”。當(dāng)你拿杯子喝水時,大腦皮層只需要決定“現(xiàn)在該拿杯子了”,小腦會自動調(diào)動20多塊肌肉完成抓取動作,你根本不需要意識到。

這個架構(gòu)解決了一個長期困擾機(jī)器人的問題:視覺-語言模型很聰明但太慢,傳統(tǒng)機(jī)器人控制策略很快但不夠通用。Helix讓兩者各司其職、端到端訓(xùn)練,既能理解復(fù)雜指令,又能實時精確控制。

更酷的是,Helix用單一神經(jīng)網(wǎng)絡(luò)控制整個上半身的35個自由度——包括手腕、軀干、頭部、每根手指,它還能同時控制兩個機(jī)器人協(xié)作完成任務(wù)。這就是Figure 和OpenAI“分手”后交出的答卷。

2025年9月,F(xiàn)igure AI完成了10億美元的C輪融資,估值從26億美元飆升到390億美元——15倍的漲幅,不到一年時間。投資方名單讀起來像科技圈的奧斯卡頒獎典禮:微軟、OpenAI、英偉達(dá)、貝佐斯、英特爾、三星……聽起來,已然成為具身機(jī)器人的“扛把子”。

總結(jié)一下,這一派的核心理念是:基礎(chǔ)模型的通用性來自于“足夠大、足夠端到端”,只要模型參數(shù)夠多、訓(xùn)練數(shù)據(jù)夠多、軟硬整合夠深,涌現(xiàn)能力就會自然出現(xiàn)。這是從GPT-4的成功中總結(jié)出來的經(jīng)驗——但這個經(jīng)驗在物理世界是否成立,還是個未知數(shù)。

Chapter 2.2 流派二:垂直突破派

如果說全棧整合派追求的是“一步到位的通用性”,那垂直突破派追求的是“從專精到泛化的涌現(xiàn)”。

他們的核心信念是:與其訓(xùn)練一個什么都會但什么都做不好的大模型,不如先讓模型在某個垂直場景做到極致,在這個過程中積累的“學(xué)習(xí)能力”會自然遷移到其他場景。

Dyna Robotics是這個流派比較清晰的代表,他們走的路線很特別:做通用形態(tài)的機(jī)器人,但是在模型層面會先利用比較成熟的能力,落地一些可以打工的場景,用于了解行業(yè)的know how(實際知識),并更好的指導(dǎo)算法研究的方向。也就是說,先讓機(jī)器人在洗衣房、餐廳、健身房這些場景“打工”,邊干活邊學(xué)習(xí)。

在2025年4月,他們發(fā)布了“首個可在真實環(huán)境中持續(xù)高性能運(yùn)行的機(jī)器人基礎(chǔ)模型”DYNA-1。在24小時內(nèi),他們的機(jī)器人自主折疊了700多張餐巾,成功率超過99.4%,完全無需人工干預(yù),吞吐量達(dá)到人類速度的60%。但顯然,Dyna的野心不止于疊毛巾。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

第一是我們要澄清,我們不是一個做疊毛巾的公司,我們的基礎(chǔ)模型里面包含了各種各樣的數(shù)據(jù),有各種疊的:疊毛巾、疊餐巾、疊衣服,也有切菜、切水果、準(zhǔn)備食物,也有做早餐、清掃或者說擺放、物流場景的一些分揀,其實各種各樣的數(shù)據(jù)我們都有,我們的基礎(chǔ)模型其實是一個非常廣的模型。

我們的泛化性最主要還是來自于基礎(chǔ)的大模型,我們是希望基礎(chǔ)大模型能夠有足夠強(qiáng)的能力,在大部分的任務(wù)上不太需要非常多的定制。在早期可能你會發(fā)現(xiàn)遷移到一個新的任務(wù)的過程會比較冗余、比較繁雜,你會需要再重新采很大一部分的數(shù)據(jù),然后混到一起去做訓(xùn)練,但隨著你的基礎(chǔ)大模型數(shù)據(jù)量越來越大之后,你會發(fā)現(xiàn)哪怕去遷移到一個從未見過的這個任務(wù)上面,它其實需要的遷移成本也會越來越低。

我們過去可能會需要采幾個月的數(shù)據(jù)去遷移某一個任務(wù),但是到現(xiàn)在可能有一些簡單的任務(wù),可能一兩天的數(shù)據(jù)就可以遷移過去。所以整體來說只要你的基礎(chǔ)模型能力越來越強(qiáng),學(xué)習(xí)能力越來越強(qiáng)的話,你去遷移到新任務(wù)的能力也會越來越強(qiáng)。

Dyna對基礎(chǔ)模型的理解和全棧整合派完全不同,他們的理解是:與其訓(xùn)練一個什么都會但什么都做不好的泛化模型,不如先讓模型在某個任務(wù)上深度專精。在這個過程中積累的“學(xué)習(xí)能力”會幫助它更快掌握其他任務(wù)。就像把鋼琴練到音樂學(xué)院水平的人,上手吉他會比完全沒學(xué)過樂器的人快得多,因為掌握了“如何學(xué)習(xí)”的元技能。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們確實也看到當(dāng)你單一任務(wù)的能力提升得很強(qiáng)之后,它對于學(xué)習(xí)新任務(wù)有一定的促進(jìn)作用,我們拿最優(yōu)質(zhì)的數(shù)據(jù)到基礎(chǔ)的數(shù)據(jù)集里面做預(yù)訓(xùn)練之后,這個模型再去擴(kuò)展到新的任務(wù)上,它會更快、需要的數(shù)據(jù)更少,所以這個也是我們在實踐過程中找到一個有點(diǎn)反直覺,但是確實它發(fā)生了的一件事。我們對于它的理解可能就像人,如果你的學(xué)習(xí)能力本身很強(qiáng),那你學(xué)習(xí)新的東西的能力就會很強(qiáng),學(xué)習(xí)能力很強(qiáng)的前提是你可能過去已經(jīng)在很多任務(wù)上你自己做過實踐、做過學(xué)習(xí),你才會有強(qiáng)的學(xué)習(xí)能力。

所以我們覺得學(xué)習(xí)能力本身和學(xué)習(xí)的過程也是關(guān)聯(lián)的。

這個理念背后基于這樣一個觀點(diǎn):機(jī)器人基礎(chǔ)模型和大語言模型的Scaling Law(縮放定律)可能不一樣。

大語言模型的規(guī)律是:模型越大、數(shù)據(jù)越多,性能就越好,但機(jī)器人基礎(chǔ)模型的性能瓶頸,不只在“模型容量”和“數(shù)據(jù)量”,更在“數(shù)據(jù)質(zhì)量”和“物理一致性”。如果訓(xùn)練數(shù)據(jù)里的物理接觸不準(zhǔn)確,模型學(xué)到的就是錯誤的物理直覺,參數(shù)越大,錯誤越被“放大”。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

為什么說基于某種程度,它的Scaling Law(縮放定律)肯定不像大語言模型這么簡單粗暴。因為我們之前也和挺多做大語言模型的這些人聊過,他們已經(jīng)發(fā)現(xiàn),語言方向的數(shù)據(jù),哪怕用很多低質(zhì)量數(shù)據(jù),比如一堆文本,中間插了一段廣告,然后再是接著文本,就這樣的數(shù)據(jù)它一樣能訓(xùn)練出比較好的模型。因為模型它看的數(shù)據(jù)足夠多之后,它自動就會過濾掉廣告。但是機(jī)器人當(dāng)前我們覺得規(guī)?;嗟氖莵碜杂谛枰容^高質(zhì)量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面,機(jī)器人模型可能就不知道我要注意力集中在哪一個地方,所以最終它其實出來的效果并沒有那么好。

我們現(xiàn)在看到的是如果你的數(shù)據(jù)質(zhì)量足夠好,隨著數(shù)據(jù)量的增加,數(shù)據(jù)多樣性的增加,整體的基礎(chǔ)模型能力就會有很大的提升,對下游的各種需要fine-tune(微調(diào))的一些小任務(wù)也會有很大的提升,這個是實打?qū)嵞軌蚩吹玫降摹?/p>

所以Dyna選擇“小而精”的路線:

  • 與其訓(xùn)練一個100億參數(shù)的泛化模型,不如訓(xùn)練一個10億參數(shù)的專精模型
  • 要保證每一條訓(xùn)練數(shù)據(jù)都是高質(zhì)量的真實物理交互
  • 讓模型在實際部署中通過強(qiáng)化學(xué)習(xí)自我優(yōu)化

他們認(rèn)為:深度專精某個任務(wù)的過程中,模型學(xué)到的不只是“怎么疊毛巾”,還有“怎么快速學(xué)習(xí)新任務(wù)”的元能力。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

所以我們現(xiàn)在挺關(guān)注的,比如像強(qiáng)化學(xué)習(xí)的一些路徑,像通過大模型的基礎(chǔ)能力的學(xué)習(xí),比如說折疊能力、擺放能力的學(xué)習(xí),讓它擁有一個自我迭代、自我去學(xué)習(xí)新技能的能力,我覺得這個是最重要的。

但最終我們會覺得基礎(chǔ)的大模型可能在普通的一些任務(wù),比如說家用的很多:你幫我拿一個水、你幫我開一下門,類似的任務(wù)中,它應(yīng)該是可以直接完成的。

同樣重視元學(xué)習(xí)能力的,也還有諸如Skild AI這樣從“通用模型”切入,但并不做硬件的公司,他們核心邏輯是:用大規(guī)模仿真數(shù)據(jù)訓(xùn)練出一個通用的“大腦”,然后讓這個大腦能快速適配到不同的機(jī)器人硬件和任務(wù)場景。

比如說,同一個模型既能控制機(jī)械臂抓取物體,也能讓四足機(jī)器人行走,還能指揮人形機(jī)器人完成復(fù)雜操作,不需要每個任務(wù)都從頭訓(xùn)練,而是靠一個強(qiáng)大的基礎(chǔ)模型來遷移學(xué)習(xí)。有傳聞稱,英偉達(dá)和軟銀將領(lǐng)頭對它投資10億美元,估值將高達(dá)140億美元。

這個路線,還有一個特殊玩家值得一提:亞馬遜。2025年7月,亞馬遜宣布部署了第100萬臺機(jī)器人。100萬臺是什么概念?亞馬遜目前有156萬名員工,也就是說機(jī)器人數(shù)量即將超過人類員工。

但這100萬臺機(jī)器人,全都是專用機(jī)器人,針對具體場景優(yōu)化:Hercules能搬運(yùn)1250磅貨物,Pegasus用于包裹分揀、運(yùn)輸,但亞馬遜的野心不止于此。他們的Agentic AI團(tuán)隊正在開發(fā)通用機(jī)器人基礎(chǔ)模型,還在舊金山辦公室建了個叫“humanoid park”的室內(nèi)測試場,訓(xùn)練人形機(jī)器人應(yīng)對復(fù)雜障礙。

亞馬遜的策略和Dyna如出一轍:與其一開始就做大而全的通用模型,不如先在垂直場景積累世界上最好的數(shù)據(jù)和最強(qiáng)的能力,然后再泛化。

Chapter 2.3 流派三:生態(tài)平臺派

如果說前兩派是在爭“誰的路線更快”,那第三派爭的是“誰能制定行業(yè)標(biāo)準(zhǔn)”。他們的核心信念是:在基礎(chǔ)模型這個賽道,最終贏家不一定是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。

首先,NVIDIA的邏輯很簡單:做機(jī)器人界的Android。

2025年3月的GTC大會上,黃仁勛隆重介紹了GR00T N1,并且把它開源了,聽起來很美好,但你要用GR00T N1,就得用全套NVIDIA生態(tài),一個都跑不掉。這就是生態(tài)鎖定的威力:一旦你用了NVIDIA的全套工具鏈,切換成本高到讓人望而卻步。NVIDIA的護(hù)城河不是模型本身,而是整個生態(tài)。

Google走的是另一條路:通過開源研究建立影響力。

Google在機(jī)器人通用策略上選擇了一條“研究驅(qū)動、開源優(yōu)先”的路線。它推出的RT系列,強(qiáng)調(diào)大規(guī)模機(jī)器人演示數(shù)據(jù)、跨任務(wù)/跨平臺通用模型,并通過論文+開放數(shù)據(jù)集的方式在學(xué)術(shù)與研究社區(qū)建立了強(qiáng)大影響力。在Gemini 3發(fā)布后,Google最近也加快了步伐,還挖來了前波士頓動力首席技術(shù)官Aaron Saunders,想推動Gemini Al成為通用機(jī)器人控制平臺。

而OpenAI和Meta是這一派的另一種玩法:小步快跑,只為占坑。

OpenAI和機(jī)器人的關(guān)系,就像一對分分合合的情侶:早在2018年,他們就在機(jī)械手-操作任務(wù)上取得突破;但之后團(tuán)隊規(guī)模與優(yōu)先級有所收縮。到2024年和2025年初,他們上演了和Figure從熱戀到斷裂式分手的戲碼;但到了2025年下半年,他們又開始招聘多位專注于人形機(jī)器人控制算法的研究人員。

此外,OpenAI也試圖通過撒錢投資的方式,打造自己的生態(tài)影響力,2024年11月,OpenAI與杰夫·貝佐斯共同參與了Physical Intelligence的4億美元融資。

Meta的策略類似但更低調(diào)。2025年初,Meta在其Reality Labs旗下組建了一個新機(jī)器人部門,由前Cruise CEO Marc Whitten牽頭,目標(biāo)是開發(fā)類人機(jī)器人平臺。Meta CTO Andrew Bosworth曾公開提到,其團(tuán)隊正在構(gòu)建一種“world model”,以支撐機(jī)器人完成比“行走”和“跑跳”更細(xì)致的操控動作。

Chapter 2.4 三派之爭的本質(zhì):對“通用性”的不同賭注

表面上看,三派是在爭技術(shù)路線、爭市場、爭估值,但本質(zhì)上,他們賭的是關(guān)于“通用性”的三個相通、但又不同的假設(shè):

全棧整合派相信:通用性=足夠大的模型+足夠多的數(shù)據(jù)+足夠深的軟硬整合,只要這三個條件滿足,涌現(xiàn)能力會自然出現(xiàn),這是從GPT-4的成功中總結(jié)出來的經(jīng)驗。

垂直突破派相信:通用性=深度專精帶來的遷移能力,機(jī)器人的Scaling Law和語言模型不同,“小而精”可能比“大而全”更有效,關(guān)鍵是找到正確的“元學(xué)習(xí)”路徑。

生態(tài)平臺派相信:通用性=生態(tài)標(biāo)準(zhǔn)化程度,技術(shù)路線誰贏不重要,重要的是讓所有人都用你的工具鏈,最終贏家不是技術(shù)最強(qiáng)的,而是生態(tài)控制力最強(qiáng)的。

當(dāng)然,還有“半開源半閉源”的兩家知名公司,Physical Intelligence(PI)和Genesis AI。我們會在我們的開源篇文章里重點(diǎn)介紹他們。

這幾大派系誰對誰錯?2025年還沒有答案。但可以確定的是:這場關(guān)于基礎(chǔ)模型的競賽,才剛剛開始。

03 2025年現(xiàn)狀:展示很精彩,落地還未知

馬斯克對特斯拉機(jī)器人的夢想很宏大,但現(xiàn)實是Optimus還在艱難爬坡。

12月19日,特斯拉官方發(fā)布了一份名為《特斯拉人形機(jī)器人2025年度報告》的視頻回顧,詳細(xì)披露了其人形機(jī)器人Optimus在過去一年中的技術(shù)迭代與進(jìn)化路徑,視頻以O(shè)ptimus加速跑進(jìn)2026年的畫面收尾,暗示明年將有更大幅度的技術(shù)跨越。我們也拭目以待。

同時,F(xiàn)igure AI拿了10億美元,估值390億,但真正商業(yè)化部署的也就幾十臺。NVIDIA的GR00T N1發(fā)布了,但有多少公司真正用起來了?不好說。

但是,我們也看到了各家都在令人驚嘆的進(jìn)展,有特斯拉這樣手握重金押注,也有Figure、Dyna為代表的創(chuàng)業(yè)公司在快速前進(jìn),還有OpenAI、Meta的低調(diào)入局,都在用重金、重資產(chǎn)的方式推進(jìn)機(jī)器人基礎(chǔ)模型。

這讓我們相信,尤其是是在家用機(jī)器人領(lǐng)域,機(jī)器人開始幫忙干些討厭的家務(wù),已不再那么遙遠(yuǎn)。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人:

我們是覺得最先肯定是在,像我們當(dāng)前在開拓的一些市場,比如商用服務(wù)的一些人工的部分,就是和人工一起去完成一些任務(wù)這樣的一些場景。但是我們覺得家用其實也沒有那么遙遠(yuǎn),并不需要完整的、非常通用的AGI。你可能只需要幾個任務(wù)就可以進(jìn)入到家庭的場景里,先讓機(jī)器人在家里面干起活來,然后逐漸地通過模型的迭代讓它產(chǎn)生更多的能力。

我們自己的目標(biāo),在2026年我們至少希望在商用場景有比較大規(guī)模的部署,在家用我們會擇機(jī)看。比如像疊衣服,我們采訪過很多身邊的朋友,其實大家都覺得這個功能他們非常需要,當(dāng)我們的硬件成本降到普通家庭可承擔(dān)的范圍內(nèi),我們可能就會優(yōu)先,比如先以疊衣服的功能賣給家庭,然后逐漸去拓展一些其他的功能。所以這個時間線應(yīng)該也不遙遠(yuǎn),可能也就在1~2年左右。

怎么樣,幾百美元可以幫你疊衣服、準(zhǔn)備早餐和做清潔的機(jī)器人助手,你會買嗎?

有關(guān)閉源模型的內(nèi)容我們就先聊到這里,但有一群人在用完全不同的方式做同樣的事:他們開源模型、他們分享數(shù)據(jù)、他們相信“聚沙成塔”的力量。他們說:“開放才能實現(xiàn)具身智能。”

下一篇機(jī)器人的文章我們會聊到:NVIDIA的“開放”到底有多開放?它和真正的開源有什么區(qū)別?為什么有人說GR00T N1是“偽開源”?Physical Intellig ence為什么要開源π0?一個剛成立、剛拿到投資的公司,為什么要把最核心的模型免費(fèi)放出來?他們的商業(yè)模式是什么?開源vs閉源,誰會贏?這場戰(zhàn)爭的本質(zhì)是什么?是技術(shù)路線之爭,還是商業(yè)模式之爭?

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。