12月10日,理想汽車自動(dòng)駕駛研發(fā)高級(jí)副總裁郎咸朋在社交平臺(tái)發(fā)布長(zhǎng)文,回應(yīng)宇樹科技創(chuàng)始人王興興此前對(duì)VLA模型的質(zhì)疑。

郎咸朋表示,今年8月,關(guān)注到宇樹科技創(chuàng)始人王興興提出對(duì)VLA的一些擔(dān)憂。當(dāng)時(shí)沒有提出觀點(diǎn),一是理想VLA司機(jī)大模型還沒正式發(fā)布,空口無(wú)憑;二是公司對(duì)具身機(jī)器人行業(yè),還處于密切關(guān)注階段。
他續(xù)稱:“我跟王興興觀點(diǎn)最不一樣的地方在于,他認(rèn)為模型架構(gòu)更重要,但我認(rèn)為模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配,在此基礎(chǔ)上,數(shù)據(jù)是起決定意義的?!?/span>
他還表示,從今年9月VLA正式發(fā)布,到12月6日OTA 8.1的推送,經(jīng)過(guò)兩個(gè)月多的“實(shí)踐出真知”后,有兩點(diǎn)心得:第一,VLA就是自動(dòng)駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統(tǒng)能力。
郎咸朋認(rèn)為,空談架構(gòu)不如看療效。 在自動(dòng)駕駛領(lǐng)域,脫離了海量真實(shí)數(shù)據(jù)談模型架構(gòu)都是空中樓閣,“我們之所以堅(jiān)持VLA,是因?yàn)槲覀儞碛袛?shù)百萬(wàn)輛車構(gòu)建的數(shù)據(jù)閉環(huán),這讓我們能在當(dāng)前算力下,把駕駛水平做到接近人類?!?/span>

在具身智能方面,郎咸朋表示,要想做好自動(dòng)駕駛,必須先把自動(dòng)駕駛當(dāng)作完整的具身智能系統(tǒng)對(duì)待,每一部分在研發(fā)過(guò)程中要相互配合才能將價(jià)值發(fā)揮出來(lái)。此外,他還認(rèn)為,模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配,在此基礎(chǔ)上,數(shù)據(jù)是起決定意義的。在機(jī)器人領(lǐng)域獲取數(shù)據(jù)相對(duì)困難,但在自動(dòng)駕駛領(lǐng)域,特別是建立起數(shù)據(jù)閉環(huán)能力的車企來(lái)說(shuō)并不是大問(wèn)題。
郎咸朋在文中還提到,理想汽車CEO李想在前兩天明確提到,未來(lái)五到十年,具身機(jī)器人核心將有兩種形態(tài):汽車類的具身機(jī)器人、人形類的具身機(jī)器人。理想的VLA不僅服務(wù)于現(xiàn)在的理想各類汽車產(chǎn)品形態(tài),也將服務(wù)于未來(lái)的汽車類具身機(jī)器人。
據(jù)澎湃新聞,在今年8月的世界機(jī)器人大會(huì)上,王興興對(duì)目前機(jī)器人公司選擇的常用技術(shù)路線VLA模型架構(gòu)持懷疑態(tài)度。他認(rèn)為,對(duì)于VLA模型,目前在真實(shí)世界交互中,數(shù)據(jù)采集的質(zhì)量和數(shù)量都不足,即便在VLA模型基礎(chǔ)上加入Reinforcement Learning(強(qiáng)化學(xué)習(xí)訓(xùn)練),仍不夠用,模型本身還需要進(jìn)一步升級(jí)和優(yōu)化。
VLA模型指的是Vision-Language-Action Model(視覺-語(yǔ)言-動(dòng)作模型),可以把它理解為——讓機(jī)器“看得懂、聽得懂,并且能動(dòng)起來(lái)”的一種AI模型,強(qiáng)調(diào)像人一樣,從感知環(huán)境到自主決策并采取一定的行動(dòng)。


