四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

自動(dòng)駕駛派系之爭(zhēng),四大技術(shù)路線的博弈與融合

掃一掃下載界面新聞APP

自動(dòng)駕駛派系之爭(zhēng),四大技術(shù)路線的博弈與融合

技術(shù)路徑最終都將殊途同歸。

文|極智GeeTech 

當(dāng)Waymo的2500輛Robotaxi在舊金山灣區(qū)、洛杉磯、鳳凰城、奧斯汀、亞特蘭大五大城市的街頭自如穿梭,自動(dòng)駕駛行業(yè)儼然已叩響規(guī)?;虡I(yè)化的大門(mén)。

然而,在車隊(duì)擴(kuò)張的熱鬧表象之下,自動(dòng)駕駛領(lǐng)域的技術(shù)流派分歧仍未消弭。純視覺(jué)與多傳感器融合的感知路線該如何抉擇?系統(tǒng)架構(gòu)該堅(jiān)守模塊化還是擁抱端到端?在AI大模型賦能下,VLA與世界模型又誰(shuí)能定義自動(dòng)駕駛的“靈魂”?

這些懸而未決的爭(zhēng)議,正悄然左右著自動(dòng)駕駛的未來(lái)走向,也讓這場(chǎng)技術(shù)路線之爭(zhēng)充滿了更多看點(diǎn)。

純視覺(jué)與多傳感器融合的路線之爭(zhēng)

感知是自動(dòng)駕駛的基石,而“如何讓車輛看見(jiàn)世界”,則是行業(yè)內(nèi)對(duì)峙多年的核心議題,兩大技術(shù)陣營(yíng)的較量可追溯至2004年。

當(dāng)年,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)在莫哈韋沙漠發(fā)起挑戰(zhàn)賽,以200萬(wàn)美元獎(jiǎng)金吸引了數(shù)十支頂尖高校與科研機(jī)構(gòu)團(tuán)隊(duì),試圖攻克車輛環(huán)境感知難題。

最終,卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)等團(tuán)隊(duì)采用的激光雷達(dá)方案脫穎而出,其生成的高精度3D點(diǎn)云圖,為早期自動(dòng)駕駛技術(shù)發(fā)展奠定了核心路線,這一方案也被谷歌旗下的Waymo繼承并持續(xù)深耕。

但激光雷達(dá)方案存在致命短板——高昂的成本。一套激光雷達(dá)系統(tǒng)在當(dāng)時(shí)造價(jià)高達(dá)7.5 萬(wàn)美元,這在當(dāng)時(shí)注定其只能走小規(guī)模精英化路線,難以適配大規(guī)模商業(yè)化的需求。

十年后,特斯拉扛起了純視覺(jué)路線的大旗,給出了截然不同的解題思路。其核心邏輯是“人類靠雙眼和大腦就能開(kāi)車,機(jī)器也應(yīng)如此”。

2014年,特斯拉Autopilot系統(tǒng)問(wèn)世,搭載Mobileye視覺(jué)方案,確立了以攝像頭為核心的感知路徑。2016年,馬斯克公開(kāi)宣稱“激光雷達(dá)是徒勞的”,將純視覺(jué)路線推向行業(yè)焦點(diǎn)。

特斯拉通過(guò)8個(gè)環(huán)繞式攝像頭模擬人類視野,依托深度學(xué)習(xí)算法從二維圖像中重建三維駕駛環(huán)境。這一方案的優(yōu)勢(shì)極為顯著:成本極低,可支撐大規(guī)模量產(chǎn);更關(guān)鍵的是,量產(chǎn)車輛能收集海量真實(shí)路況數(shù)據(jù),形成“數(shù)據(jù)飛輪”,反哺算法持續(xù)迭代,實(shí)現(xiàn)“越用越強(qiáng)”的閉環(huán)。

不過(guò),純視覺(jué)方案的局限性也十分突出。攝像頭屬于被動(dòng)傳感器,性能高度依賴環(huán)境光照,在逆光、眩光、黑夜、大雨、大霧等復(fù)雜場(chǎng)景下,感知能力會(huì)大幅衰減,遠(yuǎn)不及激光雷達(dá)的穩(wěn)定性。

以激光雷達(dá)為核心的多傳感器融合陣營(yíng)則認(rèn)為,在可見(jiàn)的未來(lái),機(jī)器智能難以復(fù)刻人類基于經(jīng)驗(yàn)的常識(shí)與直覺(jué),惡劣環(huán)境下必須依靠激光雷達(dá)等硬件冗余,來(lái)彌補(bǔ)軟件算法的不足。

簡(jiǎn)言之,純視覺(jué)路線將技術(shù)壓力全部集中于算法,賭的是AI智能化的突破。多傳感器融合則更側(cè)重工程落地的安全性,選擇的是經(jīng)過(guò)驗(yàn)證的穩(wěn)妥方案。

目前,Waymo、小鵬、蔚來(lái)等主流車企與自動(dòng)駕駛公司,均站在多傳感器融合陣營(yíng),在他們看來(lái),安全是自動(dòng)駕駛不可逾越的紅線,而硬件冗余是保障安全的核心途徑。

值得一提的是,兩條路線并非完全割裂,正呈現(xiàn)相互融合的趨勢(shì):純視覺(jué)方案開(kāi)始引入更多類型的傳感器補(bǔ)充感知能力;多傳感器融合方案中,視覺(jué)算法的地位也持續(xù)提升,成為理解場(chǎng)景語(yǔ)義的關(guān)鍵核心。

激光雷達(dá)與毫米波雷達(dá)的互補(bǔ)博弈

即便在多傳感器融合陣營(yíng)內(nèi)部,也存在一場(chǎng)關(guān)于傳感器選型的細(xì)分爭(zhēng)議:毫米波雷達(dá)成本僅數(shù)百元,而早期激光雷達(dá)動(dòng)輒數(shù)萬(wàn)美元,為何車企仍愿為激光雷達(dá)投入高額成本?

激光雷達(dá)(LiDAR)可通過(guò)發(fā)射激光束并測(cè)算返回時(shí)間,構(gòu)建出超高精度的3D點(diǎn)云圖像,能精準(zhǔn)解決其他傳感器難以應(yīng)對(duì)的極端場(chǎng)景(Corner Case)。其角分辨率極高,可清晰識(shí)別行人姿態(tài)、車輛輪廓,甚至路面微小障礙物。

在L4/L5級(jí)商業(yè)自動(dòng)駕駛領(lǐng)域,激光雷達(dá)是唯一能同時(shí)滿足高精度感知與靜態(tài)物體檢測(cè)的傳感器,為了實(shí)現(xiàn)基礎(chǔ)自動(dòng)駕駛功能與安全冗余,這筆成本堪稱車企必須支付的 “入場(chǎng)券”。

但激光雷達(dá)并非完美無(wú)缺。激光本質(zhì)是紅外光,波長(zhǎng)極短,當(dāng)雨滴、霧滴、雪花、煙塵等顆粒的尺寸與激光波長(zhǎng)接近時(shí),會(huì)引發(fā)激光散射與吸收,產(chǎn)生大量“噪聲”點(diǎn)云,嚴(yán)重影響感知精度。

4D毫米波雷達(dá)則恰好能彌補(bǔ)這一短板,其具備全天候工作能力,在惡劣天氣下可憑借強(qiáng)穿透性,率先探測(cè)前方障礙物并輸出距離、速度數(shù)據(jù)。不過(guò),毫米波雷達(dá)的回波點(diǎn)極為稀疏,僅能形成少量點(diǎn)云,無(wú)法像激光雷達(dá)那樣勾勒物體輪廓與形狀,還可能因電子干擾出現(xiàn)“幽靈識(shí)別”的誤判。低分辨率的缺陷,決定了它只能作為輔助傳感器上車,無(wú)法成為感知核心。

由此可見(jiàn),激光雷達(dá)與4D毫米波雷達(dá)并非替代關(guān)系,而是形成了“常規(guī)場(chǎng)景靠毫米波雷達(dá)控成本,復(fù)雜場(chǎng)景靠激光雷達(dá)保安全”的互補(bǔ)邏輯,不同車型會(huì)根據(jù)定位采用差異化配置:L4級(jí)Robotaxi與豪華車型,通常采用“激光雷達(dá)為主、毫米波雷達(dá)為輔”的策略,不計(jì)成本堆砌傳感器以追求極致安全與性能上限;L2+、L3級(jí)量產(chǎn)經(jīng)濟(jì)型車型,則以“攝像頭 + 毫米波雷達(dá)”為基礎(chǔ),僅在車頂?shù)汝P(guān)鍵位置配備1-2顆激光雷達(dá),打造高性價(jià)比的感知方案。

車企圍繞傳感器的選型爭(zhēng)議,本質(zhì)是一場(chǎng)以最低成本實(shí)現(xiàn)最高安全的技術(shù)探索與商業(yè)博弈。未來(lái),各類傳感器的融合將進(jìn)一步深化,催生出更多元化的感知搭配方案。

端到端與模塊化的架構(gòu)對(duì)決

如果說(shuō)傳感器是自動(dòng)駕駛的“眼睛”,那算法架構(gòu)就是其“大腦”,而“大腦”的構(gòu)建模式,正經(jīng)歷模塊化與端到端的激烈對(duì)決。

長(zhǎng)期以來(lái),自動(dòng)駕駛系統(tǒng)普遍采用模塊化設(shè)計(jì),將完整駕駛?cè)蝿?wù)拆解為感知、預(yù)測(cè)、規(guī)劃、控制等獨(dú)立子任務(wù)。每個(gè)模塊各司其職,配備專屬算法與優(yōu)化目標(biāo),如同一條分工明確的流水線。

這種架構(gòu)的優(yōu)勢(shì)十分明顯:可解釋性強(qiáng)、支持并行開(kāi)發(fā)、便于調(diào)試維護(hù)。但它的缺陷也同樣致命——局部最優(yōu)不等于全局最優(yōu),各模塊在信息傳遞過(guò)程中,會(huì)對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)化與抽象,導(dǎo)致大量關(guān)鍵信息在層層流轉(zhuǎn)中丟失,最終制約系統(tǒng)的整體性能上限。

2022-2023年,以特斯拉FSD V12為代表的“端到端”模型橫空出世,徹底顛覆了傳統(tǒng)架構(gòu)范式。這一方案的靈感源于人類駕駛學(xué)習(xí)邏輯:新手司機(jī)不會(huì)先鉆研光學(xué)原理與交通規(guī)則,而是通過(guò)觀察教練操作直接習(xí)得駕駛技能。

端到端模型摒棄了人為的模塊劃分,通過(guò)學(xué)習(xí)海量人類駕駛數(shù)據(jù),構(gòu)建起龐大的神經(jīng)網(wǎng)絡(luò),可直接將傳感器輸入的原始數(shù)據(jù),映射為方向盤(pán)轉(zhuǎn)角、油門(mén)開(kāi)度、剎車力度等終端駕駛控制指令。

與模塊化架構(gòu)相比,端到端模型全程無(wú)信息損耗,性能上限更高,還能大幅簡(jiǎn)化開(kāi)發(fā)流程;但其“黑箱”特質(zhì)也帶來(lái)了嚴(yán)峻挑戰(zhàn),一旦發(fā)生事故,工程師難以追溯問(wèn)題根源,無(wú)法判斷是算法誤判還是數(shù)據(jù)缺陷,后續(xù)優(yōu)化更是無(wú)從下手。

端到端模型的出現(xiàn),推動(dòng)自動(dòng)駕駛從“規(guī)則驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”,但“黑箱”風(fēng)險(xiǎn)讓眾多重視安全的車企望而卻步,且海量訓(xùn)練數(shù)據(jù)的需求,也只有具備大規(guī)模車隊(duì)的企業(yè)才能滿足。

為此,行業(yè)衍生出折中方案——“顯式端到端”,即在端到端模型中保留可行駛區(qū)域、目標(biāo)軌跡等中間輸出,力求在性能突破與可解釋性之間找到平衡。

VLA與世界模型的智能定義之爭(zhēng)

隨著AI發(fā)展,新的戰(zhàn)場(chǎng)在大模型內(nèi)部開(kāi)辟。這關(guān)乎自動(dòng)駕駛的靈魂,它應(yīng)該是輔助駕駛的思考者,還是執(zhí)行者?

世界模型信奉“先建模、再?zèng)Q策”的邏輯,更追求對(duì)駕駛場(chǎng)景的深度認(rèn)知與過(guò)程可控,也被稱為認(rèn)知派。

該路線認(rèn)為,自動(dòng)駕駛系統(tǒng)要像人類駕駛員一樣,先在“大腦”中構(gòu)建出周圍環(huán)境的數(shù)字化虛擬模型,再基于這個(gè)模型模擬不同駕駛策略的潛在結(jié)果,最終篩選出最優(yōu)方案。它強(qiáng)調(diào)AI需先理解世界的運(yùn)行規(guī)律,再結(jié)合傳統(tǒng)自動(dòng)駕駛模塊完成決策,將大模型的認(rèn)知能力與成熟的工程控制方案結(jié)合,規(guī)避純算法決策的幻覺(jué)風(fēng)險(xiǎn)。

VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)信奉能力“涌現(xiàn)”,追求結(jié)果最優(yōu),被稱為端到端的終極形態(tài)。該流派主張只要模型足夠大、數(shù)據(jù)足夠多,AI就能自己從零開(kāi)始學(xué)會(huì)駕駛的一切細(xì)節(jié)和規(guī)則,無(wú)需預(yù)先構(gòu)建顯性的環(huán)境模型,最終其駕駛能力會(huì)超越人類和基于規(guī)則的系統(tǒng)。它直接將傳感器輸入的視覺(jué)信息、環(huán)境語(yǔ)言描述與終端控制動(dòng)作綁定,實(shí)現(xiàn)從感知到執(zhí)行的一站式?jīng)Q策。

圍繞VLA與世界模型的爭(zhēng)議,本質(zhì)是自動(dòng)駕駛智能決策邏輯的路線分歧,也延續(xù)了模塊化與端到端方案的核心辯論。

從可解釋性來(lái)看,VLA存在著難以溯源的黑箱困境。如果一輛搭載VLA功能的車輛發(fā)生了一次急剎車,工程師幾乎無(wú)法追溯原因:是因?yàn)樗殃幱罢`判為坑洞?還是它學(xué)到了某個(gè)人類司機(jī)的不良習(xí)慣?這種無(wú)法調(diào)試、無(wú)法驗(yàn)證的特性,與汽車行業(yè)嚴(yán)格的功能安全標(biāo)準(zhǔn)形成了根本性沖突。

世界模型的核心是“先構(gòu)建環(huán)境認(rèn)知模型,再分步推演決策”,其決策鏈路本就分為“感知-建模-規(guī)劃-控制”等明確模塊,每個(gè)環(huán)節(jié)都有獨(dú)立的輸出和可監(jiān)測(cè)的運(yùn)行狀態(tài),因此具備全程可分解、可分析、可優(yōu)化的特質(zhì)。

世界模型與VLA的核心差異之一就是可溯源性,其模塊化的決策鏈路能讓工程師精準(zhǔn)定位問(wèn)題環(huán)節(jié)。如果遇到復(fù)雜路況,工程師可以清晰看到完整決策過(guò)程:傳統(tǒng)感知模塊識(shí)別到未知物體、世界模型將其建模為“被風(fēng)吹動(dòng)的塑料袋”,并模擬其運(yùn)動(dòng)軌跡,規(guī)劃模塊據(jù)此決定“無(wú)需緊急剎車,僅輕微減速避讓即可”。即便發(fā)生事故,也能精準(zhǔn)界定是建模環(huán)節(jié)的疏漏,還是規(guī)劃模塊的判斷失誤。

除了可解釋性的兩極分化,訓(xùn)練成本與數(shù)據(jù)需求也是車企猶疑不決的核心原因之一。

VLA需要海量的“視頻-控制信號(hào)”配對(duì)數(shù)據(jù),即輸入一段8攝像頭同步視頻,必須輸出對(duì)應(yīng)的方向盤(pán)轉(zhuǎn)角、油門(mén)開(kāi)合度、剎車力度等實(shí)時(shí)控制信號(hào)。這類數(shù)據(jù)不僅采集難度大,且標(biāo)注制作成本極高,僅少數(shù)擁有大規(guī)模車隊(duì)的企業(yè)能夠支撐。

世界模型的優(yōu)勢(shì)則在于數(shù)據(jù)來(lái)源的廣泛性,它可先利用互聯(lián)網(wǎng)規(guī)模的“圖像-文本”“環(huán)境-規(guī)則”等多模態(tài)數(shù)據(jù)完成預(yù)訓(xùn)練,構(gòu)建起基礎(chǔ)的世界認(rèn)知框架,再通過(guò)真實(shí)駕駛數(shù)據(jù)和仿真場(chǎng)景數(shù)據(jù)進(jìn)行微調(diào),既能降低數(shù)據(jù)采集成本,也能通過(guò)仿真推演補(bǔ)足極端場(chǎng)景的數(shù)據(jù)缺口。

回顧自動(dòng)駕駛的派系之爭(zhēng),不難發(fā)現(xiàn),這些技術(shù)博弈從未以某一方的完全勝利告終,而是在碰撞中不斷融合,走向更高層次的技術(shù)統(tǒng)一:激光雷達(dá)與視覺(jué)正整合為多模態(tài)感知系統(tǒng),實(shí)現(xiàn)全場(chǎng)景精準(zhǔn)感知;模塊化架構(gòu)開(kāi)始吸納端到端的優(yōu)勢(shì),平衡性能與可解釋性;AI大模型則為所有系統(tǒng)注入認(rèn)知智能,推動(dòng)自動(dòng)駕駛向更高階進(jìn)化。

那些曾困擾行業(yè)的技術(shù)謎題,或許沒(méi)有絕對(duì)標(biāo)準(zhǔn)答案,但每一次爭(zhēng)議與探索,都成為自動(dòng)駕駛技術(shù)迭代的重要注腳,持續(xù)推動(dòng)著這一賽道向前邁進(jìn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

自動(dòng)駕駛派系之爭(zhēng),四大技術(shù)路線的博弈與融合

技術(shù)路徑最終都將殊途同歸。

文|極智GeeTech 

當(dāng)Waymo的2500輛Robotaxi在舊金山灣區(qū)、洛杉磯、鳳凰城、奧斯汀、亞特蘭大五大城市的街頭自如穿梭,自動(dòng)駕駛行業(yè)儼然已叩響規(guī)模化商業(yè)化的大門(mén)。

然而,在車隊(duì)擴(kuò)張的熱鬧表象之下,自動(dòng)駕駛領(lǐng)域的技術(shù)流派分歧仍未消弭。純視覺(jué)與多傳感器融合的感知路線該如何抉擇?系統(tǒng)架構(gòu)該堅(jiān)守模塊化還是擁抱端到端?在AI大模型賦能下,VLA與世界模型又誰(shuí)能定義自動(dòng)駕駛的“靈魂”?

這些懸而未決的爭(zhēng)議,正悄然左右著自動(dòng)駕駛的未來(lái)走向,也讓這場(chǎng)技術(shù)路線之爭(zhēng)充滿了更多看點(diǎn)。

純視覺(jué)與多傳感器融合的路線之爭(zhēng)

感知是自動(dòng)駕駛的基石,而“如何讓車輛看見(jiàn)世界”,則是行業(yè)內(nèi)對(duì)峙多年的核心議題,兩大技術(shù)陣營(yíng)的較量可追溯至2004年。

當(dāng)年,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)在莫哈韋沙漠發(fā)起挑戰(zhàn)賽,以200萬(wàn)美元獎(jiǎng)金吸引了數(shù)十支頂尖高校與科研機(jī)構(gòu)團(tuán)隊(duì),試圖攻克車輛環(huán)境感知難題。

最終,卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)等團(tuán)隊(duì)采用的激光雷達(dá)方案脫穎而出,其生成的高精度3D點(diǎn)云圖,為早期自動(dòng)駕駛技術(shù)發(fā)展奠定了核心路線,這一方案也被谷歌旗下的Waymo繼承并持續(xù)深耕。

但激光雷達(dá)方案存在致命短板——高昂的成本。一套激光雷達(dá)系統(tǒng)在當(dāng)時(shí)造價(jià)高達(dá)7.5 萬(wàn)美元,這在當(dāng)時(shí)注定其只能走小規(guī)模精英化路線,難以適配大規(guī)模商業(yè)化的需求。

十年后,特斯拉扛起了純視覺(jué)路線的大旗,給出了截然不同的解題思路。其核心邏輯是“人類靠雙眼和大腦就能開(kāi)車,機(jī)器也應(yīng)如此”。

2014年,特斯拉Autopilot系統(tǒng)問(wèn)世,搭載Mobileye視覺(jué)方案,確立了以攝像頭為核心的感知路徑。2016年,馬斯克公開(kāi)宣稱“激光雷達(dá)是徒勞的”,將純視覺(jué)路線推向行業(yè)焦點(diǎn)。

特斯拉通過(guò)8個(gè)環(huán)繞式攝像頭模擬人類視野,依托深度學(xué)習(xí)算法從二維圖像中重建三維駕駛環(huán)境。這一方案的優(yōu)勢(shì)極為顯著:成本極低,可支撐大規(guī)模量產(chǎn);更關(guān)鍵的是,量產(chǎn)車輛能收集海量真實(shí)路況數(shù)據(jù),形成“數(shù)據(jù)飛輪”,反哺算法持續(xù)迭代,實(shí)現(xiàn)“越用越強(qiáng)”的閉環(huán)。

不過(guò),純視覺(jué)方案的局限性也十分突出。攝像頭屬于被動(dòng)傳感器,性能高度依賴環(huán)境光照,在逆光、眩光、黑夜、大雨、大霧等復(fù)雜場(chǎng)景下,感知能力會(huì)大幅衰減,遠(yuǎn)不及激光雷達(dá)的穩(wěn)定性。

以激光雷達(dá)為核心的多傳感器融合陣營(yíng)則認(rèn)為,在可見(jiàn)的未來(lái),機(jī)器智能難以復(fù)刻人類基于經(jīng)驗(yàn)的常識(shí)與直覺(jué),惡劣環(huán)境下必須依靠激光雷達(dá)等硬件冗余,來(lái)彌補(bǔ)軟件算法的不足。

簡(jiǎn)言之,純視覺(jué)路線將技術(shù)壓力全部集中于算法,賭的是AI智能化的突破。多傳感器融合則更側(cè)重工程落地的安全性,選擇的是經(jīng)過(guò)驗(yàn)證的穩(wěn)妥方案。

目前,Waymo、小鵬、蔚來(lái)等主流車企與自動(dòng)駕駛公司,均站在多傳感器融合陣營(yíng),在他們看來(lái),安全是自動(dòng)駕駛不可逾越的紅線,而硬件冗余是保障安全的核心途徑。

值得一提的是,兩條路線并非完全割裂,正呈現(xiàn)相互融合的趨勢(shì):純視覺(jué)方案開(kāi)始引入更多類型的傳感器補(bǔ)充感知能力;多傳感器融合方案中,視覺(jué)算法的地位也持續(xù)提升,成為理解場(chǎng)景語(yǔ)義的關(guān)鍵核心。

激光雷達(dá)與毫米波雷達(dá)的互補(bǔ)博弈

即便在多傳感器融合陣營(yíng)內(nèi)部,也存在一場(chǎng)關(guān)于傳感器選型的細(xì)分爭(zhēng)議:毫米波雷達(dá)成本僅數(shù)百元,而早期激光雷達(dá)動(dòng)輒數(shù)萬(wàn)美元,為何車企仍愿為激光雷達(dá)投入高額成本?

激光雷達(dá)(LiDAR)可通過(guò)發(fā)射激光束并測(cè)算返回時(shí)間,構(gòu)建出超高精度的3D點(diǎn)云圖像,能精準(zhǔn)解決其他傳感器難以應(yīng)對(duì)的極端場(chǎng)景(Corner Case)。其角分辨率極高,可清晰識(shí)別行人姿態(tài)、車輛輪廓,甚至路面微小障礙物。

在L4/L5級(jí)商業(yè)自動(dòng)駕駛領(lǐng)域,激光雷達(dá)是唯一能同時(shí)滿足高精度感知與靜態(tài)物體檢測(cè)的傳感器,為了實(shí)現(xiàn)基礎(chǔ)自動(dòng)駕駛功能與安全冗余,這筆成本堪稱車企必須支付的 “入場(chǎng)券”。

但激光雷達(dá)并非完美無(wú)缺。激光本質(zhì)是紅外光,波長(zhǎng)極短,當(dāng)雨滴、霧滴、雪花、煙塵等顆粒的尺寸與激光波長(zhǎng)接近時(shí),會(huì)引發(fā)激光散射與吸收,產(chǎn)生大量“噪聲”點(diǎn)云,嚴(yán)重影響感知精度。

4D毫米波雷達(dá)則恰好能彌補(bǔ)這一短板,其具備全天候工作能力,在惡劣天氣下可憑借強(qiáng)穿透性,率先探測(cè)前方障礙物并輸出距離、速度數(shù)據(jù)。不過(guò),毫米波雷達(dá)的回波點(diǎn)極為稀疏,僅能形成少量點(diǎn)云,無(wú)法像激光雷達(dá)那樣勾勒物體輪廓與形狀,還可能因電子干擾出現(xiàn)“幽靈識(shí)別”的誤判。低分辨率的缺陷,決定了它只能作為輔助傳感器上車,無(wú)法成為感知核心。

由此可見(jiàn),激光雷達(dá)與4D毫米波雷達(dá)并非替代關(guān)系,而是形成了“常規(guī)場(chǎng)景靠毫米波雷達(dá)控成本,復(fù)雜場(chǎng)景靠激光雷達(dá)保安全”的互補(bǔ)邏輯,不同車型會(huì)根據(jù)定位采用差異化配置:L4級(jí)Robotaxi與豪華車型,通常采用“激光雷達(dá)為主、毫米波雷達(dá)為輔”的策略,不計(jì)成本堆砌傳感器以追求極致安全與性能上限;L2+、L3級(jí)量產(chǎn)經(jīng)濟(jì)型車型,則以“攝像頭 + 毫米波雷達(dá)”為基礎(chǔ),僅在車頂?shù)汝P(guān)鍵位置配備1-2顆激光雷達(dá),打造高性價(jià)比的感知方案。

車企圍繞傳感器的選型爭(zhēng)議,本質(zhì)是一場(chǎng)以最低成本實(shí)現(xiàn)最高安全的技術(shù)探索與商業(yè)博弈。未來(lái),各類傳感器的融合將進(jìn)一步深化,催生出更多元化的感知搭配方案。

端到端與模塊化的架構(gòu)對(duì)決

如果說(shuō)傳感器是自動(dòng)駕駛的“眼睛”,那算法架構(gòu)就是其“大腦”,而“大腦”的構(gòu)建模式,正經(jīng)歷模塊化與端到端的激烈對(duì)決。

長(zhǎng)期以來(lái),自動(dòng)駕駛系統(tǒng)普遍采用模塊化設(shè)計(jì),將完整駕駛?cè)蝿?wù)拆解為感知、預(yù)測(cè)、規(guī)劃、控制等獨(dú)立子任務(wù)。每個(gè)模塊各司其職,配備專屬算法與優(yōu)化目標(biāo),如同一條分工明確的流水線。

這種架構(gòu)的優(yōu)勢(shì)十分明顯:可解釋性強(qiáng)、支持并行開(kāi)發(fā)、便于調(diào)試維護(hù)。但它的缺陷也同樣致命——局部最優(yōu)不等于全局最優(yōu),各模塊在信息傳遞過(guò)程中,會(huì)對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)化與抽象,導(dǎo)致大量關(guān)鍵信息在層層流轉(zhuǎn)中丟失,最終制約系統(tǒng)的整體性能上限。

2022-2023年,以特斯拉FSD V12為代表的“端到端”模型橫空出世,徹底顛覆了傳統(tǒng)架構(gòu)范式。這一方案的靈感源于人類駕駛學(xué)習(xí)邏輯:新手司機(jī)不會(huì)先鉆研光學(xué)原理與交通規(guī)則,而是通過(guò)觀察教練操作直接習(xí)得駕駛技能。

端到端模型摒棄了人為的模塊劃分,通過(guò)學(xué)習(xí)海量人類駕駛數(shù)據(jù),構(gòu)建起龐大的神經(jīng)網(wǎng)絡(luò),可直接將傳感器輸入的原始數(shù)據(jù),映射為方向盤(pán)轉(zhuǎn)角、油門(mén)開(kāi)度、剎車力度等終端駕駛控制指令。

與模塊化架構(gòu)相比,端到端模型全程無(wú)信息損耗,性能上限更高,還能大幅簡(jiǎn)化開(kāi)發(fā)流程;但其“黑箱”特質(zhì)也帶來(lái)了嚴(yán)峻挑戰(zhàn),一旦發(fā)生事故,工程師難以追溯問(wèn)題根源,無(wú)法判斷是算法誤判還是數(shù)據(jù)缺陷,后續(xù)優(yōu)化更是無(wú)從下手。

端到端模型的出現(xiàn),推動(dòng)自動(dòng)駕駛從“規(guī)則驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”,但“黑箱”風(fēng)險(xiǎn)讓眾多重視安全的車企望而卻步,且海量訓(xùn)練數(shù)據(jù)的需求,也只有具備大規(guī)模車隊(duì)的企業(yè)才能滿足。

為此,行業(yè)衍生出折中方案——“顯式端到端”,即在端到端模型中保留可行駛區(qū)域、目標(biāo)軌跡等中間輸出,力求在性能突破與可解釋性之間找到平衡。

VLA與世界模型的智能定義之爭(zhēng)

隨著AI發(fā)展,新的戰(zhàn)場(chǎng)在大模型內(nèi)部開(kāi)辟。這關(guān)乎自動(dòng)駕駛的靈魂,它應(yīng)該是輔助駕駛的思考者,還是執(zhí)行者?

世界模型信奉“先建模、再?zèng)Q策”的邏輯,更追求對(duì)駕駛場(chǎng)景的深度認(rèn)知與過(guò)程可控,也被稱為認(rèn)知派。

該路線認(rèn)為,自動(dòng)駕駛系統(tǒng)要像人類駕駛員一樣,先在“大腦”中構(gòu)建出周圍環(huán)境的數(shù)字化虛擬模型,再基于這個(gè)模型模擬不同駕駛策略的潛在結(jié)果,最終篩選出最優(yōu)方案。它強(qiáng)調(diào)AI需先理解世界的運(yùn)行規(guī)律,再結(jié)合傳統(tǒng)自動(dòng)駕駛模塊完成決策,將大模型的認(rèn)知能力與成熟的工程控制方案結(jié)合,規(guī)避純算法決策的幻覺(jué)風(fēng)險(xiǎn)。

VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)信奉能力“涌現(xiàn)”,追求結(jié)果最優(yōu),被稱為端到端的終極形態(tài)。該流派主張只要模型足夠大、數(shù)據(jù)足夠多,AI就能自己從零開(kāi)始學(xué)會(huì)駕駛的一切細(xì)節(jié)和規(guī)則,無(wú)需預(yù)先構(gòu)建顯性的環(huán)境模型,最終其駕駛能力會(huì)超越人類和基于規(guī)則的系統(tǒng)。它直接將傳感器輸入的視覺(jué)信息、環(huán)境語(yǔ)言描述與終端控制動(dòng)作綁定,實(shí)現(xiàn)從感知到執(zhí)行的一站式?jīng)Q策。

圍繞VLA與世界模型的爭(zhēng)議,本質(zhì)是自動(dòng)駕駛智能決策邏輯的路線分歧,也延續(xù)了模塊化與端到端方案的核心辯論。

從可解釋性來(lái)看,VLA存在著難以溯源的黑箱困境。如果一輛搭載VLA功能的車輛發(fā)生了一次急剎車,工程師幾乎無(wú)法追溯原因:是因?yàn)樗殃幱罢`判為坑洞?還是它學(xué)到了某個(gè)人類司機(jī)的不良習(xí)慣?這種無(wú)法調(diào)試、無(wú)法驗(yàn)證的特性,與汽車行業(yè)嚴(yán)格的功能安全標(biāo)準(zhǔn)形成了根本性沖突。

世界模型的核心是“先構(gòu)建環(huán)境認(rèn)知模型,再分步推演決策”,其決策鏈路本就分為“感知-建模-規(guī)劃-控制”等明確模塊,每個(gè)環(huán)節(jié)都有獨(dú)立的輸出和可監(jiān)測(cè)的運(yùn)行狀態(tài),因此具備全程可分解、可分析、可優(yōu)化的特質(zhì)。

世界模型與VLA的核心差異之一就是可溯源性,其模塊化的決策鏈路能讓工程師精準(zhǔn)定位問(wèn)題環(huán)節(jié)。如果遇到復(fù)雜路況,工程師可以清晰看到完整決策過(guò)程:傳統(tǒng)感知模塊識(shí)別到未知物體、世界模型將其建模為“被風(fēng)吹動(dòng)的塑料袋”,并模擬其運(yùn)動(dòng)軌跡,規(guī)劃模塊據(jù)此決定“無(wú)需緊急剎車,僅輕微減速避讓即可”。即便發(fā)生事故,也能精準(zhǔn)界定是建模環(huán)節(jié)的疏漏,還是規(guī)劃模塊的判斷失誤。

除了可解釋性的兩極分化,訓(xùn)練成本與數(shù)據(jù)需求也是車企猶疑不決的核心原因之一。

VLA需要海量的“視頻-控制信號(hào)”配對(duì)數(shù)據(jù),即輸入一段8攝像頭同步視頻,必須輸出對(duì)應(yīng)的方向盤(pán)轉(zhuǎn)角、油門(mén)開(kāi)合度、剎車力度等實(shí)時(shí)控制信號(hào)。這類數(shù)據(jù)不僅采集難度大,且標(biāo)注制作成本極高,僅少數(shù)擁有大規(guī)模車隊(duì)的企業(yè)能夠支撐。

世界模型的優(yōu)勢(shì)則在于數(shù)據(jù)來(lái)源的廣泛性,它可先利用互聯(lián)網(wǎng)規(guī)模的“圖像-文本”“環(huán)境-規(guī)則”等多模態(tài)數(shù)據(jù)完成預(yù)訓(xùn)練,構(gòu)建起基礎(chǔ)的世界認(rèn)知框架,再通過(guò)真實(shí)駕駛數(shù)據(jù)和仿真場(chǎng)景數(shù)據(jù)進(jìn)行微調(diào),既能降低數(shù)據(jù)采集成本,也能通過(guò)仿真推演補(bǔ)足極端場(chǎng)景的數(shù)據(jù)缺口。

回顧自動(dòng)駕駛的派系之爭(zhēng),不難發(fā)現(xiàn),這些技術(shù)博弈從未以某一方的完全勝利告終,而是在碰撞中不斷融合,走向更高層次的技術(shù)統(tǒng)一:激光雷達(dá)與視覺(jué)正整合為多模態(tài)感知系統(tǒng),實(shí)現(xiàn)全場(chǎng)景精準(zhǔn)感知;模塊化架構(gòu)開(kāi)始吸納端到端的優(yōu)勢(shì),平衡性能與可解釋性;AI大模型則為所有系統(tǒng)注入認(rèn)知智能,推動(dòng)自動(dòng)駕駛向更高階進(jìn)化。

那些曾困擾行業(yè)的技術(shù)謎題,或許沒(méi)有絕對(duì)標(biāo)準(zhǔn)答案,但每一次爭(zhēng)議與探索,都成為自動(dòng)駕駛技術(shù)迭代的重要注腳,持續(xù)推動(dòng)著這一賽道向前邁進(jìn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。