文|極智GeeTech
當Waymo的2500輛Robotaxi在舊金山灣區(qū)、洛杉磯、鳳凰城、奧斯汀、亞特蘭大五大城市的街頭自如穿梭,自動駕駛行業(yè)儼然已叩響規(guī)?;虡I(yè)化的大門。
然而,在車隊擴張的熱鬧表象之下,自動駕駛領(lǐng)域的技術(shù)流派分歧仍未消弭。純視覺與多傳感器融合的感知路線該如何抉擇?系統(tǒng)架構(gòu)該堅守模塊化還是擁抱端到端?在AI大模型賦能下,VLA與世界模型又誰能定義自動駕駛的“靈魂”?
這些懸而未決的爭議,正悄然左右著自動駕駛的未來走向,也讓這場技術(shù)路線之爭充滿了更多看點。

純視覺與多傳感器融合的路線之爭
感知是自動駕駛的基石,而“如何讓車輛看見世界”,則是行業(yè)內(nèi)對峙多年的核心議題,兩大技術(shù)陣營的較量可追溯至2004年。
當年,美國國防高級研究計劃局(DARPA)在莫哈韋沙漠發(fā)起挑戰(zhàn)賽,以200萬美元獎金吸引了數(shù)十支頂尖高校與科研機構(gòu)團隊,試圖攻克車輛環(huán)境感知難題。
最終,卡內(nèi)基梅隆大學、斯坦福大學等團隊采用的激光雷達方案脫穎而出,其生成的高精度3D點云圖,為早期自動駕駛技術(shù)發(fā)展奠定了核心路線,這一方案也被谷歌旗下的Waymo繼承并持續(xù)深耕。
但激光雷達方案存在致命短板——高昂的成本。一套激光雷達系統(tǒng)在當時造價高達7.5 萬美元,這在當時注定其只能走小規(guī)模精英化路線,難以適配大規(guī)模商業(yè)化的需求。
十年后,特斯拉扛起了純視覺路線的大旗,給出了截然不同的解題思路。其核心邏輯是“人類靠雙眼和大腦就能開車,機器也應(yīng)如此”。
2014年,特斯拉Autopilot系統(tǒng)問世,搭載Mobileye視覺方案,確立了以攝像頭為核心的感知路徑。2016年,馬斯克公開宣稱“激光雷達是徒勞的”,將純視覺路線推向行業(yè)焦點。
特斯拉通過8個環(huán)繞式攝像頭模擬人類視野,依托深度學習算法從二維圖像中重建三維駕駛環(huán)境。這一方案的優(yōu)勢極為顯著:成本極低,可支撐大規(guī)模量產(chǎn);更關(guān)鍵的是,量產(chǎn)車輛能收集海量真實路況數(shù)據(jù),形成“數(shù)據(jù)飛輪”,反哺算法持續(xù)迭代,實現(xiàn)“越用越強”的閉環(huán)。

不過,純視覺方案的局限性也十分突出。攝像頭屬于被動傳感器,性能高度依賴環(huán)境光照,在逆光、眩光、黑夜、大雨、大霧等復(fù)雜場景下,感知能力會大幅衰減,遠不及激光雷達的穩(wěn)定性。
以激光雷達為核心的多傳感器融合陣營則認為,在可見的未來,機器智能難以復(fù)刻人類基于經(jīng)驗的常識與直覺,惡劣環(huán)境下必須依靠激光雷達等硬件冗余,來彌補軟件算法的不足。
簡言之,純視覺路線將技術(shù)壓力全部集中于算法,賭的是AI智能化的突破。多傳感器融合則更側(cè)重工程落地的安全性,選擇的是經(jīng)過驗證的穩(wěn)妥方案。
目前,Waymo、小鵬、蔚來等主流車企與自動駕駛公司,均站在多傳感器融合陣營,在他們看來,安全是自動駕駛不可逾越的紅線,而硬件冗余是保障安全的核心途徑。
值得一提的是,兩條路線并非完全割裂,正呈現(xiàn)相互融合的趨勢:純視覺方案開始引入更多類型的傳感器補充感知能力;多傳感器融合方案中,視覺算法的地位也持續(xù)提升,成為理解場景語義的關(guān)鍵核心。
激光雷達與毫米波雷達的互補博弈
即便在多傳感器融合陣營內(nèi)部,也存在一場關(guān)于傳感器選型的細分爭議:毫米波雷達成本僅數(shù)百元,而早期激光雷達動輒數(shù)萬美元,為何車企仍愿為激光雷達投入高額成本?
激光雷達(LiDAR)可通過發(fā)射激光束并測算返回時間,構(gòu)建出超高精度的3D點云圖像,能精準解決其他傳感器難以應(yīng)對的極端場景(Corner Case)。其角分辨率極高,可清晰識別行人姿態(tài)、車輛輪廓,甚至路面微小障礙物。
在L4/L5級商業(yè)自動駕駛領(lǐng)域,激光雷達是唯一能同時滿足高精度感知與靜態(tài)物體檢測的傳感器,為了實現(xiàn)基礎(chǔ)自動駕駛功能與安全冗余,這筆成本堪稱車企必須支付的 “入場券”。
但激光雷達并非完美無缺。激光本質(zhì)是紅外光,波長極短,當雨滴、霧滴、雪花、煙塵等顆粒的尺寸與激光波長接近時,會引發(fā)激光散射與吸收,產(chǎn)生大量“噪聲”點云,嚴重影響感知精度。

4D毫米波雷達則恰好能彌補這一短板,其具備全天候工作能力,在惡劣天氣下可憑借強穿透性,率先探測前方障礙物并輸出距離、速度數(shù)據(jù)。不過,毫米波雷達的回波點極為稀疏,僅能形成少量點云,無法像激光雷達那樣勾勒物體輪廓與形狀,還可能因電子干擾出現(xiàn)“幽靈識別”的誤判。低分辨率的缺陷,決定了它只能作為輔助傳感器上車,無法成為感知核心。
由此可見,激光雷達與4D毫米波雷達并非替代關(guān)系,而是形成了“常規(guī)場景靠毫米波雷達控成本,復(fù)雜場景靠激光雷達保安全”的互補邏輯,不同車型會根據(jù)定位采用差異化配置:L4級Robotaxi與豪華車型,通常采用“激光雷達為主、毫米波雷達為輔”的策略,不計成本堆砌傳感器以追求極致安全與性能上限;L2+、L3級量產(chǎn)經(jīng)濟型車型,則以“攝像頭 + 毫米波雷達”為基礎(chǔ),僅在車頂?shù)汝P(guān)鍵位置配備1-2顆激光雷達,打造高性價比的感知方案。
車企圍繞傳感器的選型爭議,本質(zhì)是一場以最低成本實現(xiàn)最高安全的技術(shù)探索與商業(yè)博弈。未來,各類傳感器的融合將進一步深化,催生出更多元化的感知搭配方案。
端到端與模塊化的架構(gòu)對決
如果說傳感器是自動駕駛的“眼睛”,那算法架構(gòu)就是其“大腦”,而“大腦”的構(gòu)建模式,正經(jīng)歷模塊化與端到端的激烈對決。
長期以來,自動駕駛系統(tǒng)普遍采用模塊化設(shè)計,將完整駕駛?cè)蝿?wù)拆解為感知、預(yù)測、規(guī)劃、控制等獨立子任務(wù)。每個模塊各司其職,配備專屬算法與優(yōu)化目標,如同一條分工明確的流水線。
這種架構(gòu)的優(yōu)勢十分明顯:可解釋性強、支持并行開發(fā)、便于調(diào)試維護。但它的缺陷也同樣致命——局部最優(yōu)不等于全局最優(yōu),各模塊在信息傳遞過程中,會對原始數(shù)據(jù)進行簡化與抽象,導(dǎo)致大量關(guān)鍵信息在層層流轉(zhuǎn)中丟失,最終制約系統(tǒng)的整體性能上限。
2022-2023年,以特斯拉FSD V12為代表的“端到端”模型橫空出世,徹底顛覆了傳統(tǒng)架構(gòu)范式。這一方案的靈感源于人類駕駛學習邏輯:新手司機不會先鉆研光學原理與交通規(guī)則,而是通過觀察教練操作直接習得駕駛技能。

端到端模型摒棄了人為的模塊劃分,通過學習海量人類駕駛數(shù)據(jù),構(gòu)建起龐大的神經(jīng)網(wǎng)絡(luò),可直接將傳感器輸入的原始數(shù)據(jù),映射為方向盤轉(zhuǎn)角、油門開度、剎車力度等終端駕駛控制指令。
與模塊化架構(gòu)相比,端到端模型全程無信息損耗,性能上限更高,還能大幅簡化開發(fā)流程;但其“黑箱”特質(zhì)也帶來了嚴峻挑戰(zhàn),一旦發(fā)生事故,工程師難以追溯問題根源,無法判斷是算法誤判還是數(shù)據(jù)缺陷,后續(xù)優(yōu)化更是無從下手。
端到端模型的出現(xiàn),推動自動駕駛從“規(guī)則驅(qū)動”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動”,但“黑箱”風險讓眾多重視安全的車企望而卻步,且海量訓(xùn)練數(shù)據(jù)的需求,也只有具備大規(guī)模車隊的企業(yè)才能滿足。
為此,行業(yè)衍生出折中方案——“顯式端到端”,即在端到端模型中保留可行駛區(qū)域、目標軌跡等中間輸出,力求在性能突破與可解釋性之間找到平衡。
VLA與世界模型的智能定義之爭
隨著AI發(fā)展,新的戰(zhàn)場在大模型內(nèi)部開辟。這關(guān)乎自動駕駛的靈魂,它應(yīng)該是輔助駕駛的思考者,還是執(zhí)行者?
世界模型信奉“先建模、再決策”的邏輯,更追求對駕駛場景的深度認知與過程可控,也被稱為認知派。
該路線認為,自動駕駛系統(tǒng)要像人類駕駛員一樣,先在“大腦”中構(gòu)建出周圍環(huán)境的數(shù)字化虛擬模型,再基于這個模型模擬不同駕駛策略的潛在結(jié)果,最終篩選出最優(yōu)方案。它強調(diào)AI需先理解世界的運行規(guī)律,再結(jié)合傳統(tǒng)自動駕駛模塊完成決策,將大模型的認知能力與成熟的工程控制方案結(jié)合,規(guī)避純算法決策的幻覺風險。
VLA(視覺-語言-動作模型)信奉能力“涌現(xiàn)”,追求結(jié)果最優(yōu),被稱為端到端的終極形態(tài)。該流派主張只要模型足夠大、數(shù)據(jù)足夠多,AI就能自己從零開始學會駕駛的一切細節(jié)和規(guī)則,無需預(yù)先構(gòu)建顯性的環(huán)境模型,最終其駕駛能力會超越人類和基于規(guī)則的系統(tǒng)。它直接將傳感器輸入的視覺信息、環(huán)境語言描述與終端控制動作綁定,實現(xiàn)從感知到執(zhí)行的一站式?jīng)Q策。

圍繞VLA與世界模型的爭議,本質(zhì)是自動駕駛智能決策邏輯的路線分歧,也延續(xù)了模塊化與端到端方案的核心辯論。
從可解釋性來看,VLA存在著難以溯源的黑箱困境。如果一輛搭載VLA功能的車輛發(fā)生了一次急剎車,工程師幾乎無法追溯原因:是因為它把陰影誤判為坑洞?還是它學到了某個人類司機的不良習慣?這種無法調(diào)試、無法驗證的特性,與汽車行業(yè)嚴格的功能安全標準形成了根本性沖突。
世界模型的核心是“先構(gòu)建環(huán)境認知模型,再分步推演決策”,其決策鏈路本就分為“感知-建模-規(guī)劃-控制”等明確模塊,每個環(huán)節(jié)都有獨立的輸出和可監(jiān)測的運行狀態(tài),因此具備全程可分解、可分析、可優(yōu)化的特質(zhì)。
世界模型與VLA的核心差異之一就是可溯源性,其模塊化的決策鏈路能讓工程師精準定位問題環(huán)節(jié)。如果遇到復(fù)雜路況,工程師可以清晰看到完整決策過程:傳統(tǒng)感知模塊識別到未知物體、世界模型將其建模為“被風吹動的塑料袋”,并模擬其運動軌跡,規(guī)劃模塊據(jù)此決定“無需緊急剎車,僅輕微減速避讓即可”。即便發(fā)生事故,也能精準界定是建模環(huán)節(jié)的疏漏,還是規(guī)劃模塊的判斷失誤。
除了可解釋性的兩極分化,訓(xùn)練成本與數(shù)據(jù)需求也是車企猶疑不決的核心原因之一。
VLA需要海量的“視頻-控制信號”配對數(shù)據(jù),即輸入一段8攝像頭同步視頻,必須輸出對應(yīng)的方向盤轉(zhuǎn)角、油門開合度、剎車力度等實時控制信號。這類數(shù)據(jù)不僅采集難度大,且標注制作成本極高,僅少數(shù)擁有大規(guī)模車隊的企業(yè)能夠支撐。
世界模型的優(yōu)勢則在于數(shù)據(jù)來源的廣泛性,它可先利用互聯(lián)網(wǎng)規(guī)模的“圖像-文本”“環(huán)境-規(guī)則”等多模態(tài)數(shù)據(jù)完成預(yù)訓(xùn)練,構(gòu)建起基礎(chǔ)的世界認知框架,再通過真實駕駛數(shù)據(jù)和仿真場景數(shù)據(jù)進行微調(diào),既能降低數(shù)據(jù)采集成本,也能通過仿真推演補足極端場景的數(shù)據(jù)缺口。
回顧自動駕駛的派系之爭,不難發(fā)現(xiàn),這些技術(shù)博弈從未以某一方的完全勝利告終,而是在碰撞中不斷融合,走向更高層次的技術(shù)統(tǒng)一:激光雷達與視覺正整合為多模態(tài)感知系統(tǒng),實現(xiàn)全場景精準感知;模塊化架構(gòu)開始吸納端到端的優(yōu)勢,平衡性能與可解釋性;AI大模型則為所有系統(tǒng)注入認知智能,推動自動駕駛向更高階進化。
那些曾困擾行業(yè)的技術(shù)謎題,或許沒有絕對標準答案,但每一次爭議與探索,都成為自動駕駛技術(shù)迭代的重要注腳,持續(xù)推動著這一賽道向前邁進。

