四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

<samp id="88yms"><em id="88yms"></em></samp>

<button id="88yms"></button>

<button id="88yms"></button>

<samp id="88yms"></samp>

<button id="88yms"></button>

<button id="isaqa"></button>

<sup id="isaqa"><tr id="isaqa"></tr></sup>

<del id="isaqa"><abbr id="isaqa"></abbr></del>

<button id="isaqa"></button>

掃一掃下載界面新聞APP

其他途徑關(guān)注界面…

從L2到L3，VLA成為智能輔助駕駛“關(guān)鍵跳板”？

真正的較量才剛剛開始。

極智GeeTech ·

文｜極智GeeTech

當(dāng)AI具備自主意識，也就實(shí)現(xiàn)了從“能干活”到“會做事”的轉(zhuǎn)變。

近日，Gemini家族迎來一個新成員——Gemini Robotics On-Device。這是谷歌DeepMind首個可以直接部署在機(jī)器人上的視覺-語言-動作模型（Vision-Language-Action，VLA）。該模型運(yùn)行時無需依賴數(shù)據(jù)網(wǎng)絡(luò)，可以完全在機(jī)器人設(shè)備本地離線運(yùn)行，并在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力，能理解自然語言指令，并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。

作為機(jī)器智能領(lǐng)域的關(guān)鍵新范式，VLA不僅讓機(jī)器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力，也成為當(dāng)下輔助駕駛提升智能化水平的重要技術(shù)之一。

去年以來，谷歌、微軟、Figure AI等海外公司以及銀河通用、智元機(jī)器人、理想汽車、小鵬汽車等國內(nèi)具身智能和車企均發(fā)布了自己的VLA模型，這項(xiàng)技術(shù)成為具身智能和智能輔助駕駛領(lǐng)域的關(guān)鍵性研究之一。

VLM走向VLA

VLA模型最早由DeepMind提出并應(yīng)用在機(jī)器人領(lǐng)域，旨在解決“視覺-語言-動作”三者協(xié)同的智能體控制問題。

2023年7月，谷歌DeepMind推出了全球首個控制機(jī)器人的VLA模型——RT-2。相比傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令，RT-2借助于大語言模型強(qiáng)大的語言理解能力，可以直接和用戶進(jìn)行語言交互，并在接收攝像頭的原始數(shù)據(jù)和語言指令后，直接輸出控制信號，完成各種復(fù)雜的操作和各類任務(wù)。

VLA在機(jī)器人領(lǐng)域的成功，很快也應(yīng)用到了自動駕駛領(lǐng)域。2024年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出了一個基于端到端的自動駕駛多模態(tài)模型——EMMA。

EMMA建立在多模態(tài)大語言模型Gemini之上，將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中，包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素，通過將所有非傳感器輸入（如導(dǎo)航指令和自車狀態(tài)）和輸出（如軌跡和3D位置）表示為自然語言文本，最大限度地利用了預(yù)訓(xùn)練的大型語言模型中的世界知識。

從技術(shù)路徑看，VLA是繼VLM（視覺-語言模型）之后的進(jìn)化形態(tài)，被視為端到端大模型2.0——多模態(tài)機(jī)器學(xué)習(xí)模型。VLA融合視覺、語言和行動三種能力，將其統(tǒng)一在一個模型里，只輸入到機(jī)器就可執(zhí)行動作的端到端映射，從而賦予模型強(qiáng)大的3D空間理解、邏輯推理和行為生成能力，讓自動駕駛能夠感知、思考和適應(yīng)環(huán)境。

在智能輔助駕駛領(lǐng)域，感知技術(shù)通常由雷達(dá)、激光雷達(dá)、攝像頭等多種傳感器負(fù)責(zé)感知，感知結(jié)果經(jīng)過目標(biāo)檢測、語義分割、軌跡預(yù)測、行為規(guī)劃等一系列模塊處理，最后由控制器下發(fā)方向盤和油門等動作指令。整個流程雖條理清晰，卻存在模塊間誤差累積、規(guī)則設(shè)計(jì)復(fù)雜且難以覆蓋所有極端場景的短板。

VLA模型正是在此背景下應(yīng)運(yùn)而生，它舍棄了中間的手工設(shè)計(jì)算法，直接用統(tǒng)一的神經(jīng)網(wǎng)絡(luò)從多模態(tài)輸入中學(xué)習(xí)最優(yōu)控制策略，借助語言模型理解人類指令并生成可解釋的決策過程，最后將多模態(tài)信息轉(zhuǎn)化為具體的駕駛操作指令，從而簡化了系統(tǒng)架構(gòu)，提高了數(shù)據(jù)利用效率。

智能輔助駕駛關(guān)鍵跳板

今年，汽車行業(yè)的智駕之戰(zhàn)明顯比往年來得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕，以及廣汽的自動駕駛計(jì)劃，這些主流車企的動向都說明了，如今的車圈已經(jīng)是“得智駕者得天下”的時代了。

自2023年以來，智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后，車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案，基于AI、數(shù)據(jù)驅(qū)動的“端到端”擁有更高能力天花板。

但在端到端模型之外，車企們還輔以了大語言模型、VLM模型等外掛，提供更強(qiáng)大的環(huán)境理解能力，從而提升智駕能力上限。

與此同時，VLA正在成為重要的一環(huán)。VLA模型擁有更高的場景推理能力與泛化能力，對于智能輔助駕駛技術(shù)的演進(jìn)意義重大。從長遠(yuǎn)來看，在從L2級輔助駕駛向L4級自動駕駛的技術(shù)躍遷過程中，VLA有望成為關(guān)鍵跳板。

在提升汽車智能化方面，新勢力車企最為激進(jìn)。在NVIDIA GTC 2025大會上，理想汽車發(fā)布了新一代自動駕駛架構(gòu)——MindVLA。它通過整合空間智能、語言智能和行為智能，賦予自動駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力，并計(jì)劃于2026年量產(chǎn)應(yīng)用。

在VLA之前，“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。因?yàn)轳{駛時需要多模態(tài)的感知交互系統(tǒng)，用戶的視覺、聽覺以及周圍環(huán)境的變化，甚至個人情感的波動，都與駕駛行為密切相關(guān)，所以“端到端+VLM”的技術(shù)架構(gòu)中，端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過程，而VLM則作為輔助系統(tǒng)，提供對復(fù)雜交通場景的理解和語義解析，但兩者相對獨(dú)立。

比如理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案，其基于丹尼爾·卡尼曼（Daniel Kahneman）在《思考，快與慢》中提出的人類兩套思維系統(tǒng)理論，將端到端系統(tǒng)（相當(dāng)于系統(tǒng)1）與VLM模型（相當(dāng)于系統(tǒng)2）融合應(yīng)用于自動駕駛技術(shù)方案中，賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>

其中，系統(tǒng)1即端到端模型，是一種直覺式、快速反應(yīng)的機(jī)制，它直接從傳感器輸入（如攝像頭和激光雷達(dá)數(shù)據(jù)）映射到行駛軌跡輸出，無需中間過程，是One Model一體化的模型。系統(tǒng)2則是由一個22億參數(shù)的VLM視覺語言大模型實(shí)現(xiàn)，它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。

而小鵬汽車將云端模型工廠劃分為四個車間，依次進(jìn)行模型的預(yù)訓(xùn)練、后訓(xùn)練、模型蒸餾以及車端部署。理想則選擇了先進(jìn)行視覺語言基座模型的預(yù)訓(xùn)練，隨后進(jìn)行模型蒸餾，最后通過駕駛場景數(shù)據(jù)進(jìn)行后訓(xùn)練和強(qiáng)化學(xué)習(xí)。兩種不同的技術(shù)路線帶來了不同的訓(xùn)練成本與效率，正是這種差異使得兩家車企在市場上形成了強(qiáng)烈的對比。

雖然“端到端+VLM”大幅提升了智駕水平，但仍有很多問題。比如，端到端和VLM要進(jìn)行聯(lián)合訓(xùn)練比較困難，此外還有對3D空間理解不夠、駕駛知識和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問題。

而VLA通過統(tǒng)一的大模型架構(gòu)，將感知、決策、執(zhí)行無縫串聯(lián)，形成“圖像輸入-語義理解-類人決策-動作輸出”的閉環(huán)，可以同步提高智駕的上限和下限，實(shí)現(xiàn)空間、行為和語言的統(tǒng)一。

在推理方面，VLA模型的能力要遠(yuǎn)高于“端到端+VLM”。VLA整合了VLM的感知能力和端到端模型的決策能力，還引入了“思維鏈”技術(shù)。這使得它具備了全局上下文理解與類人推理能力，能夠在面對復(fù)雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時，像人類駕駛員一樣進(jìn)行思考和判斷。

例如，在推理時長方面，傳統(tǒng)的基于規(guī)則（rule-based）方案只能推理1秒鐘的路況信息并做出決策控制；端到端1.0階段的系統(tǒng)能夠推理未來7秒的路況，而VLA模型則能夠?qū)资氲穆窙r進(jìn)行推理，顯著提升了智能輔助駕駛系統(tǒng)的決策能力和適應(yīng)性。

正因如此，VLA被業(yè)界認(rèn)為是端到端2.0的主要技術(shù)形態(tài)。目前，VLA尚處于發(fā)展階段，除DeepMind的RT-2外，還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達(dá)NaVILA等。這其中，Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域，RT-2、OpenVLA和NaVILA則主要面向機(jī)器人領(lǐng)域。

下一代輔助駕駛技術(shù)基石

VLA模型工作原理可以分為三個主要步驟：視覺感知、語言理解與決策生成、動作控制，并由多個關(guān)鍵模塊支撐上述步驟，包括視覺編碼器、語言編碼器、跨模態(tài)融合模塊和動作生成模塊。

視覺編碼器負(fù)責(zé)從圖像或視頻中提取高層次視覺特征，語言編碼器則處理自然語言輸入，跨模態(tài)融合模塊將視覺和語言特征進(jìn)行整合，而動作生成模塊則根據(jù)融合后的信息生成車輛的控制指令。

在視覺感知階段，車輛的攝像頭、雷達(dá)等傳感器就像是VLA模型的“眼睛”，它們持續(xù)收集車輛周圍的視覺信息，包括道路狀況、交通標(biāo)志、其他車輛和行人的位置等。這些原始數(shù)據(jù)被輸入到模型的視覺處理模塊，該模塊利用先進(jìn)的深度學(xué)習(xí)算法，對圖像進(jìn)行特征提取和分析，將復(fù)雜的視覺場景轉(zhuǎn)化為計(jì)算機(jī)能夠理解的特征向量。

例如，它能夠識別出前方的紅色圓形交通信號燈，判斷出旁邊車輛的行駛速度和方向，以及檢測到路邊的行人正在靠近馬路。

語言理解與決策生成階段是VLA模型的“大腦”核心運(yùn)作部分。當(dāng)視覺信息被處理后，模型會結(jié)合語言指令和自身的知識庫進(jìn)行分析和推理。

如果乘客發(fā)出“在前方路口右轉(zhuǎn)”的語音指令，VLA模型會首先理解這個語言信息，然后將其與當(dāng)前的視覺感知信息進(jìn)行融合。

它會分析前方路口的交通狀況，如是否有車輛、行人，信號燈的狀態(tài)等，同時考慮交通規(guī)則和安全因素，運(yùn)用“思維鏈”技術(shù)進(jìn)行類人推理，最終生成合理的駕駛決策。在這個例子中，模型可能會決定在確保安全的情況下，提前減速，打開右轉(zhuǎn)向燈，并在合適的時機(jī)完成右轉(zhuǎn)動作。

動作控制階段則是VLA模型將決策轉(zhuǎn)化為實(shí)際行動的過程。模型生成的駕駛決策，如加速、減速、轉(zhuǎn)向等指令，會被發(fā)送到車輛的執(zhí)行系統(tǒng)，就像是給車輛的各個“器官”下達(dá)操作命令。

執(zhí)行系統(tǒng)根據(jù)這些指令，精確控制車輛的油門、剎車、方向盤等部件，實(shí)現(xiàn)車輛的安全行駛。例如，當(dāng)模型決定減速時，執(zhí)行系統(tǒng)會控制剎車系統(tǒng)，逐漸降低車速；當(dāng)需要轉(zhuǎn)向時，會精確調(diào)整方向盤的角度，確保車輛按照預(yù)定的軌跡行駛。

以在城市復(fù)雜路況下的駕駛場景為例，VLA模型的工作過程更加清晰。當(dāng)車輛行駛在擁擠的市區(qū)街道時，道路上可能同時存在各種車輛、行人、自行車，還有隨時變化的交通信號燈和復(fù)雜的交通標(biāo)志。

VLA模型通過攝像頭和雷達(dá)感知到這些信息后，會快速分析場景。如果遇到前方有行人正在過馬路，同時交通信號燈即將變紅，模型會理解這種復(fù)雜的情況，并根據(jù)語言指令和交通規(guī)則進(jìn)行決策。它可能會決定立即減速停車，等待行人通過馬路并且信號燈變?yōu)榫G燈后，再繼續(xù)行駛。

最重要的是，VLA的推理過程全程可求導(dǎo)，能夠通過車載顯示向用戶解釋駕駛邏輯，增強(qiáng)用戶信任感。

有行業(yè)人士表示，VLA模型對智駕的演進(jìn)意義重大，讓端到端理解世界的能力更強(qiáng)后，在L2輔助駕駛到L4自動駕駛的飛躍中，VLA可能會成為下一代智能輔助駕駛技術(shù)的基石。

但短期內(nèi)，VLA從“能用”到“好用”還面臨兩大難點(diǎn)。一是車端算力不足，比如理想車端雙Orin-X芯片運(yùn)行“端到端+VLM”算力已經(jīng)比較吃緊。而VLA的模型結(jié)構(gòu)更復(fù)雜，參數(shù)也會進(jìn)一步擴(kuò)大，對硬件算力和數(shù)據(jù)閉環(huán)的迭代能力要求就更高。

未來具備更強(qiáng)芯片整合能力和垂直整合能力的企業(yè)，有望在VLA技術(shù)的競爭中占據(jù)先發(fā)優(yōu)勢。目前行業(yè)頭部競爭者如特斯拉、華為、小鵬、理想、Momenta等都在逐漸走向軟硬一體，針對自研模型定制化開發(fā)更匹配的智駕芯片，可以做到最大程度的優(yōu)化。

另一大挑戰(zhàn)是如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度融合。這考驗(yàn)著智駕團(tuán)隊(duì)的模型框架定義能力、模型快速迭代能力。

為了解決上述問題，也正在探索多種技術(shù)路徑。如有通過引入可解釋性模塊或后驗(yàn)可視化工具，對決策過程進(jìn)行透明化；還有利用Diffusion模型對軌跡生成進(jìn)行優(yōu)化，確?？刂浦噶畹钠交耘c穩(wěn)定性。同時，將VLA與傳統(tǒng)規(guī)則引擎或模型預(yù)測控制（MPC）結(jié)合，以混合架構(gòu)提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

隨著大模型技術(shù)、邊緣計(jì)算和車載硬件的持續(xù)進(jìn)步，VLA有望在智能輔助駕駛領(lǐng)域扮演更加核心的角色，其不僅能為城市復(fù)雜道路提供更智能的駕駛方案，還可擴(kuò)展至車隊(duì)協(xié)同、遠(yuǎn)程遙控及人機(jī)交互等多種應(yīng)用場景。

VLA模型引發(fā)的技術(shù)變革正在重塑智能輔助駕駛產(chǎn)業(yè)格局，這場變革的終局或許不是某條技術(shù)路線的完勝，而是催生出分層市場。當(dāng)然，VLA是否能成為智能輔助駕駛的“最終歸宿”目前尚難定論。從CNN到Transformer，再到VLM與VLA，技術(shù)迭代速度令人驚嘆，未來新的突破或許已在醞釀。當(dāng)軟件定義汽車進(jìn)入2.0時代，真正的較量才剛剛開始。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人。

自動駕駛汽車

評論

暫無評論哦，快來評價(jià)一下吧！

下載界面新聞

微信公眾號

從L2到L3，VLA成為智能輔助駕駛“關(guān)鍵跳板”？

真正的較量才剛剛開始。

極智GeeTech · 2025/07/01 17:52

文｜極智GeeTech

當(dāng)AI具備自主意識，也就實(shí)現(xiàn)了從“能干活”到“會做事”的轉(zhuǎn)變。

近日，Gemini家族迎來一個新成員——Gemini Robotics On-Device。這是谷歌DeepMind首個可以直接部署在機(jī)器人上的視覺-語言-動作模型（Vision-Language-Action，VLA）。該模型運(yùn)行時無需依賴數(shù)據(jù)網(wǎng)絡(luò)，可以完全在機(jī)器人設(shè)備本地離線運(yùn)行，并在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力，能理解自然語言指令，并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。

作為機(jī)器智能領(lǐng)域的關(guān)鍵新范式，VLA不僅讓機(jī)器人擁有了將語言意圖、視覺感知與物理動作編織成連續(xù)決策流的能力，也成為當(dāng)下輔助駕駛提升智能化水平的重要技術(shù)之一。

去年以來，谷歌、微軟、Figure AI等海外公司以及銀河通用、智元機(jī)器人、理想汽車、小鵬汽車等國內(nèi)具身智能和車企均發(fā)布了自己的VLA模型，這項(xiàng)技術(shù)成為具身智能和智能輔助駕駛領(lǐng)域的關(guān)鍵性研究之一。

VLM走向VLA

VLA模型最早由DeepMind提出并應(yīng)用在機(jī)器人領(lǐng)域，旨在解決“視覺-語言-動作”三者協(xié)同的智能體控制問題。

2023年7月，谷歌DeepMind推出了全球首個控制機(jī)器人的VLA模型——RT-2。相比傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令，RT-2借助于大語言模型強(qiáng)大的語言理解能力，可以直接和用戶進(jìn)行語言交互，并在接收攝像頭的原始數(shù)據(jù)和語言指令后，直接輸出控制信號，完成各種復(fù)雜的操作和各類任務(wù)。

VLA在機(jī)器人領(lǐng)域的成功，很快也應(yīng)用到了自動駕駛領(lǐng)域。2024年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出了一個基于端到端的自動駕駛多模態(tài)模型——EMMA。

EMMA建立在多模態(tài)大語言模型Gemini之上，將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中，包括規(guī)劃者軌跡、感知目標(biāo)和道路圖元素，通過將所有非傳感器輸入（如導(dǎo)航指令和自車狀態(tài)）和輸出（如軌跡和3D位置）表示為自然語言文本，最大限度地利用了預(yù)訓(xùn)練的大型語言模型中的世界知識。

從技術(shù)路徑看，VLA是繼VLM（視覺-語言模型）之后的進(jìn)化形態(tài)，被視為端到端大模型2.0——多模態(tài)機(jī)器學(xué)習(xí)模型。VLA融合視覺、語言和行動三種能力，將其統(tǒng)一在一個模型里，只輸入到機(jī)器就可執(zhí)行動作的端到端映射，從而賦予模型強(qiáng)大的3D空間理解、邏輯推理和行為生成能力，讓自動駕駛能夠感知、思考和適應(yīng)環(huán)境。

在智能輔助駕駛領(lǐng)域，感知技術(shù)通常由雷達(dá)、激光雷達(dá)、攝像頭等多種傳感器負(fù)責(zé)感知，感知結(jié)果經(jīng)過目標(biāo)檢測、語義分割、軌跡預(yù)測、行為規(guī)劃等一系列模塊處理，最后由控制器下發(fā)方向盤和油門等動作指令。整個流程雖條理清晰，卻存在模塊間誤差累積、規(guī)則設(shè)計(jì)復(fù)雜且難以覆蓋所有極端場景的短板。

VLA模型正是在此背景下應(yīng)運(yùn)而生，它舍棄了中間的手工設(shè)計(jì)算法，直接用統(tǒng)一的神經(jīng)網(wǎng)絡(luò)從多模態(tài)輸入中學(xué)習(xí)最優(yōu)控制策略，借助語言模型理解人類指令并生成可解釋的決策過程，最后將多模態(tài)信息轉(zhuǎn)化為具體的駕駛操作指令，從而簡化了系統(tǒng)架構(gòu)，提高了數(shù)據(jù)利用效率。

智能輔助駕駛關(guān)鍵跳板

今年，汽車行業(yè)的智駕之戰(zhàn)明顯比往年來得更加猛烈。比亞迪的天神之眼、吉利的千里浩瀚、奇瑞的獵鷹智駕，以及廣汽的自動駕駛計(jì)劃，這些主流車企的動向都說明了，如今的車圈已經(jīng)是“得智駕者得天下”的時代了。

自2023年以來，智駕行業(yè)掀起B(yǎng)EV、端到端技術(shù)浪潮后，車企們正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案，基于AI、數(shù)據(jù)驅(qū)動的“端到端”擁有更高能力天花板。

但在端到端模型之外，車企們還輔以了大語言模型、VLM模型等外掛，提供更強(qiáng)大的環(huán)境理解能力，從而提升智駕能力上限。

與此同時，VLA正在成為重要的一環(huán)。VLA模型擁有更高的場景推理能力與泛化能力，對于智能輔助駕駛技術(shù)的演進(jìn)意義重大。從長遠(yuǎn)來看，在從L2級輔助駕駛向L4級自動駕駛的技術(shù)躍遷過程中，VLA有望成為關(guān)鍵跳板。

在提升汽車智能化方面，新勢力車企最為激進(jìn)。在NVIDIA GTC 2025大會上，理想汽車發(fā)布了新一代自動駕駛架構(gòu)——MindVLA。它通過整合空間智能、語言智能和行為智能，賦予自動駕駛系統(tǒng)以3D空間理解能力、邏輯推理能力和行為生成能力，并計(jì)劃于2026年量產(chǎn)應(yīng)用。

在VLA之前，“端到端+VLM”一直是智駕行業(yè)主流技術(shù)方案。因?yàn)轳{駛時需要多模態(tài)的感知交互系統(tǒng)，用戶的視覺、聽覺以及周圍環(huán)境的變化，甚至個人情感的波動，都與駕駛行為密切相關(guān)，所以“端到端+VLM”的技術(shù)架構(gòu)中，端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過程，而VLM則作為輔助系統(tǒng)，提供對復(fù)雜交通場景的理解和語義解析，但兩者相對獨(dú)立。

比如理想“端到端+VLM”雙系統(tǒng)架構(gòu)方案，其基于丹尼爾·卡尼曼（Daniel Kahneman）在《思考，快與慢》中提出的人類兩套思維系統(tǒng)理論，將端到端系統(tǒng)（相當(dāng)于系統(tǒng)1）與VLM模型（相當(dāng)于系統(tǒng)2）融合應(yīng)用于自動駕駛技術(shù)方案中，賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>

其中，系統(tǒng)1即端到端模型，是一種直覺式、快速反應(yīng)的機(jī)制，它直接從傳感器輸入（如攝像頭和激光雷達(dá)數(shù)據(jù)）映射到行駛軌跡輸出，無需中間過程，是One Model一體化的模型。系統(tǒng)2則是由一個22億參數(shù)的VLM視覺語言大模型實(shí)現(xiàn)，它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。

而小鵬汽車將云端模型工廠劃分為四個車間，依次進(jìn)行模型的預(yù)訓(xùn)練、后訓(xùn)練、模型蒸餾以及車端部署。理想則選擇了先進(jìn)行視覺語言基座模型的預(yù)訓(xùn)練，隨后進(jìn)行模型蒸餾，最后通過駕駛場景數(shù)據(jù)進(jìn)行后訓(xùn)練和強(qiáng)化學(xué)習(xí)。兩種不同的技術(shù)路線帶來了不同的訓(xùn)練成本與效率，正是這種差異使得兩家車企在市場上形成了強(qiáng)烈的對比。

雖然“端到端+VLM”大幅提升了智駕水平，但仍有很多問題。比如，端到端和VLM要進(jìn)行聯(lián)合訓(xùn)練比較困難，此外還有對3D空間理解不夠、駕駛知識和內(nèi)存帶寬不足、難以處理人類駕駛的多模態(tài)性等問題。

而VLA通過統(tǒng)一的大模型架構(gòu)，將感知、決策、執(zhí)行無縫串聯(lián)，形成“圖像輸入-語義理解-類人決策-動作輸出”的閉環(huán)，可以同步提高智駕的上限和下限，實(shí)現(xiàn)空間、行為和語言的統(tǒng)一。

在推理方面，VLA模型的能力要遠(yuǎn)高于“端到端+VLM”。VLA整合了VLM的感知能力和端到端模型的決策能力，還引入了“思維鏈”技術(shù)。這使得它具備了全局上下文理解與類人推理能力，能夠在面對復(fù)雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時，像人類駕駛員一樣進(jìn)行思考和判斷。

例如，在推理時長方面，傳統(tǒng)的基于規(guī)則（rule-based）方案只能推理1秒鐘的路況信息并做出決策控制；端到端1.0階段的系統(tǒng)能夠推理未來7秒的路況，而VLA模型則能夠?qū)资氲穆窙r進(jìn)行推理，顯著提升了智能輔助駕駛系統(tǒng)的決策能力和適應(yīng)性。

正因如此，VLA被業(yè)界認(rèn)為是端到端2.0的主要技術(shù)形態(tài)。目前，VLA尚處于發(fā)展階段，除DeepMind的RT-2外，還包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英偉達(dá)NaVILA等。這其中，Waymo的EMMA和Wayve的LINGO-2主要面向的是車載領(lǐng)域，RT-2、OpenVLA和NaVILA則主要面向機(jī)器人領(lǐng)域。

下一代輔助駕駛技術(shù)基石

VLA模型工作原理可以分為三個主要步驟：視覺感知、語言理解與決策生成、動作控制，并由多個關(guān)鍵模塊支撐上述步驟，包括視覺編碼器、語言編碼器、跨模態(tài)融合模塊和動作生成模塊。

視覺編碼器負(fù)責(zé)從圖像或視頻中提取高層次視覺特征，語言編碼器則處理自然語言輸入，跨模態(tài)融合模塊將視覺和語言特征進(jìn)行整合，而動作生成模塊則根據(jù)融合后的信息生成車輛的控制指令。

在視覺感知階段，車輛的攝像頭、雷達(dá)等傳感器就像是VLA模型的“眼睛”，它們持續(xù)收集車輛周圍的視覺信息，包括道路狀況、交通標(biāo)志、其他車輛和行人的位置等。這些原始數(shù)據(jù)被輸入到模型的視覺處理模塊，該模塊利用先進(jìn)的深度學(xué)習(xí)算法，對圖像進(jìn)行特征提取和分析，將復(fù)雜的視覺場景轉(zhuǎn)化為計(jì)算機(jī)能夠理解的特征向量。

例如，它能夠識別出前方的紅色圓形交通信號燈，判斷出旁邊車輛的行駛速度和方向，以及檢測到路邊的行人正在靠近馬路。

語言理解與決策生成階段是VLA模型的“大腦”核心運(yùn)作部分。當(dāng)視覺信息被處理后，模型會結(jié)合語言指令和自身的知識庫進(jìn)行分析和推理。

如果乘客發(fā)出“在前方路口右轉(zhuǎn)”的語音指令，VLA模型會首先理解這個語言信息，然后將其與當(dāng)前的視覺感知信息進(jìn)行融合。

它會分析前方路口的交通狀況，如是否有車輛、行人，信號燈的狀態(tài)等，同時考慮交通規(guī)則和安全因素，運(yùn)用“思維鏈”技術(shù)進(jìn)行類人推理，最終生成合理的駕駛決策。在這個例子中，模型可能會決定在確保安全的情況下，提前減速，打開右轉(zhuǎn)向燈，并在合適的時機(jī)完成右轉(zhuǎn)動作。

動作控制階段則是VLA模型將決策轉(zhuǎn)化為實(shí)際行動的過程。模型生成的駕駛決策，如加速、減速、轉(zhuǎn)向等指令，會被發(fā)送到車輛的執(zhí)行系統(tǒng)，就像是給車輛的各個“器官”下達(dá)操作命令。

執(zhí)行系統(tǒng)根據(jù)這些指令，精確控制車輛的油門、剎車、方向盤等部件，實(shí)現(xiàn)車輛的安全行駛。例如，當(dāng)模型決定減速時，執(zhí)行系統(tǒng)會控制剎車系統(tǒng)，逐漸降低車速；當(dāng)需要轉(zhuǎn)向時，會精確調(diào)整方向盤的角度，確保車輛按照預(yù)定的軌跡行駛。

以在城市復(fù)雜路況下的駕駛場景為例，VLA模型的工作過程更加清晰。當(dāng)車輛行駛在擁擠的市區(qū)街道時，道路上可能同時存在各種車輛、行人、自行車，還有隨時變化的交通信號燈和復(fù)雜的交通標(biāo)志。

VLA模型通過攝像頭和雷達(dá)感知到這些信息后，會快速分析場景。如果遇到前方有行人正在過馬路，同時交通信號燈即將變紅，模型會理解這種復(fù)雜的情況，并根據(jù)語言指令和交通規(guī)則進(jìn)行決策。它可能會決定立即減速停車，等待行人通過馬路并且信號燈變?yōu)榫G燈后，再繼續(xù)行駛。

最重要的是，VLA的推理過程全程可求導(dǎo)，能夠通過車載顯示向用戶解釋駕駛邏輯，增強(qiáng)用戶信任感。

有行業(yè)人士表示，VLA模型對智駕的演進(jìn)意義重大，讓端到端理解世界的能力更強(qiáng)后，在L2輔助駕駛到L4自動駕駛的飛躍中，VLA可能會成為下一代智能輔助駕駛技術(shù)的基石。

但短期內(nèi)，VLA從“能用”到“好用”還面臨兩大難點(diǎn)。一是車端算力不足，比如理想車端雙Orin-X芯片運(yùn)行“端到端+VLM”算力已經(jīng)比較吃緊。而VLA的模型結(jié)構(gòu)更復(fù)雜，參數(shù)也會進(jìn)一步擴(kuò)大，對硬件算力和數(shù)據(jù)閉環(huán)的迭代能力要求就更高。

未來具備更強(qiáng)芯片整合能力和垂直整合能力的企業(yè)，有望在VLA技術(shù)的競爭中占據(jù)先發(fā)優(yōu)勢。目前行業(yè)頭部競爭者如特斯拉、華為、小鵬、理想、Momenta等都在逐漸走向軟硬一體，針對自研模型定制化開發(fā)更匹配的智駕芯片，可以做到最大程度的優(yōu)化。

另一大挑戰(zhàn)是如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度融合。這考驗(yàn)著智駕團(tuán)隊(duì)的模型框架定義能力、模型快速迭代能力。

為了解決上述問題，也正在探索多種技術(shù)路徑。如有通過引入可解釋性模塊或后驗(yàn)可視化工具，對決策過程進(jìn)行透明化；還有利用Diffusion模型對軌跡生成進(jìn)行優(yōu)化，確?？刂浦噶畹钠交耘c穩(wěn)定性。同時，將VLA與傳統(tǒng)規(guī)則引擎或模型預(yù)測控制（MPC）結(jié)合，以混合架構(gòu)提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

隨著大模型技術(shù)、邊緣計(jì)算和車載硬件的持續(xù)進(jìn)步，VLA有望在智能輔助駕駛領(lǐng)域扮演更加核心的角色，其不僅能為城市復(fù)雜道路提供更智能的駕駛方案，還可擴(kuò)展至車隊(duì)協(xié)同、遠(yuǎn)程遙控及人機(jī)交互等多種應(yīng)用場景。

VLA模型引發(fā)的技術(shù)變革正在重塑智能輔助駕駛產(chǎn)業(yè)格局，這場變革的終局或許不是某條技術(shù)路線的完勝，而是催生出分層市場。當(dāng)然，VLA是否能成為智能輔助駕駛的“最終歸宿”目前尚難定論。從CNN到Transformer，再到VLM與VLA，技術(shù)迭代速度令人驚嘆，未來新的突破或許已在醞釀。當(dāng)軟件定義汽車進(jìn)入2.0時代，真正的較量才剛剛開始。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人。

<small id="ukqme"><code id="ukqme"></code></small>

<del id="ukqme"><abbr id="ukqme"></abbr></del>