港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策
重點摘要
香港中文大學李鴻升團隊提出 MindVLA-U1 統一視覺語言動作架構,將視覺、語言、車輛狀態與動作生成整合至同一 VLM 模型中,使語言理解直接參與駕駛軌跡規劃。實驗顯示,該模型在 WOD-E2E 自動駕駛 benchmark 上的軌跡品質(RFS)超越人類駕駛參考,且語言側預測的駕駛意圖能有效引導連續動作
### 焦點:告別「黑箱」駕駛,語言理解正式進入自動駕駛決策核心
傳統的自動駕駛技術,多半採用「感知、預測、規劃、控制」的模組化流程,近年則逐漸轉向端到端智慧系統。其中,VA(視覺到動作)模型因其能直接從影像生成駕駛軌跡,在規劃精確度與即時反應上表現出色,但問題在於它們宛如「黑箱」,難以解釋「為什麼這樣開」,也無法處理需要語義理解與常識推理的長尾場景,例如狹窄巷弄中突然衝出的行人,或是無保護左轉路口複雜的讓行判斷。
為此,VLA(視覺-語言-動作)架構被視為更接近「會理解、能行動」的終極方案。然而,過去多數VLA模型在引入語言能力後,往往會犧牲規劃精確度、動作連續性與推理速度,陷入「魚與熊掌不可兼得」的困境。由香港中文大學MMLab、理想汽車與清華大學組成的聯合團隊,正是為了解決這項長期存在的產業矛盾,提出了名為《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》的研究。
這項研究並不是一味地擴大模型規模,而是從架構的「接口」重新設計。團隊將視覺、語言指令、車輛狀態、歷史記憶與動作生成,全部統一在同一個視覺語言主幹模型(VLM backbone)中,讓模型在理解道路場景的同時,也能直接輸出連續的駕駛軌跡。這項設計徹底改變了語言在自駕系統中的定位——它不再是事後解說的文字,而是真正參與決策的關鍵變數。
### 核心創新:語言成為「領航員」,透過意圖引導駕駛軌跡
MindVLA-U1的突破點,在於它證明了語言能力不僅不會拖累控制精度,反而能透過「意圖導向條件生成」(Intent-CFG)機制,成為提升軌跡品質的推手。模型會先由語言側預測當前駕駛意圖,如「直行」、「左轉」等,再將此意圖作為條件,引導連續動作軌跡的生成。實驗結果證實,加入意圖預測後的模型,在主要規劃指標(RFS)上明顯提升,證明語言資訊已不再是輔助輸出,而是能實際影響車輛該如何開的「領航員」。
此外,團隊也解決了時間建模上的痛點。他們設計了「流式記憶模組」(Streaming Memory),讓模型不再一次性處理固定的影片片段,而是像真實車輛一樣,以逐幀方式處理連續的影像串流。系統透過先進先出(FIFO)的記憶隊列,保留並對齊過往的場景資訊,讓模型能充分利用時間上下文進行長期規劃。實驗顯示,加入流式記憶後,模型在長時間軌跡預測中的平均位移誤差(ADE)顯著下降,反映出時間感知能力的提升。
### 動態切換:快慢雙軌並行,平衡即時反應與複雜推理
為了滿足真實上路的需求,MindVLA-U1也採用了靈活的「快/慢推理路徑」設計。在簡單、低風險的道路場景中,系統可以切換至「動作優先」(action_only)模式,跳過語言生成的步驟,直接進行軌跡規劃,使其推理速度接近傳統的VA模型。而在複雜、高風險或需要明確說明駕駛意圖的情境下,模型則可保留語言推理能力,先進行深度語義分析,再生成更具安全依據的駕駛軌跡。
這種設計意味著,VLA模型並非注定「又慢又重」。透過單一模型即可在不同運算需求間進行切換,讓車輛能在需要快速反應時保證即時性,在需要深思熟慮時保留邏輯判斷能力,為實際部署提供了務實的解決方案。
### 實證結果:超越人類參考軌跡,展現優異泛化能力
該研究在業界標準的自動駕駛資料集WOD-E2E上
Related
相關文章

全美首個,伊利諾伊州擬禁止司機開車時佩戴智能眼鏡
這篇消息聚焦「全美首個,伊利諾伊州擬禁止司機開車時佩戴智能眼鏡」。原始導語提到:該法案已通過議會,等待州長簽署,生效後將成全美首個禁開車戴智能眼鏡的地區,首次違規罰約 508 元。#智能眼鏡行車禁令# 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
曹操出行全面啟動香港Robotaxi業務,發佈全新“RoboX”戰略與“Eva Cab”車型
曹操出行在香港車博會上宣佈啟動香港自動駕駛出租車業務,發佈RoboX戰略,宣告向AI全面轉型,致力打造全球領先物理人工智能移動科技平臺。香港作為首個標杆城市,探索國際化智能運力體系。活動展出中國首款原生自動駕駛出租車車型Eva Cab,標誌RoboX戰略正式落地。

Stellantis、Wayve、Uber 三方攜手,全球範圍推動 L4 Robotaxi 開發部署
這篇消息聚焦「Stellantis、Wayve、Uber 三方攜手,全球範圍推動 L4 Robotaxi 開發部署」。原始導語提到:### 三方聯手:Stellantis、Wayve、Uber 共推 L4 自駕計程車布局 全球汽車產業正加速朝向自動駕駛商業化邁進,近日一項備受矚目的合作案浮上檯面:汽車製造巨頭 Stellantis、英國自動駕駛技術新創 Wayve,以及出行平台龍頭 Uber 宣布聯手,將在全球範圍內推動 L4 等級的機器人計程車(Robotaxi)開發與部署。這項合作不僅整合了車輛硬體、AI 軟體與營運網路,更被視為自動駕駛落地的重要里程碑。 ### 重點整理:三方分工明確,補足各自短板 從合作架構來看,三方的角色相當互補。Stellantis 作為全球第四大汽車集團,旗下擁有眾多品牌與紮實的製造能力,將負責提供車輛平台以及感測器整合的硬體方案。Wayve 則是一家專注於端到端深度學習的 AI 公司,其自動駕駛軟體不需要傳統的高精地圖與規則式程式碼,而是透過大量數據訓練車輛學會駕駛行為。Uber 則貢獻其全球龐大的出行網路與營運經驗,未來這些機器人計程車將直接接入 Uber 平台,讓使用者可以像叫一般車一樣叫到自駕車。 ### 背景脈絡:為何是現在?從技術、資金到市場皆趨成熟 自動駕駛產業過去幾年經歷了多次起伏,從最初的狂熱投資到後來的現實檢驗。Wayve 之所以能脫穎而出,在於它採用了類似大型語言模型的「端到端」學習方式,不需要先寫好每個交通場景的規則,而是讓神經網路從大量駕駛數據中自主學習。這種做法在近年隨著運算能力提升與數據量暴增而越來越可行,也降低了對昂貴感測器與高精地圖的依賴。Stellantis 方面,該集團正積極轉向電動化與智慧化,過往在自動駕駛上較為低調,此次透過結盟快速補足技術缺口。而 Uber 過去曾自行投入大量資源開發自駕車,但後來出售自駕部門,轉而採取平台合作策略,與多家自駕技術商簽約,這次與 Wayve 的合作正是此策略的延伸。 ### 可能影響一:加速 L4 商業化落地,改變汽車製造商與科技公司合作模式 過去汽車製造商往往傾向自研自動駕駛系統,但隨著技術難度與資金門檻提高,越來越多的車廠選擇與專業 AI 公司結盟。Stellantis 此次選擇 Wayve,顯示車廠的優先級已不再是獨佔技術,而是快速量產與規模化。Wayve 的 AI 系統若能順利在 Stellantis 的車型上運行,將大幅縮短從實驗室到真實道路的週期。另一方面,Uber 的全球網路能提供即時的需求數據與回饋,形成「數據—訓練—部署」的正向循環。這套模式若成功,可能成為未來自動駕駛產業的主流標準:車廠負責硬體、AI 公司負責軟體、平台負責營運,三方各取所需。 ### 可能影響二:對出行市場與法規的潛在衝擊 對消費者而言,Uber 平台上若出現可叫的 L4 級別機器人計程車,意味著在部分城市與特定區域內,將能體驗到完全無人的乘車服務。這不僅可能降低營運成本,也可能改變目前的計程車與叫車產業的競爭格局。然而,自動駕駛的安全驗證、數據隱私、事故責任歸屬等議題仍待各國法規明確。Uber 在全球多個地區皆有營運,未來這些機器人計程車在不同市場的落地進度,勢必會與當地監管機構的態度高度相關。 ### 讀者可關注的後續焦點 接下來值得觀察的重點有三個方向。首先是 **技術驗證進度**:Wayve 的端到端系統能否在實際量產車上展現足夠的安全性與可靠性,特別是在台灣常見的複雜交通環境(如機車混流、違規駕駛等)中是否仍能應對,會是技術可信度的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

六連冠!文遠知行再度刷新中國智駕大賽連勝紀錄
### 六連冠!文遠知行再度刷新中國智駕大賽連勝紀錄 在中國智慧駕駛領域的競賽中,文遠知行(WeRide)再次展示其技術實力,成功拿下第六座冠軍獎盃,締造史無前例的「六連冠」紀錄。這項成績不僅刷新了中國自動駕駛賽事的連勝紀錄,也凸顯該公司在算法、感測器融合與系統整合上的長期累積。儘管具體賽事名稱與評分細節未對外公開,但從業界反饋來看,此舉已讓文遠知行站穩國內自動駕駛的第一梯隊。

電動車、職業司機、AI 計算機、生活助手合為一體,理想 CEO 李想定義“四位一體”具身智能汽車
理想汽車 CEO 李想在發佈會上提出,真正的具身智能汽車應是電動汽車、職業司機、AI 計算機、生活助手“四位一體”。他認為傳統智能汽車仍是“功能驅動”,與具身智能在安全、能力、效率上存在本質區別。 #具身智能# #理想汽車#

理想汽車宣佈下半年馬赫 VLA 能力持續進化,第四季度對齊特斯拉 FSD V14 能力
在今天的 Livis Day 理想汽車軟件與具身智能發佈會上,理想官方宣佈,下半年馬赫 VLA 能力持續進化:第三季度 ADS Max 推送全新馬赫 VLA;第四季度對齊特斯拉 FSD V14 的能力。#理想汽車# #理想 VLA#