港中文李鴻升團隊論文 MindVLA-U1：VLA 不再輸給 VA，語言真正進入自動駕駛決策

2026年5月25日 07:49

重點摘要

香港中文大學李鴻升團隊提出 MindVLA-U1 統一視覺語言動作架構，將視覺、語言、車輛狀態與動作生成整合至同一 VLM 模型中，使語言理解直接參與駕駛軌跡規劃。實驗顯示，該模型在 WOD-E2E 自動駕駛 benchmark 上的軌跡品質（RFS）超越人類駕駛參考，且語言側預測的駕駛意圖能有效引導連續動作

站內 AI 整理稿

### 焦點：告別「黑箱」駕駛，語言理解正式進入自動駕駛決策核心

傳統的自動駕駛技術，多半採用「感知、預測、規劃、控制」的模組化流程，近年則逐漸轉向端到端智慧系統。其中，VA（視覺到動作）模型因其能直接從影像生成駕駛軌跡，在規劃精確度與即時反應上表現出色，但問題在於它們宛如「黑箱」，難以解釋「為什麼這樣開」，也無法處理需要語義理解與常識推理的長尾場景，例如狹窄巷弄中突然衝出的行人，或是無保護左轉路口複雜的讓行判斷。

為此，VLA（視覺-語言-動作）架構被視為更接近「會理解、能行動」的終極方案。然而，過去多數VLA模型在引入語言能力後，往往會犧牲規劃精確度、動作連續性與推理速度，陷入「魚與熊掌不可兼得」的困境。由香港中文大學MMLab、理想汽車與清華大學組成的聯合團隊，正是為了解決這項長期存在的產業矛盾，提出了名為《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》的研究。

這項研究並不是一味地擴大模型規模，而是從架構的「接口」重新設計。團隊將視覺、語言指令、車輛狀態、歷史記憶與動作生成，全部統一在同一個視覺語言主幹模型（VLM backbone）中，讓模型在理解道路場景的同時，也能直接輸出連續的駕駛軌跡。這項設計徹底改變了語言在自駕系統中的定位——它不再是事後解說的文字，而是真正參與決策的關鍵變數。

### 核心創新：語言成為「領航員」，透過意圖引導駕駛軌跡

MindVLA-U1的突破點，在於它證明了語言能力不僅不會拖累控制精度，反而能透過「意圖導向條件生成」（Intent-CFG）機制，成為提升軌跡品質的推手。模型會先由語言側預測當前駕駛意圖，如「直行」、「左轉」等，再將此意圖作為條件，引導連續動作軌跡的生成。實驗結果證實，加入意圖預測後的模型，在主要規劃指標（RFS）上明顯提升，證明語言資訊已不再是輔助輸出，而是能實際影響車輛該如何開的「領航員」。

此外，團隊也解決了時間建模上的痛點。他們設計了「流式記憶模組」（Streaming Memory），讓模型不再一次性處理固定的影片片段，而是像真實車輛一樣，以逐幀方式處理連續的影像串流。系統透過先進先出（FIFO）的記憶隊列，保留並對齊過往的場景資訊，讓模型能充分利用時間上下文進行長期規劃。實驗顯示，加入流式記憶後，模型在長時間軌跡預測中的平均位移誤差（ADE）顯著下降，反映出時間感知能力的提升。

### 動態切換：快慢雙軌並行，平衡即時反應與複雜推理

為了滿足真實上路的需求，MindVLA-U1也採用了靈活的「快/慢推理路徑」設計。在簡單、低風險的道路場景中，系統可以切換至「動作優先」（action_only）模式，跳過語言生成的步驟，直接進行軌跡規劃，使其推理速度接近傳統的VA模型。而在複雜、高風險或需要明確說明駕駛意圖的情境下，模型則可保留語言推理能力，先進行深度語義分析，再生成更具安全依據的駕駛軌跡。

這種設計意味著，VLA模型並非注定「又慢又重」。透過單一模型即可在不同運算需求間進行切換，讓車輛能在需要快速反應時保證即時性，在需要深思熟慮時保留邏輯判斷能力，為實際部署提供了務實的解決方案。

### 實證結果：超越人類參考軌跡，展現優異泛化能力

該研究在業界標準的自動駕駛資料集WOD-E2E上

原始來源：雷峰網 ↗

查看原始來源

IT之家自動駕駛

全美首個，伊利諾伊州擬禁止司機開車時佩戴智能眼鏡

這篇消息聚焦「全美首個，伊利諾伊州擬禁止司機開車時佩戴智能眼鏡」。原始導語提到：該法案已通過議會，等待州長簽署，生效後將成全美首個禁開車戴智能眼鏡的地區，首次違規罰約 508 元。#智能眼鏡行車禁令# 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前閱讀分析

AIBase自動駕駛

曹操出行全面啟動香港Robotaxi業務，發佈全新“RoboX”戰略與“Eva Cab”車型

曹操出行在香港車博會上宣佈啟動香港自動駕駛出租車業務，發佈RoboX戰略，宣告向AI全面轉型，致力打造全球領先物理人工智能移動科技平臺。香港作為首個標杆城市，探索國際化智能運力體系。活動展出中國首款原生自動駕駛出租車車型Eva Cab，標誌RoboX戰略正式落地。

1 天前7800閱讀分析

IT之家自動駕駛

Stellantis、Wayve、Uber 三方攜手，全球範圍推動 L4 Robotaxi 開發部署

這篇消息聚焦「Stellantis、Wayve、Uber 三方攜手，全球範圍推動 L4 Robotaxi 開發部署」。原始導語提到：### 三方聯手：Stellantis、Wayve、Uber 共推 L4 自駕計程車布局全球汽車產業正加速朝向自動駕駛商業化邁進，近日一項備受矚目的合作案浮上檯面：汽車製造巨頭 Stellantis、英國自動駕駛技術新創 Wayve，以及出行平台龍頭 Uber 宣布聯手，將在全球範圍內推動 L4 等級的機器人計程車（Robotaxi）開發與部署。這項合作不僅整合了車輛硬體、AI 軟體與營運網路，更被視為自動駕駛落地的重要里程碑。 ### 重點整理：三方分工明確，補足各自短板從合作架構來看，三方的角色相當互補。Stellantis 作為全球第四大汽車集團，旗下擁有眾多品牌與紮實的製造能力，將負責提供車輛平台以及感測器整合的硬體方案。Wayve 則是一家專注於端到端深度學習的 AI 公司，其自動駕駛軟體不需要傳統的高精地圖與規則式程式碼，而是透過大量數據訓練車輛學會駕駛行為。Uber 則貢獻其全球龐大的出行網路與營運經驗，未來這些機器人計程車將直接接入 Uber 平台，讓使用者可以像叫一般車一樣叫到自駕車。 ### 背景脈絡：為何是現在？從技術、資金到市場皆趨成熟自動駕駛產業過去幾年經歷了多次起伏，從最初的狂熱投資到後來的現實檢驗。Wayve 之所以能脫穎而出，在於它採用了類似大型語言模型的「端到端」學習方式，不需要先寫好每個交通場景的規則，而是讓神經網路從大量駕駛數據中自主學習。這種做法在近年隨著運算能力提升與數據量暴增而越來越可行，也降低了對昂貴感測器與高精地圖的依賴。Stellantis 方面，該集團正積極轉向電動化與智慧化，過往在自動駕駛上較為低調，此次透過結盟快速補足技術缺口。而 Uber 過去曾自行投入大量資源開發自駕車，但後來出售自駕部門，轉而採取平台合作策略，與多家自駕技術商簽約，這次與 Wayve 的合作正是此策略的延伸。 ### 可能影響一：加速 L4 商業化落地，改變汽車製造商與科技公司合作模式過去汽車製造商往往傾向自研自動駕駛系統，但隨著技術難度與資金門檻提高，越來越多的車廠選擇與專業 AI 公司結盟。Stellantis 此次選擇 Wayve，顯示車廠的優先級已不再是獨佔技術，而是快速量產與規模化。Wayve 的 AI 系統若能順利在 Stellantis 的車型上運行，將大幅縮短從實驗室到真實道路的週期。另一方面，Uber 的全球網路能提供即時的需求數據與回饋，形成「數據—訓練—部署」的正向循環。這套模式若成功，可能成為未來自動駕駛產業的主流標準：車廠負責硬體、AI 公司負責軟體、平台負責營運，三方各取所需。 ### 可能影響二：對出行市場與法規的潛在衝擊對消費者而言，Uber 平台上若出現可叫的 L4 級別機器人計程車，意味著在部分城市與特定區域內，將能體驗到完全無人的乘車服務。這不僅可能降低營運成本，也可能改變目前的計程車與叫車產業的競爭格局。然而，自動駕駛的安全驗證、數據隱私、事故責任歸屬等議題仍待各國法規明確。Uber 在全球多個地區皆有營運，未來這些機器人計程車在不同市場的落地進度，勢必會與當地監管機構的態度高度相關。 ### 讀者可關注的後續焦點接下來值得觀察的重點有三個方向。首先是 **技術驗證進度**：Wayve 的端到端系統能否在實際量產車上展現足夠的安全性與可靠性，特別是在台灣常見的複雜交通環境（如機車混流、違規駕駛等）中是否仍能應對，會是技術可信度的從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

量子位自動駕駛

六連冠！文遠知行再度刷新中國智駕大賽連勝紀錄

### 六連冠！文遠知行再度刷新中國智駕大賽連勝紀錄在中國智慧駕駛領域的競賽中，文遠知行（WeRide）再次展示其技術實力，成功拿下第六座冠軍獎盃，締造史無前例的「六連冠」紀錄。這項成績不僅刷新了中國自動駕駛賽事的連勝紀錄，也凸顯該公司在算法、感測器融合與系統整合上的長期累積。儘管具體賽事名稱與評分細節未對外公開，但從業界反饋來看，此舉已讓文遠知行站穩國內自動駕駛的第一梯隊。

1 天前閱讀分析