ICRA 2026 收錄成果：Agentic Fast-Slow Planning打通大模型推理與實時控制，讓具身智能更穩、更快

2026年6月2日 02:38

重點摘要

站內 AI 整理稿

原文作者：公眾號“深圳市大數據研究院”原文鏈接：https://mp.weixin.qq.com/s/j3Ph76mVsyunjALjcCp0Sg編者按：隨著大語言模型與視覺語言模型逐步展現出強大的理解、推理與任務規劃能力，如何在保證實時性、可驗證性與工程可部署性的前提下，將高層語義決策穩定地傳遞到規劃與控制層，成為具身智能系統邁向真實落地的一項關鍵挑戰。針對這一問題，深圳市大數據研究院、香港中文大學（深圳）、中國科學院深圳先進技術研究院、澳門大學研究團隊在論文“Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning”提出了 Agentic Fast-Slow Planning（AFSP）分層框架，聚焦大模型推理與自動駕駛實時控制之間的“橋接”問題。該框架核心思路是“快慢結合”：AFSP將感知、推理、規劃與控制按時間尺度解耦——大模型負責慢速、高層的語義理解與決策，經典規劃器負責可解釋的長程軌跡生成，MPC控制器負責快速閉環跟蹤與安全執行。實驗數據驗證了這條路的效果：在CARLA仿真場景中，AFSP相比純MPC和A*引導的MPC基線，展現出更強的魯棒性與效率——最大橫向偏差最高降低約45%，任務完成時間縮短超過12%。這意味著，AFSP不僅在技術上打通了“大模型推理→實時控制”的關鍵路徑，也在實際駕駛任務中同時做到了更穩、更快、更安全。該論文現已被 ICRA 2026接收，作者為陳嘉易、王帥、朱光旭、須成忠。論文鏈接：https://arxiv.org/abs/2604.01681Github 鏈接：https://github.com/cjychenjiayi/icra2026_AFSP圖1：Agentic Fast-Slow Planning 概念層級圖。大模型負責慢速語義決策，A* 負責中層路徑規劃，MPC 負責快速閉環控制。研究背景近年來，大模型正逐步從“感知工具”演變為自主系統中的“推理引擎”。在自動駕駛中，它們有望承擔複雜場景理解、風險判斷與任務決策等高層認知工作。然而，一旦繼續向下延伸到軌跡規劃和底層控制，就會立即遇到一個核心矛盾：大模型能力強，但時延高、輸出形式偏語言；控制與優化模塊則需要低延遲、可驗證、可部署。已有研究主要沿著兩條路線推進：一類嘗試讓大模型直接輸出軌跡或控制參數，雖然形式上“端到端”，但往往脆弱、難驗證，也難以滿足實時閉環的工程約束；另一類則讓大模型在線調整 MPC 目標或參數，在一定程度上緩解了運行問題，卻將慢速推理與快速控制混在一起，仍然沒有真正回答“高層語義如何穩定影響中層規劃”的問題。也正因如此，“快慢思考”框架的價值不僅在於把大模型從實時環路中解放出來，更在於建立一套跨層橋接邏輯：讓慢速的大模型負責理解和決策，讓快速的經典模塊負責執行，並通過清晰、可解釋的接口把兩者連接起來。AFSP 正是在這一思路下提出的。核心方法圖2：AFSP 系統架構圖。系統通過 Perception2Decision 與 Decision2Trajectory 兩座橋，將拓撲感知、語義決策、路徑生成與實時控制連接起來。Perception2Decision：只保留與交通決策最相關的信息如果直接把原始圖像送入大模型，不僅計算開銷高、帶寬成本大，而且圖像中還包含大量與駕駛決策無關的細節。為此，AFSP 採用一種更加 task-oriented 的表示方式：先在端側使用輕量化 VLM 提取交通場景中的拓撲圖，僅保留車輛、障礙物、距離、方位、相對關係等與決策最相關的結構信息；再將這一緊湊的拓撲表示送往雲端，由 LLM 輸出符號化駕駛決策，例如 LEFT、RIGHT、KEEP 以及相應駕駛風格。這種做法的關鍵並不只是“壓縮數據”，而是把視覺輸入轉換為更貼近交通決策邏輯的中間表示。它讓大模型的推理聚焦於真正相關的結構關係，減少冗餘視覺細節干擾，也為下游規劃層提供了清晰、可解釋的語義接口。圖3：Perception2Decision 示例。端側 VLM 從圖像中提取拓撲關係，雲端 LLM 在此基礎上輸出結構化駕駛決策與駕駛風格。圖4：VLM 微調數據格式與兩階段訓練策略。模型學習將前視圖像轉換為包含類別、位置、距離、方向的結構化拓撲描述。Decision2Trajectory：讓擅長輸出語言的大模型穩定影響長程軌跡大模型天然擅長輸出語言，但並不擅長直接給出長程、可執行、可驗證的軌跡。相較之下，VLA 或 VLN 類方法雖然能夠輸出參考軌跡，但本質上仍然是在學習“軌跡本身”，在長程一致性、可解釋性與工程穩定性方面仍存在挑戰。AFSP 的思路不是要求 LLM 直接生成完整軌跡，而是隻保留其中真正有價值的“交通決策邏輯”，再將這些邏輯翻譯為對經典規劃算法有意義的啟發式代價。具體來說，AFSP 將 LLM 輸出的語義決策注入 A* 規劃器，以軟約束（soft semantic cost）的方式影響搜索過程。這樣做有兩個好處：一方面，可以讓生成軌跡朝著符合語義意圖的方向偏置；另一方面，又避免把語言決策當作硬約束，從而保留經典搜索在幾何可行性與魯棒性上的優勢。換句話說，系統不是讓大模型“替代”傳統規劃，而是讓大模型以一種可落地、可解釋的方式“指導”傳統規劃。圖5：Semantic-Guided A* 的語義代價設計與調參觀察。左側展示 Correct / Delay / Wrong / Overact 四類語義代價，右側展示不同超參數對軌跡行為的影響。Agentic Refinement：把“人工調參”變成“智能調參”僅有語義引導還不夠，經典規劃算法在實際使用中往往還依賴大量經驗性超參數。研究團隊觀察到，不同超參數會顯著影響路徑生成的行為：有的會導致動作過早發生，有的會造成語義不匹配，還有的會引入不必要的振盪。這意味著，即便橋接邏輯設計得再好，如果仍然依賴人工反覆調參，系統的可遷移性與可部署性也會受到限制。為此，AFSP 進一步引入 Agentic Refinement Module。該模塊藉助大模型的推理能力，把“觀察反饋—分析問題—調整參數—再次嘗試”的人工調參流程自動化：系統會從雲端記憶中檢索相似場景的初始參數配置，再根據當前軌跡反饋迭代優化超參數，直到獲得更合適的規劃結果。由此，AFSP 不僅讓大模型參與高層決策，也讓其參與規劃器的自適應優化。圖6：Agentic Refinement 自動調參案例。系統從初始參數出發，觀察動作發生過早等問題，並逐步降低 C_DELAY，使語義動作與障礙物邊界更好對齊。實驗驗證拓撲輸入能降低時延，同時保留決策質量在 Perception2Decision 部分，團隊首先驗證拓撲表示是否足以支撐大模型決策。實驗結果表明，在相同提示詞下，基於拓撲圖輸入的 LLM 能夠獲得與 VLM 直接決策相近的結果，同時顯著降低推理時間：場景決策匹配得分平均達到 0.73，而平均推理時延從 VLM 方案的 10.24 秒降低到 4.13 秒。表1：VLM 微調策略對比。兩階段微調在類別錯誤率、距離/方向誤差等指標上取得較好平衡。圖7：LLM 與 VLM 決策的一致性得分分佈及推理時延分佈。拓撲圖輸入在保持較好決策質量的同時顯著降低推理時間語義引導 A* 提升長程意圖一致性在 Decision2Trajectory 部分，團隊考察了地圖偏移與障礙物擾動條件下的路徑生成行為。結果顯示，普通 A* 在環境發生輕微變化時，容易偏離預期決策語義；而引入語義引導後，規劃結果在 Shift 1、Shift 2、Shift 3 等不同設定下仍能較好保持 left / keep / right 等高層交通意圖，體現出更強的長程一致性與魯棒性。這也從另一個側面驗證了 AFSP 的橋接邏輯：大模型不必直接生成長程軌跡，只要把高層決策穩定地翻譯為中層規劃中的代價偏置，就可以讓經典搜索自然地生成更符合語義意圖的路徑。圖8：Semantic-Guided A* 在不同地圖擾動下的路徑生成結果。相比普通 A*，語義引導路徑更能保持指定駕駛意圖。Guide1 = [right, keep, left], Guide2 = [left, keep, right], Guide3 = [left, left].CARLA 閉環驗證：更快、更穩、更可解釋圖9：CARLA 實驗場景示意。車輛需要在包含多類障礙物的道路環境中完成從起點到終點的導航。在完整系統層面，研究團隊將 AFSP 與純 MPC 以及 A* + MPC 兩個基線進行比較。實驗分別在正常地圖和多種擾動地圖下重複開展，評價指標包括完成時間、軌跡長度、平均橫向偏差、速度波動和最大橫向偏差。結果顯示，AFSP 在三種場景下均取得了更優或更穩健的表現：平均完成時間相比純 MPC 縮短約 12%，相比 A* 縮短約 11%；最大橫向偏差相比純 MPC 下降約 45%，相比 A* 下降約 35%。圖10：Scenario 2 中 A* 與 AFSP 的軌跡細節對比。AFSP 在擾動地圖下仍能保持更穩健的路徑行為。這表明，AFSP 不只是“想法新”，更重要的是它在不犧牲傳統優化方法穩定性與可部署性的前提下，真正把大模型的認知與推理能力系統性地融入了自主系統決策閉環。圖11：三種規劃與控制方案在 Scenario 1 中的表現對比。AFSP 能生成更平滑、更符合動態可行性的軌跡。圖12：完成時間與最大橫向偏差對比。AFSP 在三個場景中均表現出更短完成時間和更低最大橫向偏差。表2：CARLA 閉環實驗量化對比。指標包括完成時間、軌跡長度、平均橫向偏差、速度變化和最大橫向偏差。總結與展望整體來看，AFSP試圖回答的並非“大模型能否指導具身智能實時控制”，而是“能否以工程可落地、系統可解釋的方式，使其真正具備這一能力”。相比直接讓大模型接管底層控制，AFSP 選擇了一條更穩健的技術路線：把大模型放在其最擅長的認知與推理層，把經典算法放在其最擅長的規劃與控制層，再通過清晰的接口完成跨層橋接。從這個意義上說，AFSP 不僅是一種具體方法，也代表了一種面向真實自主系統的設計範式：先做結構化抽象，再做語義決策；先保留高層邏輯，再翻譯為中層規劃偏置；在此基礎上結合反饋閉環，實現持續自適應優化。未來，這一方向有望進一步推動大模型從“會說、會看”走向“能落地、可部署、可驗證”的真實自主系統應用。研究團隊陳嘉易第一作者香港中文大學（深圳）-深圳市大數據研究院聯培博士生2024年本科畢業於北京郵電大學，現為香港中文大學（深圳）-深圳市大數據研究院聯合培養博士生。研究方向為具身智能，聚焦快慢思考架構下的大模型與底層控制算法協同系統設計。朱光旭指導導師深圳市大數據研究院網絡與機器智能研究中心，研究員朱光旭，國家級青年人才，深圳市大數據研究院，網絡與機器智能研究中心常務副主任、研究員，香港中文大學（深圳）客座副教授、博士生導師。主要研究興趣包括：分佈式機器學習，多模態感知，網絡智能，具身智能等。現任IEEE TMC 與 TWC 等計算與通信領域國際頂級期刊編委，IEEE 通信學會青年專業委員會副主席，曾獲IEEE通信學會亞太區最傑出青年學者獎（年度亞太區唯一）以及最佳論文獎、中國通信學會自然科學一等獎、吳文俊人工智能青年科技獎，浙江省自然科學二等獎，中國電子學會自然科學二等獎等榮譽，主持包括國自然青年科學基金（B類）及面青項目、國家重點研發計劃子課題、廣東省基礎研究重大項目課題、廣東省青年拔尖人才等國家級省部級項目課題、以及華為，中移動、中國信通院等產研合作課題十餘項。雷峰網

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析