ICRA 2026 | 深度強化學習團隊工作速覽
重點摘要
原文作者:公眾號“深度強化學習 CASIA”原文鏈接:https://mp.weixin.qq.com/s/amDj0sH1O1fr1OalrJr9Qw01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving作者:Yupeng Zheng,Pengxuan Yang,Zhongpu Xia,Qichao Zhang,Yuhang Zheng,Bu Jin,Teng Zhang,Ben Lu,Chao Han,Xianpeng Lang,Xiangyuan Lan,Dongbin Zhao端到端自動駕駛因其強大的可擴展性,正在成為自動駕駛領域的重要發展方向。然而,現有方法始終受限於真實駕駛數據規模不足,導致人們對端到端自動駕駛“數據 scaling law(規模規律)”的理解仍然十分有限。為深入探索這一問題,我們構建了大規模真實駕駛數據集,並系統研究了模仿學習範式下端到端自動駕駛模型的數據規模規律。該工作累計採集了覆蓋23類駕駛場景的約400萬條駕駛演示數據,總時長超過3萬小時,是目前少有的大規模系統性研究之一。同時,我們在1400段複雜駕駛任務中進行了嚴格評測,包括開放環(open-loop)與閉環仿真(closed-loop)兩類測試,全面分析數據規模、數據分佈與模型性能之間的關係。實驗結果揭示了多個重要發現:首先,模型性能與數據量之間在開放環評測中呈現明顯的冪律(power-law)關係,但這一規律在更貼近真實駕駛的閉環評測中並不成立。這意味著,僅僅擴大數據規模並不足以解決自動駕駛問題,數據分佈質量與場景覆蓋度同樣至關重要。其次,少量長尾場景數據的增加,就能夠顯著提升模型在對應複雜場景中的表現。更進一步,合理的數據擴展策略還能使模型具備對新場景與新動作組合的泛化能力,
原文作者:公眾號“深度強化學習 CASIA”原文鏈接:https://mp.weixin.qq.com/s/amDj0sH1O1fr1OalrJr9Qw01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving作者:Yupeng Zheng,Pengxuan Yang,Zhongpu Xia,Qichao Zhang,Yuhang Zheng,Bu Jin,Teng Zhang,Ben Lu,Chao Han,Xianpeng Lang,Xiangyuan Lan,Dongbin Zhao端到端自動駕駛因其強大的可擴展性,正在成為自動駕駛領域的重要發展方向。然而,現有方法始終受限於真實駕駛數據規模不足,導致人們對端到端自動駕駛“數據 scaling law(規模規律)”的理解仍然十分有限。為深入探索這一問題,我們構建了大規模真實駕駛數據集,並系統研究了模仿學習範式下端到端自動駕駛模型的數據規模規律。該工作累計採集了覆蓋23類駕駛場景的約400萬條駕駛演示數據,總時長超過3萬小時,是目前少有的大規模系統性研究之一。同時,我們在1400段複雜駕駛任務中進行了嚴格評測,包括開放環(open-loop)與閉環仿真(closed-loop)兩類測試,全面分析數據規模、數據分佈與模型性能之間的關係。實驗結果揭示了多個重要發現:首先,模型性能與數據量之間在開放環評測中呈現明顯的冪律(power-law)關係,但這一規律在更貼近真實駕駛的閉環評測中並不成立。這意味著,僅僅擴大數據規模並不足以解決自動駕駛問題,數據分佈質量與場景覆蓋度同樣至關重要。其次,少量長尾場景數據的增加,就能夠顯著提升模型在對應複雜場景中的表現。更進一步,合理的數據擴展策略還能使模型具備對新場景與新動作組合的泛化能力,實現真正意義上的組合泛化(compositional generalization)。該研究首次系統揭示了端到端自動駕駛中的數據 scaling law,為未來構建更安全、更泛化、更可靠的自動駕駛系統提供了重要參考,也進一步說明:自動駕駛的核心競爭力,正在從“模型設計”逐步轉向“高質量數據與場景覆蓋能力”。02. ConsistencyPlanner: Real-time Planning with Fast-Sampling Consistency Models作者:Qichao Zhang,Xing Fang,Jiaqi Fang,Zhenwen Cai,Jie Ling,Qiankun Yu,Dongbin Zhao在複雜真實交通環境中,實現安全、高效的閉環規劃,一直是自動駕駛系統面臨的核心挑戰。傳統基於規則的方法雖然具備較強可解釋性,但依賴人工設計的啟發式規則,難以適應動態、多變的真實交通場景;而近年來快速發展的學習式方法,雖然具備更強的數據驅動能力,卻往往難以兼顧“多樣化駕駛行為建模”與“實時規劃效率”,容易出現猶豫、不穩定甚至危險的決策行為。針對這一問題,我們提出了全新的實時自動駕駛規劃框架 ConsistencyPlanner。該方法基於近年來興起的 Consistency Model,實現了兼具多模態行為生成能力與實時性的閉環規劃,為複雜動態交通場景下的自動駕駛提供了新的解決方案。ConsistencyPlanner包含兩項關鍵創新。首先,我們提出了基於快速採樣一致性模型(fast-sampling consistency model)的多模態軌跡生成機制,能夠在極短時間內高效生成多種合理未來軌跡,實現對複雜駕駛行為的實時探索,突破了傳統生成式規劃方法需要多步迭代採樣、推理速度慢的問題。其次,我們設計了注意力增強的異構特徵融合解碼器,將場景特徵(scene feature)與動作 token 等不同類型輸入進行動態融合,從而提升系統對複雜環境的理解與規劃魯棒性。在Waymax仿真平臺上的大量實驗表明,ConsistencyPlanner在安全性指標上顯著優於現有方法,尤其在複雜動態場景中展現出更穩定、更安全的規劃能力。該工作展示了生成式模型在自動駕駛實時規劃中的巨大潛力,也為下一代兼具實時性與多樣性決策能力的自動駕駛系統提供了新的研究方向。03. TakeAD: Preference-Based Post-Optimization for End-to-End Autonomous Driving With Expert Takeover Data(RA-L)作者:Deqing Liu,Yinfeng Gao,Deheng Qian,Qichao Zhang,Xiaoqing Ye,Junyu Han,Yupeng Zheng,Xueyi Liu,Zhongpu Xia,Dawei Ding,Yifeng Pan,Dongbin Zhao當前主流的端到端自動駕駛方法大多基於模仿學習(Imitation Learning, IL),但始終面臨一個關鍵難題:訓練階段採用開放環(open-loop)學習,而真實部署時卻需要在閉環(closed-loop)環境中連續決策。這種訓練與部署之間的不一致,往往會導致系統在複雜場景下出現失誤,進而觸發人工接管(takeover)甚至系統退出(disengagement)。然而,這些真實接管場景中蘊含的大量專家糾正行為,實際上是極具價值的數據資源。如何有效利用這些“系統失敗後的專家干預數據”,進一步提升自動駕駛策略能力,仍然是一個尚未被充分探索的重要問題。針對這一挑戰,我們提出了全新的偏好驅動後優化框架 TakeAD。該方法能夠利用自動駕駛系統中的接管數據,對已有模仿學習策略進行後訓練優化,從而顯著提升閉環駕駛性能。TakeAD首先設計了一套高效的專家接管數據採集流程,模擬真實自動駕駛系統中的人類接管機制,自動收集系統失效狀態下的專家糾正行為。在此基礎上,框架進一步結合了兩種關鍵學習機制:一方面,通過迭代式 Dataset Aggregation(DAgger)讓模型直接學習專家在危險狀態下的恢復行為,使策略具備處理 disengagement 狀態的基礎能力;另一方面,引入 Direct Preference Optimization(DPO)進行偏好對齊,使模型不僅“會模仿”,還能逐漸學習更符合專家駕駛偏好的決策方式。通過多輪迭代訓練,TakeAD能夠持續增強系統在危險狀態下的恢復能力,有效緩解端到端自動駕駛中長期存在的 open-loop gap 問題。在閉環 Bench2Drive 基準測試中的實驗結果表明,相較於傳統純模仿學習方法,TakeAD顯著提升了自動駕駛系統在複雜場景中的穩定性與安全性。該工作也首次展示了“專家接管數據 + 偏好優化”在自動駕駛後訓練中的巨大潛力,為端到端自動駕駛系統的持續學習與安全增強提供了新的方向。04. Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving(RA-L)作者:Zebin Xing,Yupeng Zheng,Qichao Zhang,Zhixing Ding,Pengxuan Yang,Songen Gu,Zhongpu Xia,Dongbin Zhao代碼:https://github.com/ZebinX/Mimir-Uncertainty-Driving端到端自動駕駛正在成為自動駕駛領域的重要發展方向。近年來,大量研究開始通過引入高層語義引導(high-level guidance)來輔助底層軌跡規劃,從而提升車輛在複雜場景中的決策能力。然而,現有方法仍存在兩個關鍵瓶頸:一方面,高層引導信息本身可能存在誤差,導致規劃結果不穩定;另一方面,複雜引導模塊帶來的高計算開銷,也嚴重限制了系統的實時性與實際部署能力。針對這些問題,我們提出了全新的分層雙系統自動駕駛框架 Mimir,實現了兼具魯棒性與高效率的軌跡生成能力。與以往依賴確定性目標點建模的方法不同,Mimir首次通過拉普拉斯分佈(Laplace Distribution)對目標點不確定性進行建模,使系統能夠顯式感知高層引導中的不確定信息,從而在複雜駕駛環境中生成更加穩定、安全的駕駛軌跡。此外,為了解決高層引導模塊推理速度慢的問題,Mimir進一步提出了多速率引導機制(Multi-rate Guidance Mechanism),通過提前預測更長時間範圍內的目標點,有效降低高層模塊的調用頻率,在保證規劃精度的同時顯著提升推理效率。在具有挑戰性的 Navhard 與 Navtest 基準測試中,Mimir相較於此前最先進方法實現了20%的 EPDMS 駕駛評分提升,同時高層模塊推理速度提升達到1.6倍,在性能與效率之間取得了優異平衡。該工作展示了“高層語義引導 + 不確定性建模”在端到端自動駕駛中的巨大潛力,也為未來高魯棒、強實時性的自動駕駛系統設計提供了新的思路。05. CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations作者:Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang主頁:https://cwb0106.github.io/CLAR/機器人操作中的感知能力一直是制約具身智能發展的核心問題。儘管近年來大量工作開始將預訓練2D視覺基礎模型引入機器人系統,以利用其強大的語義理解能力,但這類方法往往缺乏對三維空間結構的感知能力,並且在面對不同相機視角時泛化能力有限,尤其難以勝任精細化機器人操作任務。針對這一挑戰,我們提出了全新的3D預訓練框架 CL3R,旨在為機器人操作策略提供更強大的視覺感知能力。CL3R首次將三維空間感知與語義理解有效結合:一方面,通過基於點雲的Masked Autoencoder學習豐富的3D空間表示;另一方面,利用對比學習從預訓練2D基礎模型中遷移語義知識,實現高效的視覺語義對齊。同時,我們進一步提出統一座標系的3D視覺預訓練方案,並通過多視角點雲隨機融合機制,有效緩解相機視角歧義問題,大幅提升模型在新視角下的泛化能力。大量仿真與真實機器人實驗表明,CL3R能夠顯著提升機器人視覺運動策略學習效果,在複雜操作任務中展現出更強的魯棒性與泛化性能,為具身智能中的3D視覺感知與機器人操作學習提供了新的解決方案。06. DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping作者:Yingting Zhou, Wenbo Cui, Weiheng Liu, Guixing Chen, Haoran Li, Dongbin Zhao主頁:https://diffudepgrasp.github.io/如何讓機器人在仿真中學會抓取,並能夠“零樣本”遷移到真實世界,一直是機器人學習中的關鍵難題。尤其是在基於深度圖的抓取任務中,真實傳感器產生的空洞、噪聲等偽影,會與仿真環境中的理想深度圖形成巨大的 sim2real gap,嚴重影響策略在真實機器人上的落地效果。為了解決這一問題,我們提出了全新的高效 sim2real 抓取框架 DiffuDepGrasp。與依賴複雜噪聲建模、 成對的數據集或額外基礎模型的方法不同,DiffuDepGrasp能夠僅通過仿真數據訓練,實現真實機器人上的零樣本遷移,同時在部署階段無需額外計算開銷。其核心創新在於提出了 Diffusion Depth Generator,用於生成兼具幾何精度與真實傳感器噪聲特性的深度圖。該模塊包含兩個關鍵部分:首先,Diffusion Depth Module 利用時間幾何先驗訓練條件擴散模型,高效學習真實深度傳感器複雜的噪聲分佈;其次,Noise Grafting Module 在注入真實感知偽影的同時,保持深度圖的幾何與尺度準確性,從而兼顧真實感與抓取精度。值得注意的是,DiffuDepGrasp在實際部署時僅需輸入原始深度圖,無需額外中間表示或基礎模型推理,因此具備極高的部署效率。實驗結果表明,該方法在12類物體抓取任務中實現了95.7%的平均成功率,並對未見過的新物體展現出優異的泛化能力,為機器人抓取中的 sim2real 問題提供了一種兼具性能與效率的新思路。07. Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots作者:Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Dongbin Zhao, Yehui Tang, Zongqing Lu多模態大語言模型(MLLM)在機器人高層任務規劃中展現出了巨大潛力,使機器人能夠理解並執行復雜的人類指令。然而,在涉及雙臂人形機器人的長時程任務中,現有方法仍面臨明顯瓶頸:一方面,缺乏能夠系統支持雙臂人形機器人任務評測與數據採集的仿真平臺;另一方面,當前MLLM對機器人“身體本身”的理解不足,難以在規劃過程中準確推理雙臂選擇邏輯與身體位姿關係。針對這些挑戰,我們提出了全新的雙臂人形機器人仿真平臺 DualTHOR,支持連續動作切換與任務應急機制,為複雜長時程任務提供了更加真實、完整的交互環境。在此基礎上,我們進一步提出了具備更強具身感知能力的模型 Proprio-MLLM。該方法將機器人本體感知信息(proprioception)引入多模態大模型,通過運動驅動的位置編碼與跨空間編碼器,增強模型對機器人身體結構、動作狀態以及空間關係的理解能力,從而提升複雜任務中的規劃與決策能力。實驗結果表明,現有MLLM在雙臂人形機器人任務中普遍表現受限,而Proprio-MLLM能夠實現平均19.75%的規劃性能提升,顯著增強機器人在複雜場景中的任務執行能力。該工作不僅提供了關鍵的雙臂人形機器人仿真平臺,也為具身智能中的“身體感知+大模型推理”融合研究提供了新的方向。雷峰網
Related
相關文章
Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages
This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather
Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight
Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途
這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

華為昇騰 0 Day 支持智譜 GLM-5.2 模型,提供全面推理優化
華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術,顯著提升編程和長程任務的處理效率,現已支持 A3 系列產品部署。#AI 大模型# #國產算力#
企業AI轉型再添利器:青雲科技算力雲接入 MiniMax-M3 模型
企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3,提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長,依託自研架構,助企業便捷部署AI業務。
阿里開源統一科學大模型 LOGOS,僅用五十六分之一參數超越微軟
阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式,在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數,即展現出極高效率,性能超越參數量達 8×7B 的微軟模型。