ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新範式
重點摘要
原文作者:公眾號“視覺語言導航”原文鏈接:https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ作者:Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡單位:¹印度海德拉巴國際信息技術研究所機器人研究中心,²德國海德堡大學,³穆罕默德·本·扎耶德人工智能大學論文標題:MASt3R-Nav: WayPixel Navigation in Relative 3D Maps論文鏈接:https://arxiv.org/abs/2605.24111項目主頁:https://mast3r-nav.github.io/代碼鏈接:https://github.com/vanshg1729/mast3r-nav研究背景視覺導航是自主機器人、智能移動設備的核心能力,而環境表徵方式直接決定導航精度、魯棒性與落地門檻。當前主流視覺導航方案各有致命短板,始終難以兼顧精度、效率與通用性:? 經典全局度量3D地圖: 依託佔據柵格、SLAM重建全局一致幾何地圖,雖能實現精準路徑規劃,但高度依賴高精度全局位姿配準、完整3D點雲重建,算力開銷大、對環境變化敏感,一旦匹配誤差累積直接導航失效。? 圖像相對拓撲導航: 以關鍵幀圖像為地圖節點,依靠幀間視覺相似度構建拓撲邊,完全弱化三維幾何約束。優勢是輕量化,但功能極度受限,僅能實現簡單示教-復現,無法自主規劃新路徑、應對未知岔路與場景變化。? 物體相對語義導航: 將環境抽象為櫃子、牆面、桌椅等語義物體,以物體為子目標做路徑規劃。雖能提升規劃容錯性,但過度語義抽象丟失底層幾何細節,牆面邊
原文作者:公眾號“視覺語言導航”原文鏈接:https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ作者:Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡單位:¹印度海德拉巴國際信息技術研究所機器人研究中心,²德國海德堡大學,³穆罕默德·本·扎耶德人工智能大學論文標題:MASt3R-Nav: WayPixel Navigation in Relative 3D Maps論文鏈接:https://arxiv.org/abs/2605.24111項目主頁:https://mast3r-nav.github.io/代碼鏈接:https://github.com/vanshg1729/mast3r-nav研究背景視覺導航是自主機器人、智能移動設備的核心能力,而環境表徵方式直接決定導航精度、魯棒性與落地門檻。當前主流視覺導航方案各有致命短板,始終難以兼顧精度、效率與通用性:? 經典全局度量3D地圖: 依託佔據柵格、SLAM重建全局一致幾何地圖,雖能實現精準路徑規劃,但高度依賴高精度全局位姿配準、完整3D點雲重建,算力開銷大、對環境變化敏感,一旦匹配誤差累積直接導航失效。? 圖像相對拓撲導航: 以關鍵幀圖像為地圖節點,依靠幀間視覺相似度構建拓撲邊,完全弱化三維幾何約束。優勢是輕量化,但功能極度受限,僅能實現簡單示教-復現,無法自主規劃新路徑、應對未知岔路與場景變化。? 物體相對語義導航: 將環境抽象為櫃子、牆面、桌椅等語義物體,以物體為子目標做路徑規劃。雖能提升規劃容錯性,但過度語義抽象丟失底層幾何細節,牆面邊界、斜坡、微小障礙物等信息被抹平,極易出現決策偏差、走錯路線、碰撞風險。除此之外,現有方案普遍存在規劃與控制割裂痛點:控制器只能接收單一粗粒度子目標,沒有連續的局部代價梯度引導,無法自主修正規劃路徑的微小誤差,複雜室內場景適應性極差。 在此背景下,論文立足像素級局部相對幾何,跳出全局重建與高層抽象的固有思維,打造全新的像素級導航範式。主要貢獻全新像素級地圖表徵: 提出MASt3R-Nav拓撲導航流水線,構建像素-相對3D連通性地圖,僅利用像素間局部相對幾何關係,無需全局座標一致性、無需精準位姿估計、無需額外深度傳感器,大幅降低建圖與導航門檻。首創WayPixel代價圖中間表徵: 設計稠密像素級WayPixel Costmap,作為路徑規劃與控制器的通用接口。完整保留牆面、坡度、遮擋物等精細幾何梯度,彌補圖像級、物體級表徵細節丟失的硬傷。定製化PixelReact學習控制器: 專為WayPixel代價圖設計軌跡預測控制器,利用像素稠密代價梯度自主修正路徑偏差,對規劃瑕疵具備強魯棒性,精準輸出機器人局部鳥瞰視角軌跡路點。全場景嚴苛驗證: 在4類高難度導航任務中全面超越GNM、ObjectReact等SOTA算法;仿真訓練模型可直接部署真實P3DX移動機器人,實現零微調仿真到現實遷移,落地實用性拉滿。研究方法MASt3R-Nav整體架構分為骨幹模型、離線建圖、在線執行、控制器訓練四大核心環節,同時引入圖結構精簡策略,在保證幾何精度的前提下嚴控計算開銷。1. 核心骨幹:MASt3R 3D基礎模型全程採用凍結預訓練的MASt3R作為視覺感知骨幹,輸入任意RGB圖像對,即可輸出兩大核心能力:跨幀稠密像素匹配關係;逐像素相對3D座標 。定義像素與之間3D歐氏距離:僅靠單目RGB圖像+基礎模型,就能獲取可靠的相對三維幾何,擺脫硬件依賴。2. 離線建圖:像素級拓撲地圖構建機器人遍歷環境採集圖像序列,構建像素拓撲圖 :節點N:只保留參與跨幀匹配的有效像素,過濾無幾何關聯冗餘像素;邊E: 分為兩類:幀間邊:不同圖像中匹配的同一物理像素,代價置為0,實現跨幀座標關聯;,像素互為匹配點幀內邊:同一張圖像內的有效像素互連,代價由3D歐氏距離決定;為解決百萬級像素圖計算爆炸問題,採用三重優化:僅保留有匹配像素、用歐氏最小生成樹EMST替代全連接、運行時動態激活孤立像素,在保留幾何完整性的同時,大幅壓縮圖規模。3. 在線執行:定位 + WayPixel稠密代價圖生成這是導航的核心環節,三步生成全覆蓋像素代價梯度:像素級定位:當前實時圖像與歷史子圖做稠密匹配,選取匹配度最高的子圖完成機器人定位;稀疏代價初始化:用Dijkstra算法預計算地圖所有像素到目標的最短路徑代價,實時匹配像素直接繼承地圖像素規劃代價;全局代價傳播:將稀疏匹配像素的代價,擴散至整張圖像所有未匹配像素,生成WayPixel代價圖。最終畫面中每一個像素都擁有指向目標的連續代價梯度,為控制器提供細粒度決策依據。4. 訓練階段:PixelReact控制器沿用成熟的模仿學習框架,網絡由卷積編碼器+MLP解碼器組成:編碼器輸入WayPixel代價圖,提取稠密幾何特徵;解碼器一次性預測未來10個局部2D軌跡路點;以真實最優路徑為監督,採用L2迴歸損失訓練,完美擬合最優導航軌跡,兼容各類室內佈局。實驗設置為公平對比算法性能,論文搭建標準化、多維度的實驗評測體系:評測數據集:採用HM3D-IIN數據集驗證集,包含36個獨立室內場景,單場景設置獨立導航任務,覆蓋住宅、辦公等複雜環境;四大高難度導航任務軌跡模仿:復刻機器人歷史遍歷路徑;陌生目標導航:前往見過但未走到的目標,需自主規劃新路線;捷徑規劃:避開原遍歷路線,自主尋找更短通行路徑;反向遍歷:逆著歷史軌跡完成導航,考驗大視角匹配能力;核心評估指標採用機器人導航通用權威指標:SPL(路徑加權成功率)、SSPL(軟路徑加權成功率),兼顧任務完成度與路徑效率;成功判定標準:機器人300步內抵達目標1米範圍內,判定導航成功;軟硬件部署:仿真基於Habitat平臺;真實硬件採用P3DX移動機器人+RealSense RGB相機;算法評測服務器配置AMD Ryzen 9 7950X + RTX A4000 16GB。實驗結果1. 表徵維度 ablation 對比單純更換圖像匹配器,無法提升物體級導航上限;而像素級WayPixel表徵+PixelReact控制器組合,SPL從傳統物體級51.51%飆升至81.77% ,證明像素細粒度幾何表徵才是性能突破關鍵。2. 與SOTA算法全方位PKMASt3R-Nav在軌跡模仿、陌生目標、捷徑規劃三大任務上大幅領跑:模仿任務SPL高達93.94% ,超過往最優模型10個百分點;陌生目標、捷徑任務性能較物體級基線近乎翻倍;僅反向遍歷任務受大視角匹配歧義影響性能略低,四項任務平均SPL 52.79% ,綜合實力斷層領先。3. 圖結構效率權衡採用EMST精簡策略後,幀內邊數從466萬驟減至2.4萬,Dijkstra規劃耗時從9.0s壓縮至1.4s,算力大幅下降的同時,導航性能無任何衰減;冗餘全像素匹配反而會引入噪聲、降低成功率,充分驗證稀疏像素幾何的有效性。4. 大規模環境可擴展性環境從1層擴展至3層大型辦公樓宇,算法運行耗時、內存佔用均呈線性增長;即便擁有8萬像素節點的超大地圖,總運行時長不足5分鐘,存儲僅540.18MB,完全支持大型園區、樓宇規模化部署。5. 真實機器人落地實測僅在仿真HM3D數據集訓練的模型,無需任何微調,可直接部署真實未知室內環境。機器人依託WayPixel代價圖精準感知障礙物、預判通行方向,平穩規劃軌跡抵達目標,仿真遷移現實能力極強。總結與未來工作研究核心總結MASt3R-Nav的誕生,徹底打破了機器人視覺導航的固有設計思路:摒棄全局3D重建與繁瑣位姿標定,依託像素相對3D連通性輕量化建圖;WayPixel代價圖鎖住精細幾何細節,解決物體級表徵抽象過度、決策失誤痛點;PixelReact控制器利用稠密梯度容錯規劃誤差,導航更穩定、更智能;兼顧精度、算力、可擴展性與落地性,仿真、真實機器人雙場景全面驗證價值。未來研究方向探索像素幾何+物體語義混合表徵,融合兩者優勢,補齊反向軌跡導航短板;優化MASt3R大視角圖像匹配策略,提升極端視角、低重疊場景下的定位規劃精度;進一步輕量化模型與圖結構,適配小型無人機、家用服務機器人等低算力終端設備。雷峰網
Related
相關文章

Token成本算盤打響,Seedance開始駛向“五環外”
這篇消息聚焦「Token成本算盤打響,Seedance開始駛向“五環外”」。原始導語提到:視頻AI的決勝場,不在模型本身。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題,Gmail 無法正常回復郵件
科技媒體 Android Authority 昨日(6 月 18 日)發佈博文,報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題,用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤,優先顯示 Help me write 功能。

DeepSeek 識圖模式正式上線 App 和網頁端
DeepSeek 多模態研究員 Xiaokang Chen 今日表示,DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試,目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”,網頁端沒有這項提示。

微信、豆包之後,消息稱阿里將推“千問輸入法”
千問團隊將推出名為“千問輸入法”的獨立 App,與 PC 端的千問語音輸入法有一定區別,AI 功能、鍵盤會更貼合手機端操作,填補千問在移動端 AI 輸入法賽道的空白,產品已開發完成,擇日上線各大應用商店。
Kimi Work 迎重大升級:推出“目標模式”並打通外部應用插件
月之暗面旗下 Kimi 電腦客戶端近日煥新升級,為 Kimi Work(Beta 版)引入兩項重磅新特性:目標模式實現連續自主工作 24 小時,插件中心正式對接多家主流辦公軟件,提升工作流效率。為加速用戶深度體驗,官方同步推出限時優惠,2026 年 6 月全月,使用 Work 模式的會員額度消耗直接打 5 折,帶來實惠。
網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運
網易雲音樂旗下“妙時”(含AI奇遇)AI情感陪伴應用發佈停運公告,將於7月14日0時全面停止服務。客服迴應屬正常業務調整,不影響其他產品。目前已停止新用戶註冊和充值,用戶可在8月14日前申請退還剩餘代幣和會員費,並導出AI戀人聊天記錄。