ICRA 2026 | 像素級相對 3D 地圖領航！MASt3R-Nav：打造高精度無全局重建視覺導航新範式

2026年6月1日 07:19

重點摘要

站內 AI 整理稿

原文作者：公眾號“視覺語言導航”原文鏈接：https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ作者：Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡單位：¹印度海德拉巴國際信息技術研究所機器人研究中心，²德國海德堡大學，³穆罕默德·本·扎耶德人工智能大學論文標題：MASt3R-Nav: WayPixel Navigation in Relative 3D Maps論文鏈接：https://arxiv.org/abs/2605.24111項目主頁：https://mast3r-nav.github.io/代碼鏈接：https://github.com/vanshg1729/mast3r-nav研究背景視覺導航是自主機器人、智能移動設備的核心能力，而環境表徵方式直接決定導航精度、魯棒性與落地門檻。當前主流視覺導航方案各有致命短板，始終難以兼顧精度、效率與通用性：? 經典全局度量3D地圖：依託佔據柵格、SLAM重建全局一致幾何地圖，雖能實現精準路徑規劃，但高度依賴高精度全局位姿配準、完整3D點雲重建，算力開銷大、對環境變化敏感，一旦匹配誤差累積直接導航失效。? 圖像相對拓撲導航：以關鍵幀圖像為地圖節點，依靠幀間視覺相似度構建拓撲邊，完全弱化三維幾何約束。優勢是輕量化，但功能極度受限，僅能實現簡單示教-復現，無法自主規劃新路徑、應對未知岔路與場景變化。? 物體相對語義導航：將環境抽象為櫃子、牆面、桌椅等語義物體，以物體為子目標做路徑規劃。雖能提升規劃容錯性，但過度語義抽象丟失底層幾何細節，牆面邊界、斜坡、微小障礙物等信息被抹平，極易出現決策偏差、走錯路線、碰撞風險。除此之外，現有方案普遍存在規劃與控制割裂痛點：控制器只能接收單一粗粒度子目標，沒有連續的局部代價梯度引導，無法自主修正規劃路徑的微小誤差，複雜室內場景適應性極差。在此背景下，論文立足像素級局部相對幾何，跳出全局重建與高層抽象的固有思維，打造全新的像素級導航範式。主要貢獻全新像素級地圖表徵：提出MASt3R-Nav拓撲導航流水線，構建像素-相對3D連通性地圖，僅利用像素間局部相對幾何關係，無需全局座標一致性、無需精準位姿估計、無需額外深度傳感器，大幅降低建圖與導航門檻。首創WayPixel代價圖中間表徵：設計稠密像素級WayPixel Costmap，作為路徑規劃與控制器的通用接口。完整保留牆面、坡度、遮擋物等精細幾何梯度，彌補圖像級、物體級表徵細節丟失的硬傷。定製化PixelReact學習控制器：專為WayPixel代價圖設計軌跡預測控制器，利用像素稠密代價梯度自主修正路徑偏差，對規劃瑕疵具備強魯棒性，精準輸出機器人局部鳥瞰視角軌跡路點。全場景嚴苛驗證：在4類高難度導航任務中全面超越GNM、ObjectReact等SOTA算法；仿真訓練模型可直接部署真實P3DX移動機器人，實現零微調仿真到現實遷移，落地實用性拉滿。研究方法MASt3R-Nav整體架構分為骨幹模型、離線建圖、在線執行、控制器訓練四大核心環節，同時引入圖結構精簡策略，在保證幾何精度的前提下嚴控計算開銷。1. 核心骨幹：MASt3R 3D基礎模型全程採用凍結預訓練的MASt3R作為視覺感知骨幹，輸入任意RGB圖像對，即可輸出兩大核心能力：跨幀稠密像素匹配關係；逐像素相對3D座標。定義像素與之間3D歐氏距離：僅靠單目RGB圖像+基礎模型，就能獲取可靠的相對三維幾何，擺脫硬件依賴。2. 離線建圖：像素級拓撲地圖構建機器人遍歷環境採集圖像序列，構建像素拓撲圖：節點N：只保留參與跨幀匹配的有效像素，過濾無幾何關聯冗餘像素；邊E：分為兩類：幀間邊：不同圖像中匹配的同一物理像素，代價置為0，實現跨幀座標關聯；，像素互為匹配點幀內邊：同一張圖像內的有效像素互連，代價由3D歐氏距離決定；為解決百萬級像素圖計算爆炸問題，採用三重優化：僅保留有匹配像素、用歐氏最小生成樹EMST替代全連接、運行時動態激活孤立像素，在保留幾何完整性的同時，大幅壓縮圖規模。3. 在線執行：定位 + WayPixel稠密代價圖生成這是導航的核心環節，三步生成全覆蓋像素代價梯度：像素級定位：當前實時圖像與歷史子圖做稠密匹配，選取匹配度最高的子圖完成機器人定位；稀疏代價初始化：用Dijkstra算法預計算地圖所有像素到目標的最短路徑代價，實時匹配像素直接繼承地圖像素規劃代價；全局代價傳播：將稀疏匹配像素的代價，擴散至整張圖像所有未匹配像素，生成WayPixel代價圖。最終畫面中每一個像素都擁有指向目標的連續代價梯度，為控制器提供細粒度決策依據。4. 訓練階段：PixelReact控制器沿用成熟的模仿學習框架，網絡由卷積編碼器+MLP解碼器組成：編碼器輸入WayPixel代價圖，提取稠密幾何特徵；解碼器一次性預測未來10個局部2D軌跡路點；以真實最優路徑為監督，採用L2迴歸損失訓練，完美擬合最優導航軌跡，兼容各類室內佈局。實驗設置為公平對比算法性能，論文搭建標準化、多維度的實驗評測體系：評測數據集：採用HM3D-IIN數據集驗證集，包含36個獨立室內場景，單場景設置獨立導航任務，覆蓋住宅、辦公等複雜環境；四大高難度導航任務軌跡模仿：復刻機器人歷史遍歷路徑；陌生目標導航：前往見過但未走到的目標，需自主規劃新路線；捷徑規劃：避開原遍歷路線，自主尋找更短通行路徑；反向遍歷：逆著歷史軌跡完成導航，考驗大視角匹配能力；核心評估指標採用機器人導航通用權威指標：SPL（路徑加權成功率）、SSPL（軟路徑加權成功率），兼顧任務完成度與路徑效率；成功判定標準：機器人300步內抵達目標1米範圍內，判定導航成功；軟硬件部署：仿真基於Habitat平臺；真實硬件採用P3DX移動機器人+RealSense RGB相機；算法評測服務器配置AMD Ryzen 9 7950X + RTX A4000 16GB。實驗結果1. 表徵維度 ablation 對比單純更換圖像匹配器，無法提升物體級導航上限；而像素級WayPixel表徵+PixelReact控制器組合，SPL從傳統物體級51.51%飆升至81.77% ，證明像素細粒度幾何表徵才是性能突破關鍵。2. 與SOTA算法全方位PKMASt3R-Nav在軌跡模仿、陌生目標、捷徑規劃三大任務上大幅領跑：模仿任務SPL高達93.94% ，超過往最優模型10個百分點；陌生目標、捷徑任務性能較物體級基線近乎翻倍；僅反向遍歷任務受大視角匹配歧義影響性能略低，四項任務平均SPL 52.79% ，綜合實力斷層領先。3. 圖結構效率權衡採用EMST精簡策略後，幀內邊數從466萬驟減至2.4萬，Dijkstra規劃耗時從9.0s壓縮至1.4s，算力大幅下降的同時，導航性能無任何衰減；冗餘全像素匹配反而會引入噪聲、降低成功率，充分驗證稀疏像素幾何的有效性。4. 大規模環境可擴展性環境從1層擴展至3層大型辦公樓宇，算法運行耗時、內存佔用均呈線性增長；即便擁有8萬像素節點的超大地圖，總運行時長不足5分鐘，存儲僅540.18MB，完全支持大型園區、樓宇規模化部署。5. 真實機器人落地實測僅在仿真HM3D數據集訓練的模型，無需任何微調，可直接部署真實未知室內環境。機器人依託WayPixel代價圖精準感知障礙物、預判通行方向，平穩規劃軌跡抵達目標，仿真遷移現實能力極強。總結與未來工作研究核心總結MASt3R-Nav的誕生，徹底打破了機器人視覺導航的固有設計思路：摒棄全局3D重建與繁瑣位姿標定，依託像素相對3D連通性輕量化建圖；WayPixel代價圖鎖住精細幾何細節，解決物體級表徵抽象過度、決策失誤痛點；PixelReact控制器利用稠密梯度容錯規劃誤差，導航更穩定、更智能；兼顧精度、算力、可擴展性與落地性，仿真、真實機器人雙場景全面驗證價值。未來研究方向探索像素幾何+物體語義混合表徵，融合兩者優勢，補齊反向軌跡導航短板；優化MASt3R大視角圖像匹配策略，提升極端視角、低重疊場景下的定位規劃精度；進一步輕量化模型與圖結構，適配小型無人機、家用服務機器人等低算力終端設備。雷峰網

原始來源：雷峰網 ↗

查看原始來源

鈦媒體AI工具與產品

Token成本算盤打響，Seedance開始駛向“五環外”

這篇消息聚焦「Token成本算盤打響，Seedance開始駛向“五環外”」。原始導語提到：視頻AI的決勝場，不在模型本身。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家AI工具與產品

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

科技媒體 Android Authority 昨日（6 月 18 日）發佈博文，報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題，用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤，優先顯示 Help me write 功能。

1 小時前閱讀分析

IT之家AI工具與產品

DeepSeek 識圖模式正式上線 App 和網頁端

DeepSeek 多模態研究員 Xiaokang Chen 今日表示，DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試，目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”，網頁端沒有這項提示。

19 小時前閱讀分析

IT之家AI工具與產品

微信、豆包之後，消息稱阿里將推“千問輸入法”

千問團隊將推出名為“千問輸入法”的獨立 App，與 PC 端的千問語音輸入法有一定區別，AI 功能、鍵盤會更貼合手機端操作，填補千問在移動端 AI 輸入法賽道的空白，產品已開發完成，擇日上線各大應用商店。

1 天前閱讀分析

AIBaseAI工具與產品

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

月之暗面旗下 Kimi 電腦客戶端近日煥新升級，為 Kimi Work（Beta 版）引入兩項重磅新特性：目標模式實現連續自主工作 24 小時，插件中心正式對接多家主流辦公軟件，提升工作流效率。為加速用戶深度體驗，官方同步推出限時優惠，2026 年 6 月全月，使用 Work 模式的會員額度消耗直接打 5 折，帶來實惠。

1 天前8300閱讀分析

AIBaseAI工具與產品

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運

網易雲音樂旗下“妙時”（含AI奇遇）AI情感陪伴應用發佈停運公告，將於7月14日0時全面停止服務。客服迴應屬正常業務調整，不影響其他產品。目前已停止新用戶註冊和充值，用戶可在8月14日前申請退還剩餘代幣和會員費，並導出AI戀人聊天記錄。

1 天前9400閱讀分析

相關文章

Token成本算盤打響，Seedance開始駛向“五環外”

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

DeepSeek 識圖模式正式上線 App 和網頁端

微信、豆包之後，消息稱阿里將推“千問輸入法”

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運