上海交大王賀升教授：從畫地圖到預測未來，傳統 SLAM 正走出靜態世界 | ICRA 2026

2026年6月3日 08:40

重點摘要

站內 AI 整理稿

雷峰網訊 2026 年 6 月 1 日，國際機器人與自動化會議（ICRA）在奧地利維也納召開。次日上午的自動駕駛與導航報告環節，雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。找到自己的位置，並理解周圍環境，一直是機器人能夠落地的先決條件。此前的導航系統大多建立在”環境靜止、結構穩定”的假設之上，但隨著具身智能從實驗室走向真實場景，現實世界的動態變化讓傳統 SLAM（同步定位與建圖）逐漸迫近天花板，無力應對自動駕駛中的車輛行人，或是手術機器人面前多變的人體組織。運動、遮擋甚至形變問題，是新一代 SLAM 需要解決的全新問題。圍繞這一挑戰，王賀升教授系統介紹了從感知、建圖、定位到規劃的完整技術路線。在感知層面，研究團隊提出結合激光雷達與視覺傳感器進行多模態融合，並通過光流、場景流和四維重建技術理解動態環境的方案，在建圖層面，則提出通過動態 Gaussian SLAM 和可變形三維高斯地圖，實現對運動目標和可變形環境的持續建模。王賀升教授特別提到，“人體這種非常可變形的環境”是當前研究主要的對象，以期解決手術機器人場景中的定位與建圖難題。此外，針對具身智能普遍缺乏長期記憶和環境理解能力的問題，團隊還嘗試引入 NeRF 記憶機制以及視覺語言模型推理能力，讓機器人不僅知道“自己在哪裡”，還能利用歷史經驗和語義關係輔助導航決策。據王賀升教授介紹，相關技術已在礦卡、倉儲機器人、自動泊車、移動通信平臺和割草機器人等場景中落地應用。可以看到，面對真實世界中的動態變化、複雜語義和環境形變等挑戰，機器人導航正從傳統 SLAM 走向融合世界模型、大模型推理與可變形環境感知的具身智能基礎設施。以下是王賀升在 ICRA 2026 大會發表的演講精編稿，AI 科技評論基於原英文演講內容進行了不改原意的翻譯編輯：《Learning to Navigate: From Scene Understanding to Decision Makin》主講人：王賀升（Hesheng Wang），上海交通大學01學習導航：從場景理解到決策制定大家早上好。很榮幸向大家介紹我們最近的一些研究工作。我的研究方向主要是機器人導航與操作，今天的報告將重點聚焦於導航部分。正如大家所瞭解的那樣，近年來移動機器人平臺的種類越來越豐富，機器人導航技術已經廣泛應用於物流機器人、自動駕駛、家庭機器人，甚至手術機器人等場景。今天我將介紹機器人導航中的一些核心技術。首先是里程計部分，機器人利用傳感器估計自身位姿，隨後考慮動態環境中的運動目標，同時考慮語義信息以及環境可變形的情況。在構建系統之後，我們會獲得全局地圖，然後基於全局地圖進行定位，最後完成路徑規劃。下面我將依次介紹這些內容。首先介紹里程計部分。我們同時考慮了激光雷達傳感器和視覺傳感器兩類數據。首先是將激光雷達點雲投影到標準鳥瞰圖平面。由於我們已知激光雷達座標系與相機座標系之間的外參，因此可以將三維激光雷達點投影到圖像平面上。獲得這些三維投影點的中心點，並對圖像中的特徵進行聚類，提取兩類不同特徵之後，接著我們採用一種稱為 Local-to-Global 的特徵融合網絡，對這兩類特徵進行融合，最終得到全局特徵表示。在此基礎上，就可以通過位姿解碼器獲得初始位姿估計。之後進一步進行優化，我們採用類似於 RANSAC 的思路，通過迭代方式逐步精煉結果，最終獲得精確的位姿估計。接下來考慮動態場景。我們的研究工作從二維擴展到三維，再進一步擴展到四維表示。在二維場景中，我們首先研究光流估計，因為它是運動估計中的關鍵算法之一，隨後擴展到三維場景流估計，進一步研究四維重建，最終實現四維建圖與 SLAM。對於二維光流估計，我們首先使用 Memory Bank 存儲歷史光流信息，然後利用連續性約束預測下一時刻的光流。結合當前圖像，通過基於 DRU 的網絡進行優化。在多尺度設置下，我們採用尺度為 4 和 2 的特徵表示，並結合 Transformer 結構進一步優化光流估計結果。最終將更新後的結果重新寫入 Memory Bank。我們在 nuScenes、Waymo 等數據集上進行了驗證。即使模型沒有在這些數據集上進行訓練，結果顯示依然具備了較強的零樣本泛化能力，並取得了較好的性能。下一步是三維場景流估計，整體採用兩階段框架。第一階段利用兩幀點雲直接進行粗略場景流估計，第二階段利用生成式擴散模型進行精細優化。這裡我們將幾何特徵、流特徵嵌入以及代價體作為條件信號，用於控制擴散模型輸出結果的多樣性，最終得到精煉後的場景流估計結果。隨後我們將估計得到的場景流作為監督信號，進一步監控和優化流估計過程，並將結果輸入到四維混合表示（4D Hybrid Representation）中，利用 Neural Rendering 技術完成動態場景重建。接下來進一步研究動態場景 SLAM。我們同時對前景和背景進行建圖。對於背景部分，採用傳統三維高斯表示方法，利用 Gaussian SLAM 完成背景建圖。對於前景部分，我們考慮了兩類對象。第一類是非剛體目標，例如人類和動物。我們設計了可變形高斯網絡，在人體動力學約束下預測人體的位置、姿態和朝向，這裡採用 FMPTL 框架約束人體運動規律。對於剛體目標，則利用檢測結果和光流信息估計連續運動狀態。在完成前景和背景重建之後，我們進一步進行當前幀定位。此外，由於背景部分採用了三維高斯表示，因此可以進行渲染，獲得二維觀測中心，同時投影三維高斯中心後獲得幾何中心，這兩類中心可以共同作為相機位姿估計約束。由於連續幀之間存在運動關係，因此可以計算光流向量，同時我們將三維高斯中心投影到圖像平面後，也會形成對應向量。通過最小化這兩類向量之間的誤差，即重投影誤差（Reprojection Error），對相機位姿進行優化，從而獲得更精確的定位結果。接下來，就是構建完整地圖。由於系統中存在大量局部地圖，因此需要進行統一優化。我們引入了兩類約束：一類是幾何約束，另一類是一致性約束。通過聯合優化，最終獲得完整的三維高斯地圖。這裡展示的是 Gaussian SLAM 的結果。系統不僅恢復了相機軌跡，同時還恢復了人體運動軌跡。不過一個問題是，高斯表示佔用較多存儲空間，計算效率也較低。為了解決這一問題，我們進一步設計了緊湊型三維高斯 SLAM。首先採用體素化方式組織高斯表示，然後設計滑動窗口機制，去除三維高斯表示中的冗餘信息，同時引入 3D Gaussian ICP Loss，作為全局 Bundle Adjustment 的約束項，最後利用殘差向量優化（Residual Vector Optimization）進一步壓縮三維高斯存儲。實驗結果表明，系統運行速度能夠提升約一倍，同時顯著提高整體效率，實現接近實時運行。下一步我們考慮語義 SLAM。在導航任務中，語義信息同樣非常重要，因此我們將語義信息引入系統。首先提取幾何特徵、外觀特徵以及語義特徵，然後利用 Attention 機制進行特徵融合，實現語義場景表示。在語義 SLAM 中，我們採用從粗到細（Coarse-to-Fine）的層次化框架。粗層級主要關注整體結構和語義信息，細層級進一步引入顏色信息、邊界信息等更細粒度特徵，最後通過構建層次圖並進行圖優化，實現完整語義 SLAM 系統。這裡展示了 RGB-D 數據和語義信息融合後的結果。可以看到，不同語義類別之間具有非常清晰的邊界。另一個具有挑戰性的問題是：如果背景本身也是可變形的，那麼特徵跟蹤和對應關係建立都會變得非常困難。為了解決這一問題，我們提出了可變形三維高斯地圖（Deformable 3D Gaussian Map）。首先定義可變形體元（Deformable Primitives），我們採用不同顏色表示對象的不同屬性，例如剛體、半剛體或完全可變形物體。隨後定義時變形變場（Temporal Deformation Field），利用基函數和權重表示形變特徵。三維高斯被輸入到形變場後，可以根據形變信息改變其形狀和顏色。當輸入二維 RGB-D 圖像時，由於地圖是可變形的，其中部分區域變化非常劇烈，這些區域難以作為穩定定位依據。因此，我們基於所構建的地圖計算連續性地圖（Continuity Map），並利用其進行相機位姿優化，同時不斷更新地圖中的相關參數。完成關鍵幀定位之後，後續流程與傳統 SLAM 類似，但額外考慮了形變概率因素，從而最終完成整體建圖。尤其在手術機器人場景中，這種系統能夠有效應對高度可變形環境。在構建地圖之後，另一個關鍵問題是如何利用地圖進行定位。建圖時，我們可以獲得包含豐富三維信息的高精度地圖；但實際部署時，可能只有一個廉價攝像頭，只能獲取二維圖像。因此問題變成了二維到三維的跨模態定位（Cross-modal Localization）。我們首先提取圖像和點雲特徵，然後建立二維到三維對應關係。具體來說，先將三維點投影到圖像平面，再建立與鄰近圖像特徵之間的關聯。由於這些區域已經與對應特徵建立關聯，因此進一步結合鄰域點特徵進行特徵聚合，最終獲得穩定的二維—三維關聯關係。之後利用魯棒匹配機制去除噪聲，再通過位姿迴歸（Pose Regression）獲得三維定位結果。實驗表明，該方法能夠實現非常高的定位精度，同時具備實時性能，每幀推理時間僅為 14 毫秒。最後介紹規劃部分。在人類進行導航時，通常會利用記憶記住關鍵幀或關鍵地點。當遇到從未經歷過的場景時，也會利用已有經驗進行推理，判斷下一步應該如何行動。對於記憶模塊，我們利用 NeRF 存儲關鍵幀信息，並建立檢索機制。系統會重點關注記憶中的相關內容。如果當前場景與過去見過的場景相似，那麼系統會更多依賴歷史經驗進行決策，這樣能夠提高導航效率。如果某一區域已經探索過，並且目標位置曾經出現過，那麼機器人就能夠更直接地向目標方向移動。同時，我們也嘗試引入推理能力。例如利用大型視覺語言模型理解圖像內容，建立語義關係圖譜。對於每一幀觀測信息，都存儲到記憶模塊中。整個系統採用雙層圖結構。系統學習對象之間的關聯規則和關係，並完成關係綁定。這裡展示了系統的工作過程。有時候兩個目標在視覺上看似無關，但藉助大語言模型，系統能夠理解它們之間存在潛在聯繫，因此會更加關注相關目標。這種推理能力同樣能夠幫助導航決策。最後我介紹幾個商業化應用案例。首先，我們為礦卡設計了導航系統，目前已經穩定運行超過一年，能夠在複雜礦區環境中自主導航。在倉儲場景中，我們開發了適用於動態變化環境的清潔機器人。由於貨物和設備持續變化，因此導航系統需要不斷適應環境變化。在自動泊車場景中，高精度地圖信息同樣十分重要，以支持車輛自主導航。此外，我們還結合移動平臺和移動通信平臺開展相關應用，地圖信息和導航定位信息對於通信設備精準部署至關重要。在割草機器人（Lawn Mower Robot）場景中，機器人通常需要在非常大的開放區域工作。此時定位誤差容易積累，同時需要進行地圖匹配，系統需要判斷邊界位置，並識別運動目標等需要重點關注的區域。以上就是我們近期在 SLAM 領域的一些研究工作。展望未來，我們將進一步關注世界模型與環境建模，希望能夠預測長時間序列中未來將發生的情況。同時，感知、規劃與決策之間是緊密耦合的。一個很小的感知誤差，最終可能導致非常大的決策誤差，因此需要聯合考慮這些問題。此外，還需要解決長期任務中的複雜決策問題。決策過程應基於完整序列進行，而不僅僅是即時反應式決策。更重要的是，所有系統最終都必須在真實世界中運行。真實世界是不可預測的，因此我們需要面對大量邊緣案例和各種複雜問題。我的報告就到這裡，謝謝大家。02Q&A 問答環節提問：您的報告中關於可變形 SLAM 的部分非常有意思。請問你們是否嘗試過在室外農業環境中運行這套系統？例如樹葉會持續擺動變形，而傳統 SLAM 算法在這類環境中的定位效果通常較差。王賀升：這是一個非常好的問題。目前我們還沒有嘗試過這樣的場景。我們當前主要面向手術機器人開展研究，因為在手術過程中，人體組織本身就是高度可變形的環境。你提到的樹葉等農業場景其實也非常有趣，我認為與我們當前研究的問題具有一定相似性，因為它們同樣會持續發生形變。我們目前也有一些相關想法，希望能夠利用連續性地圖進行建圖。不過具體在真實農業場景中應用時會遇到什麼問題，目前我還不確定，未來我們會嘗試驗證這一方向。03去哪看 ICRA 核心【演講/論文】詳解？為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨，雷峰網已全面上線【ICRA 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。掃描下方二維碼，或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！雷峰網文章

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析