波恩大學 Maren Bennewitz 教授：讓機器人在遮擋世界中主動獲取信息 | ICRA 2026

2026年6月5日 10:12

重點摘要

站內 AI 整理稿

機器人不能只會“看見”。作者丨鄭佳美編輯丨馬曉寧 2026 年 6 月 4 日，在 ICRA 2026 “Robot perception and spatial AI” Keynote Session 上，波恩大學教授 Maren Bennewitz 發表了關於主動感知機器人的演講，直指真實機器人部署中的一個基本困境：機器人面對的世界往往是雜亂、持續變化且只能部分觀測的，僅靠被動觀察無法完成可靠理解。Bennewitz 的核心判斷是：機器人要真正進入家庭、農業和服務場景，不能只把感知當作“看一眼”的過程，而必須把感知、預測、先驗知識和動作規劃放到同一個閉環裡。機器人需要主動移動視角、推動或抓取遮擋物，用最少的動作獲得最多的信息。她在演講中給出了三類典型場景：其一，在貨架或桌面等遮擋環境中，機器人通過不確定性感知的語義地圖，決定哪些物體值得移動；其二，在家庭物體搜索中，機器人利用 3D 場景圖、LLM 語義先驗、幾何約束和物體重定位規律，在不重新探索全屋的情況下按需尋找物體；其三，在農業監測與果實採摘中，機器人藉助上一時刻的地圖先驗、非剛性配準和葉片形變模型，規劃更高效的觀測與操作動作。這場演講的關鍵洞察在於：主動感知並不是“多看幾眼”，而是把“看哪裡、動什麼、何時停止”變成信息增益最大化問題。對於機器人而言，世界不是一張靜態照片，而是一組可以通過行動逐步揭開的信念分佈。1、真實環境的核心難點不是沒有圖像，而是不確定性和遮擋：機器人必須知道自己不知道什麼。2、主動感知的價值在於把動作變成信息採集工具：換視角、推開物體、移動葉片，都是為了降低地圖和語義的不確定性。3、先驗知識並不替代感知，而是幫助機器人更聰明地選擇下一步：LLM 提供語義常識，幾何模型過濾不可能位置，重定位模型學習人類移動物體的習慣。4、在農業機器人中，時間維度同樣重要：上一輪完整重建可以作為下一輪觀測規劃的先驗，讓機器人在重複監測中避免從零開始。5、面向採摘等高價值任務，機器人需要從“識別果實”進一步走向“估計可採摘性”，並理解葉片、視角和目標之間的遮擋關係。總的來看，Bennewitz 試圖回答的是一個非常現實的問題：當機器人無法一次看清世界時，它應該如何通過行動把未知變成已知？她的答案是，用信念表示世界，用先驗約束搜索，用動作主動降低不確定性。以下是AI 科技評論對 Maren Bennewitz 在 ICRA 2026 大會發表的演講實錄整理。內容基於英文現場轉寫進行不改原意的中文整理。01為了看見遮擋物，機器人必須學會“動手”正如我們都知道的，機器人運行在雜亂、變化且只能部分觀測的環境中。因此，單純被動觀察遠遠不夠。為了完成任務，主動感知環境是必要的。主動感知機器人必須在行動中整合感知、預測、先驗信息和動作，主動獲取信息，並提升對環境的理解。今天我將介紹機器人如何高效增強它對世界的知識，主要圍繞雜亂場景和隱藏物體展開。更具體地說，我會講機器人如何利用先驗和試探性動作，在少量步驟內完成感知和操作。先看一個場景。我們有一個貨架，前面有幾個盒子，擋住了後方空間的視線。問題是，我們怎樣才能看見盒子後面的物體？也就是說，機器人如何推理前方物體背後可能存在什麼？雷峰網在這個例子裡，僅僅改變視角是不夠的。機器人必須移動場景中的一些物體，才能看見後面並覆蓋被遮擋的空間。這就是我們關注的問題。我們使用一種帶有不確定性的度量語義地圖表示。這個表示既可以推理場景中的所有物體，也可以推理操作動作及其約束的影響。我們學習一個模型，預測這個地圖表示會如何隨著動作結果而演化。也就是說，我們預測場景會如何因為視角變化、推動或者抓取而改變，並把它作為動作如何改變世界的先驗。基於這個學習到的模型，我們可以推斷動作的效果。因此，機器人會選擇那些能夠降低環境表示不確定性、降低度量語義表示不確定性的最佳動作。比如在這個案例裡，機器人可以先向左推動一個盒子，然後抓取另一個盒子，把它移到一側，從而看見此前被遮擋的空間，並識別其中的物體。雷峰網我們學習動作條件網絡，預測佔據、語義以及相應的不確定性。這些網絡會預測機器人執行某個動作之後，信念會如何變化。網絡也會預測對應的不確定性。隨後，我們選擇那些能夠降低不確定性、或者提高預期信息增益的動作。我們會在接下來兩個動作的序列上做優化，選擇最大化信息增益、降低不確定性的序列。這裡是我們的目標函數。對於純粹的視角變化，我們考慮預期信息增益；對於抓取、推動物體以移除後方遮擋空間的動作，我們還會額外考慮動作成本。然後，我們評估下一步測試動作帶來的信息增益，並在兩個動作的序列上進行優化，以最大化信息、降低不確定性。這是我們與合作者共同開發的方法。接下來可以看到系統運行的過程：左邊是帶有相機的機器人實驗平臺，右邊顯示機器人已經識別出的物體。最開始，機器人已經識別了一些物體，而它的任務是識別場景中的所有物體。使用我們的方法，機器人會查看世界中的不確定性地圖，選擇最好的動作來處理場景中的所有物體。它會移動一些物體，抓取一些物體，把它們放到一側，從而觀察後方空間。最後，機器人識別出了場景中的所有物體。當然，機器人只會移除那些為了覆蓋整個空間而必須移除的物體，並會在之後把它們放回貨架。這裡可以看到，機器人能夠維護關於環境中物體的長期信念。因此，即使存在遮擋，它也知道物體在貨架上的位置。02基於 3D 場景圖的按需物體搜索接下來一個問題是：機器人如何在更大的場景中搜索物體？例如在一個完整家庭環境中，物體會頻繁移動、重新放置，也可能被隱藏在傢俱內部。我們如何讓機器人在用戶需要某個物體時進行搜索，而不是重新探索整個環境？為此，我們把環境重建為一個 3D 場景圖，就像前一場報告中也展示過的那樣。這個圖包含房間、傢俱和隔層結構。我們利用這個圖來推理被搜索物體可能位於哪裡，並把被搜索物體視為相關過程中的動態節點。在搜索物體時，我們進行空間信念推理，利用這個圖表示來推理物體的位置。比如這裡的例子中，機器人的任務是尋找一個物體。環境中有三個可能的位置：貨架、書桌和咖啡桌。第一步，我們使用來自 LLM 的語義先驗，初始化關於搜索物體位置的信念。在這個例子裡，機器人一開始認為最可能的位置是貨架，其次書桌和咖啡桌也有一定概率。當然，我們也考慮幾何信息。我們會預測目標物體是否應該能夠放在某個位置上。如果這個物體太大，無法放進某個隔層，那麼我們就會降低它在該位置的概率，相應地提高其他位置的概率。最後，非常重要的是，我們會基於重定位動態來更新信念。也就是說，機器人學習環境中的物體重定位轉移概率。整體流程有三步。首先，LLM 根據場景圖為我們預測候選放置位置。它的輸入是場景圖，輸出是候選位置，例如傢俱節點或者隔層節點，然後我們把這些排序轉換成關於位置的先驗。其次，我們基於目標物體尺寸過濾掉不可行的位置。再次，我們基於觀察到的稀疏數據更新重定位轉移概率，讓機器人學習人的移動習慣，並隨著時間調整搜索策略。我們把這些因素結合到全局定位中。由於被搜索物體可能在沒有被觀察到的情況下發生變化，我們也允許一定概率擴散到環境中的其他區域。最後，我們進行代價感知的動作選擇，在物體可訪問性、預期動作成本以及對人的影響之間做平衡，由機器人選擇最有用的位置進行檢查。我們在家庭環境數據上評估了這個方法，場景中的物體會發生重定位。評估時，我們給定固定的搜索預算，並測試機器人能否找到目標物體。如果不使用任何先驗信息，只在可能搜索位置上使用均勻先驗，那麼成功率較低。加入語義先驗和幾何先驗後，搜索成功率會提高；進一步加入學習到的重定位轉移後，在固定時間預算下，成功率還能進一步提高。因此，這個方法能夠支持按需搜索，而不需要重新探索整個環境，因為機器人會隨時間維護長期信念。03讓農業機器人少走冤枉路現在我們考慮持續變化的環境。一個具體例子是農業環境：植物會生長，外觀也會隨時間變化。我們考慮園藝或農業應用中的作物重複監測。監測會被反覆執行，例如每週兩次，我們希望通過監測變化來估計產量。當然，我們不希望每次都從頭開始。想法是使用上一個時間點學習到的模型，來指導當前時間點的視角規劃和重建。當作物生長時，它們會帶來嚴重的遮擋，因此我們需要利用上一輪的先驗。我們的平臺會在作物行之間移動，並帶有固定的相機陣列。隨著平臺穿過環境，我們可以部分重建作物行。但由於作物有許多行，而且存在遮擋，當前數據中會出現空洞。於是，我們的想法是利用上一時間步的模型作為先驗，進行高效的視角規劃，移動投影或相機來填補當前時間戳數據中的空洞。具體來說，我們會對上一時間步的重建模型進行非剛性配準。上一時間步的模型更完整，而當前時間步只有部分重建。我們把上一次的模型配準到當前的部分重建上，也就是把兩個點雲以非剛性的方式對齊。之後，我們執行一個優化過程。現在我們有了一個近似表面，可以使用集合覆蓋優化：在估計表面上採樣目標點，然後選擇能夠覆蓋這些目標點的視角。隨後，我們執行覆蓋優化，並用旅行商問題計算一條近似最優路徑。在真實溫室數據中，首先可以看到移動平臺靜態相機得到的部分重建。由於遮擋，當前數據裡有空洞。然後，我們把上一輪數據對齊到當前部分數據，基於近似表面執行視角規劃，再規劃路徑並在平臺上執行，從而收集覆蓋植物的新數據。最後，我們得到了一條高效路徑，覆蓋了所有表面，也填補了當前數據中的空洞。這個模型隨後又可以用於下一時間步的監測。04把葉片也納入行動規劃剛才我們看到，先驗地圖可以幫助重複監測中的視角規劃更高效。但像甜椒或番茄這樣的果實仍然會被部分遮擋，因為機器人不能僅僅依靠尋找它們就完成任務。有時，移動葉片是必要的，這樣才能可靠估計果實形狀和可採摘性。在這項工作中，我們使用葉片形變模型來評估候選動作、評估可能的視角，並預測葉片背後的可見性。通過這種方式，我們可以揭示被遮擋的區域，並估計果實的尺寸。到目前為止，我們假設遮擋葉片是已知的，也就是說機器人知道應該操作哪片葉子，才能看見後方缺失的部分。而我們現在正在做的是學習一種用於遮擋推理的表示。我們的目標是學習一種統一圖表示，建模可見性關係和遮擋關係。利用這個圖，機器人可以識別哪片葉子從哪個方向遮擋了目標，以及應該按什麼順序進行處理。例如，我們會估計觀察方向。在一個例子中，根據這個圖，我們得到果實和葉片的排序，並結合觀察方向判斷某片葉子的遮擋排名最高。因此我們知道，這片葉子需要被推到一側，才能顯露果實並估計它的形狀。剛才介紹的這些技術可以用於估計可採摘狀態，然後進一步執行實際採摘。這裡可以看到，機器人能夠使用一個包含相機、切割器和操作器的三臂系統，可靠地識別作物並完成相關操作。最後總結一下。機器人在很多場景中都運行在雜亂、變化且只能部分觀測的環境裡。因此，機器人需要同時規劃觀察動作和操作動作，用於物體搜索、地圖構建和環境重建。我展示了先驗如何引導感知以及感知和操作動作的規劃。因此，先驗有助於實現高效的主動感知。我還展示了信念傳播如何支持對遮擋物體以及操作動作效果的推理。通過主動選擇能夠降低不確定性、提升可觀測性並處理遮擋的動作，我們能夠增強機器人的能力，讓機器人更好地獲取知識、理解環境。正如我最後提到的，下一步我們將通過學習和表示可見性圖以及遮擋關係，進一步推理遮擋問題；同時也會繼續研究生成式方法和相關服務機器人應用。05Q&A 問答環節聽眾提問：移動葉片這個動作看起來代價比較高。為了估計果實的可採摘性，到底需要實際移動多少？能不能依賴關於果實外形和可採摘性的先驗信息，即使我們沒有完整看到果實？Maren Bennewitz：謝謝你的問題。首先，我們會使用形狀補全方法。比如我們只部分觀察到甜椒時，可以使用一些方法來估計並補全它的形狀。然後，我們會對葉片使用形變模型。我們使用一種形變圖來估計葉片能夠如何被操作、應該往哪個方向移動。之後，我們再估計被遮擋的區域是否能夠被顯露出來。這個過程目前當然仍然有成本，但最終我們能夠得到關於甜椒更完整的信息。聽眾提問：所以你們確實需要移除遮擋物，才能估計它是否可採摘嗎？Maren Bennewitz：我可能沒有完全理解你的問題。你是說僅僅估計可採摘狀態，對嗎？對於可採摘狀態本身，也許並不總是需要移除葉片；但我們這裡討論的是移除葉片來估計形狀、估計合適的操作過程。因此，對於另一些設置，你也許不需要真的移除葉片，但可以做出相應決策。聽眾提問：謝謝你的報告。我很欣賞這種基於信念的方法。我想問的是，當物體被完全遮擋時，物體本身會出現在你的信念先驗中嗎？如果目標完全被遮擋，這種基於信念的方法如何適應？Maren Bennewitz：一開始，機器人完全不知道後面有什麼。這是對的。因此，這個區域會有很高的不確定性，因為我們不瞭解這個區域。於是，機器人會推理應該移動哪些物體，才能看見後面。也就是說，我們會給這個區域的佔據和語義賦予較高的不確定性。聽眾提問：所以信念是關於區域的，而不是關於物體的？Maren Bennewitz：正是如此。我們使用的是度量語義地圖表示，信念是在這個度量語義表示上的。基於這個表示，物體隨後才會被識別出來。謝謝。去哪看 ICRA 核心【演講/論文】詳解？為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨，雷峰網已全面上線【ICRA 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。掃描下方二維碼，或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章