雷峰網生成式AI

波恩大學 Maren Bennewitz 教授:讓機器人在遮擋世界中主動獲取信息 | ICRA 2026

2026年6月5日 10:12

重點摘要

機器人不能只會“看見”。 作者丨鄭佳美 編輯丨馬曉寧 2026 年 6 月 4 日,在 ICRA 2026 “Robot perception and spatial AI” Keynote Session 上,波恩大學教授 Maren Bennewitz 發表了關於主動感知機器人的演講,直指真實機器人部署中的一個基本困境:機器人面對的世界往往是雜亂、持續變化且只能部分觀測的,僅靠被動觀察無法完成可靠理解。Bennewitz 的核心判斷是:機器人要真正進入家庭、農業和服務場景,不能只把感知當作“看一眼”的過程,而必須把感知、預測、先驗知識和動作規劃放到同一個閉環裡。機器人需要主動移動視角、推動或抓取遮擋物,用最少的動作獲得最多的信息。她在演講中給出了三類典型場景:其一,在貨架或桌面等遮擋環境中,機器人通過不確定性感知的語義地圖,決定哪些物體值得移動;其二,在家庭物體搜索中,機器人利用 3D 場景圖、LLM 語義先驗、幾何約束和物體重定位規律,在不重新探索全屋的情況下按需尋找物體;其三,在農業監測與果實採摘中,機器人藉助上一時刻的地圖先驗、非剛性配準和葉片形變模型,規劃更高效的觀測與操作動作。這場演講的關鍵洞察在於:主動感知並不是“多看幾眼”,而是把“看哪裡、動什麼、何時停止”變成信息增益最大化問題。對於機器人而言,世界不是一張靜態照片,而是一組可以通過行動逐步揭開的信念分佈。1、真實環境的核心難點不是沒有圖像,而是不確定性和遮擋:機器人必須知道自己不知道什麼。2、主動感知的價值在於把動作變成信息採集工具:換視角、推開物體、移動葉片,都是為了降低地圖和語義的不確定性。3、先驗知識並不替代感知,而是幫助機器人更聰明地選擇下一步:LLM 提供語義常識,幾何模型過濾不可能位置,重定位模型學習人類移動物體的習慣。4、在農業機器人中,時間維度同樣重要:上一輪完整重建可以作為下一輪觀測規

站內 AI 整理稿

機器人不能只會“看見”。 作者丨鄭佳美 編輯丨馬曉寧 2026 年 6 月 4 日,在 ICRA 2026 “Robot perception and spatial AI” Keynote Session 上,波恩大學教授 Maren Bennewitz 發表了關於主動感知機器人的演講,直指真實機器人部署中的一個基本困境:機器人面對的世界往往是雜亂、持續變化且只能部分觀測的,僅靠被動觀察無法完成可靠理解。Bennewitz 的核心判斷是:機器人要真正進入家庭、農業和服務場景,不能只把感知當作“看一眼”的過程,而必須把感知、預測、先驗知識和動作規劃放到同一個閉環裡。機器人需要主動移動視角、推動或抓取遮擋物,用最少的動作獲得最多的信息。她在演講中給出了三類典型場景:其一,在貨架或桌面等遮擋環境中,機器人通過不確定性感知的語義地圖,決定哪些物體值得移動;其二,在家庭物體搜索中,機器人利用 3D 場景圖、LLM 語義先驗、幾何約束和物體重定位規律,在不重新探索全屋的情況下按需尋找物體;其三,在農業監測與果實採摘中,機器人藉助上一時刻的地圖先驗、非剛性配準和葉片形變模型,規劃更高效的觀測與操作動作。這場演講的關鍵洞察在於:主動感知並不是“多看幾眼”,而是把“看哪裡、動什麼、何時停止”變成信息增益最大化問題。對於機器人而言,世界不是一張靜態照片,而是一組可以通過行動逐步揭開的信念分佈。1、真實環境的核心難點不是沒有圖像,而是不確定性和遮擋:機器人必須知道自己不知道什麼。2、主動感知的價值在於把動作變成信息採集工具:換視角、推開物體、移動葉片,都是為了降低地圖和語義的不確定性。3、先驗知識並不替代感知,而是幫助機器人更聰明地選擇下一步:LLM 提供語義常識,幾何模型過濾不可能位置,重定位模型學習人類移動物體的習慣。4、在農業機器人中,時間維度同樣重要:上一輪完整重建可以作為下一輪觀測規劃的先驗,讓機器人在重複監測中避免從零開始。5、面向採摘等高價值任務,機器人需要從“識別果實”進一步走向“估計可採摘性”,並理解葉片、視角和目標之間的遮擋關係。總的來看,Bennewitz 試圖回答的是一個非常現實的問題:當機器人無法一次看清世界時,它應該如何通過行動把未知變成已知?她的答案是,用信念表示世界,用先驗約束搜索,用動作主動降低不確定性。以下是AI 科技評論對 Maren Bennewitz 在 ICRA 2026 大會發表的演講實錄整理。內容基於英文現場轉寫進行不改原意的中文整理。01為了看見遮擋物,機器人必須學會“動手”正如我們都知道的,機器人運行在雜亂、變化且只能部分觀測的環境中。因此,單純被動觀察遠遠不夠。為了完成任務,主動感知環境是必要的。主動感知機器人必須在行動中整合感知、預測、先驗信息和動作,主動獲取信息,並提升對環境的理解。今天我將介紹機器人如何高效增強它對世界的知識,主要圍繞雜亂場景和隱藏物體展開。更具體地說,我會講機器人如何利用先驗和試探性動作,在少量步驟內完成感知和操作。先看一個場景。我們有一個貨架,前面有幾個盒子,擋住了後方空間的視線。問題是,我們怎樣才能看見盒子後面的物體?也就是說,機器人如何推理前方物體背後可能存在什麼?雷峰網在這個例子裡,僅僅改變視角是不夠的。機器人必須移動場景中的一些物體,才能看見後面並覆蓋被遮擋的空間。這就是我們關注的問題。我們使用一種帶有不確定性的度量語義地圖表示。這個表示既可以推理場景中的所有物體,也可以推理操作動作及其約束的影響。我們學習一個模型,預測這個地圖表示會如何隨著動作結果而演化。也就是說,我們預測場景會如何因為視角變化、推動或者抓取而改變,並把它作為動作如何改變世界的先驗。基於這個學習到的模型,我們可以推斷動作的效果。因此,機器人會選擇那些能夠降低環境表示不確定性、降低度量語義表示不確定性的最佳動作。比如在這個案例裡,機器人可以先向左推動一個盒子,然後抓取另一個盒子,把它移到一側,從而看見此前被遮擋的空間,並識別其中的物體。雷峰網我們學習動作條件網絡,預測佔據、語義以及相應的不確定性。這些網絡會預測機器人執行某個動作之後,信念會如何變化。網絡也會預測對應的不確定性。隨後,我們選擇那些能夠降低不確定性、或者提高預期信息增益的動作。我們會在接下來兩個動作的序列上做優化,選擇最大化信息增益、降低不確定性的序列。這裡是我們的目標函數。對於純粹的視角變化,我們考慮預期信息增益;對於抓取、推動物體以移除後方遮擋空間的動作,我們還會額外考慮動作成本。然後,我們評估下一步測試動作帶來的信息增益,並在兩個動作的序列上進行優化,以最大化信息、降低不確定性。這是我們與合作者共同開發的方法。接下來可以看到系統運行的過程:左邊是帶有相機的機器人實驗平臺,右邊顯示機器人已經識別出的物體。最開始,機器人已經識別了一些物體,而它的任務是識別場景中的所有物體。使用我們的方法,機器人會查看世界中的不確定性地圖,選擇最好的動作來處理場景中的所有物體。它會移動一些物體,抓取一些物體,把它們放到一側,從而觀察後方空間。最後,機器人識別出了場景中的所有物體。當然,機器人只會移除那些為了覆蓋整個空間而必須移除的物體,並會在之後把它們放回貨架。這裡可以看到,機器人能夠維護關於環境中物體的長期信念。因此,即使存在遮擋,它也知道物體在貨架上的位置。02基於 3D 場景圖的按需物體搜索接下來一個問題是:機器人如何在更大的場景中搜索物體?例如在一個完整家庭環境中,物體會頻繁移動、重新放置,也可能被隱藏在傢俱內部。我們如何讓機器人在用戶需要某個物體時進行搜索,而不是重新探索整個環境?為此,我們把環境重建為一個 3D 場景圖,就像前一場報告中也展示過的那樣。這個圖包含房間、傢俱和隔層結構。我們利用這個圖來推理被搜索物體可能位於哪裡,並把被搜索物體視為相關過程中的動態節點。在搜索物體時,我們進行空間信念推理,利用這個圖表示來推理物體的位置。比如這裡的例子中,機器人的任務是尋找一個物體。環境中有三個可能的位置:貨架、書桌和咖啡桌。第一步,我們使用來自 LLM 的語義先驗,初始化關於搜索物體位置的信念。在這個例子裡,機器人一開始認為最可能的位置是貨架,其次書桌和咖啡桌也有一定概率。當然,我們也考慮幾何信息。我們會預測目標物體是否應該能夠放在某個位置上。如果這個物體太大,無法放進某個隔層,那麼我們就會降低它在該位置的概率,相應地提高其他位置的概率。最後,非常重要的是,我們會基於重定位動態來更新信念。也就是說,機器人學習環境中的物體重定位轉移概率。整體流程有三步。首先,LLM 根據場景圖為我們預測候選放置位置。它的輸入是場景圖,輸出是候選位置,例如傢俱節點或者隔層節點,然後我們把這些排序轉換成關於位置的先驗。其次,我們基於目標物體尺寸過濾掉不可行的位置。再次,我們基於觀察到的稀疏數據更新重定位轉移概率,讓機器人學習人的移動習慣,並隨著時間調整搜索策略。我們把這些因素結合到全局定位中。由於被搜索物體可能在沒有被觀察到的情況下發生變化,我們也允許一定概率擴散到環境中的其他區域。最後,我們進行代價感知的動作選擇,在物體可訪問性、預期動作成本以及對人的影響之間做平衡,由機器人選擇最有用的位置進行檢查。我們在家庭環境數據上評估了這個方法,場景中的物體會發生重定位。評估時,我們給定固定的搜索預算,並測試機器人能否找到目標物體。如果不使用任何先驗信息,只在可能搜索位置上使用均勻先驗,那麼成功率較低。加入語義先驗和幾何先驗後,搜索成功率會提高;進一步加入學習到的重定位轉移後,在固定時間預算下,成功率還能進一步提高。因此,這個方法能夠支持按需搜索,而不需要重新探索整個環境,因為機器人會隨時間維護長期信念。03讓農業機器人少走冤枉路現在我們考慮持續變化的環境。一個具體例子是農業環境:植物會生長,外觀也會隨時間變化。我們考慮園藝或農業應用中的作物重複監測。監測會被反覆執行,例如每週兩次,我們希望通過監測變化來估計產量。當然,我們不希望每次都從頭開始。想法是使用上一個時間點學習到的模型,來指導當前時間點的視角規劃和重建。當作物生長時,它們會帶來嚴重的遮擋,因此我們需要利用上一輪的先驗。我們的平臺會在作物行之間移動,並帶有固定的相機陣列。隨著平臺穿過環境,我們可以部分重建作物行。但由於作物有許多行,而且存在遮擋,當前數據中會出現空洞。於是,我們的想法是利用上一時間步的模型作為先驗,進行高效的視角規劃,移動投影或相機來填補當前時間戳數據中的空洞。具體來說,我們會對上一時間步的重建模型進行非剛性配準。上一時間步的模型更完整,而當前時間步只有部分重建。我們把上一次的模型配準到當前的部分重建上,也就是把兩個點雲以非剛性的方式對齊。之後,我們執行一個優化過程。現在我們有了一個近似表面,可以使用集合覆蓋優化:在估計表面上採樣目標點,然後選擇能夠覆蓋這些目標點的視角。隨後,我們執行覆蓋優化,並用旅行商問題計算一條近似最優路徑。在真實溫室數據中,首先可以看到移動平臺靜態相機得到的部分重建。由於遮擋,當前數據裡有空洞。然後,我們把上一輪數據對齊到當前部分數據,基於近似表面執行視角規劃,再規劃路徑並在平臺上執行,從而收集覆蓋植物的新數據。最後,我們得到了一條高效路徑,覆蓋了所有表面,也填補了當前數據中的空洞。這個模型隨後又可以用於下一時間步的監測。04把葉片也納入行動規劃剛才我們看到,先驗地圖可以幫助重複監測中的視角規劃更高效。但像甜椒或番茄這樣的果實仍然會被部分遮擋,因為機器人不能僅僅依靠尋找它們就完成任務。有時,移動葉片是必要的,這樣才能可靠估計果實形狀和可採摘性。在這項工作中,我們使用葉片形變模型來評估候選動作、評估可能的視角,並預測葉片背後的可見性。通過這種方式,我們可以揭示被遮擋的區域,並估計果實的尺寸。到目前為止,我們假設遮擋葉片是已知的,也就是說機器人知道應該操作哪片葉子,才能看見後方缺失的部分。而我們現在正在做的是學習一種用於遮擋推理的表示。我們的目標是學習一種統一圖表示,建模可見性關係和遮擋關係。利用這個圖,機器人可以識別哪片葉子從哪個方向遮擋了目標,以及應該按什麼順序進行處理。例如,我們會估計觀察方向。在一個例子中,根據這個圖,我們得到果實和葉片的排序,並結合觀察方向判斷某片葉子的遮擋排名最高。因此我們知道,這片葉子需要被推到一側,才能顯露果實並估計它的形狀。剛才介紹的這些技術可以用於估計可採摘狀態,然後進一步執行實際採摘。這裡可以看到,機器人能夠使用一個包含相機、切割器和操作器的三臂系統,可靠地識別作物並完成相關操作。最後總結一下。機器人在很多場景中都運行在雜亂、變化且只能部分觀測的環境裡。因此,機器人需要同時規劃觀察動作和操作動作,用於物體搜索、地圖構建和環境重建。我展示了先驗如何引導感知以及感知和操作動作的規劃。因此,先驗有助於實現高效的主動感知。我還展示了信念傳播如何支持對遮擋物體以及操作動作效果的推理。通過主動選擇能夠降低不確定性、提升可觀測性並處理遮擋的動作,我們能夠增強機器人的能力,讓機器人更好地獲取知識、理解環境。正如我最後提到的,下一步我們將通過學習和表示可見性圖以及遮擋關係,進一步推理遮擋問題;同時也會繼續研究生成式方法和相關服務機器人應用。05Q&A 問答環節聽眾提問:移動葉片這個動作看起來代價比較高。為了估計果實的可採摘性,到底需要實際移動多少?能不能依賴關於果實外形和可採摘性的先驗信息,即使我們沒有完整看到果實?Maren Bennewitz:謝謝你的問題。首先,我們會使用形狀補全方法。比如我們只部分觀察到甜椒時,可以使用一些方法來估計並補全它的形狀。然後,我們會對葉片使用形變模型。我們使用一種形變圖來估計葉片能夠如何被操作、應該往哪個方向移動。之後,我們再估計被遮擋的區域是否能夠被顯露出來。這個過程目前當然仍然有成本,但最終我們能夠得到關於甜椒更完整的信息。聽眾提問:所以你們確實需要移除遮擋物,才能估計它是否可採摘嗎?Maren Bennewitz:我可能沒有完全理解你的問題。你是說僅僅估計可採摘狀態,對嗎?對於可採摘狀態本身,也許並不總是需要移除葉片;但我們這裡討論的是移除葉片來估計形狀、估計合適的操作過程。因此,對於另一些設置,你也許不需要真的移除葉片,但可以做出相應決策。聽眾提問:謝謝你的報告。我很欣賞這種基於信念的方法。我想問的是,當物體被完全遮擋時,物體本身會出現在你的信念先驗中嗎?如果目標完全被遮擋,這種基於信念的方法如何適應?Maren Bennewitz:一開始,機器人完全不知道後面有什麼。這是對的。因此,這個區域會有很高的不確定性,因為我們不瞭解這個區域。於是,機器人會推理應該移動哪些物體,才能看見後面。也就是說,我們會給這個區域的佔據和語義賦予較高的不確定性。聽眾提問:所以信念是關於區域的,而不是關於物體的?Maren Bennewitz:正是如此。我們使用的是度量語義地圖表示,信念是在這個度量語義表示上的。基於這個表示,物體隨後才會被識別出來。謝謝。去哪看 ICRA 核心【演講/論文】詳解?為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨,雷峰網已全面上線【ICRA 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。掃描下方二維碼,或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前