雷峰網生成式AI

普渡大學Aniket Bera教授:可靠自主機器人的“安全閥”,藏在“可檢查接口”裡 | ICRA 2026

2026年6月8日 02:08

重點摘要

2026年6月2日,國際機器人與自動化會議(ICRA 2026)在奧地利維也納進入第二天。普渡大學(Purdue University)計算機科學系教授、IDEAS Lab實驗室主任Aniket Bera發表了題為"RobotsSafe Navigation in Unstructured & Human-Centered Environments"(在非結構化與以人為中心環境中安全導航)的主題演講,系統闡述了他對魯棒自主機器人系統的一整套方法論。 他的核心論斷直指當前自主系統研發中的結構性缺陷:今天絕大多數“成功”的自主系統,本質上是因為我們把世界變簡單了,而不是機器人真正理解了世界。 工廠裡的機械臂被圍欄隔離、倉庫中的AGV依賴地面標記、自動駕駛依賴高精地圖——這些人為鋪設的外部條件,本質上都是幫助系統起步的腳手架。而真正的自主性,恰恰要求最終拆掉它們。 對此,他提出了貫穿其實驗室研究的核心框架——“學習負責提議,結構負責決策”(Learning proposes, Structure decides)。在這一範式下,任何學習型模塊——無論是視覺感知還是大語言模型——都不應該直接輸出最終控制指令,而是必須先通過一道“可檢查接口”(Checkable Interface):這是一種可被形式化方法驗證、由約束求解器審查的結構化輸出。這條原則貫穿了IDEAS實驗室的四大支柱研究: 總結而言,Aniket Bera給出了一條清晰的路線圖:學習賦予機器人靈活性,但結構賦予它們可靠性。 二者不是對立的技術路線,而是同一系統中不可分割的兩面——而這正是將自主機器人從實驗室"溫室"推向真實"荒野"的必由之路。 以下是Aniket Bera在ICRA 2026大會發表的演講精編稿,雷峰網·AI科技評論基於原英文演講內容進行了不改原意的翻譯編輯: 《Toivard Behaviorally

站內 AI 整理稿

2026年6月2日,國際機器人與自動化會議(ICRA 2026)在奧地利維也納進入第二天。普渡大學(Purdue University)計算機科學系教授、IDEAS Lab實驗室主任Aniket Bera發表了題為"RobotsSafe Navigation in Unstructured & Human-Centered Environments"(在非結構化與以人為中心環境中安全導航)的主題演講,系統闡述了他對魯棒自主機器人系統的一整套方法論。 他的核心論斷直指當前自主系統研發中的結構性缺陷:今天絕大多數“成功”的自主系統,本質上是因為我們把世界變簡單了,而不是機器人真正理解了世界。 工廠裡的機械臂被圍欄隔離、倉庫中的AGV依賴地面標記、自動駕駛依賴高精地圖——這些人為鋪設的外部條件,本質上都是幫助系統起步的腳手架。而真正的自主性,恰恰要求最終拆掉它們。 對此,他提出了貫穿其實驗室研究的核心框架——“學習負責提議,結構負責決策”(Learning proposes, Structure decides)。在這一範式下,任何學習型模塊——無論是視覺感知還是大語言模型——都不應該直接輸出最終控制指令,而是必須先通過一道“可檢查接口”(Checkable Interface):這是一種可被形式化方法驗證、由約束求解器審查的結構化輸出。這條原則貫穿了IDEAS實驗室的四大支柱研究: 總結而言,Aniket Bera給出了一條清晰的路線圖:學習賦予機器人靈活性,但結構賦予它們可靠性。 二者不是對立的技術路線,而是同一系統中不可分割的兩面——而這正是將自主機器人從實驗室"溫室"推向真實"荒野"的必由之路。 以下是Aniket Bera在ICRA 2026大會發表的演講精編稿,雷峰網·AI科技評論基於原英文演講內容進行了不改原意的翻譯編輯: 《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》主講人:Aniket Bera,普渡大學(Purdue University)計算機科學系,IDEAS實驗室 一、成功的假象:我們不是在"造聰明機器人",而是在"造溫室" 我是Aniket Bera,普渡大學計算機科學系的教授,領導IDEAS實驗室。我們實驗室橫跨機器人學、計算機視覺、機器學習和以人為中心的自主系統,共同的主線是:我們喜歡造智能的機器人。具身系統如何感知這個混亂的世界?如何推理人類和其他智能體的行為,同時在真實世界中實時執行安全的動作? 我先從一個“成功自主系統”的失效模式講起。我們把世界變簡單了,以為這樣機器人就好辦了——給機械臂圍上圍欄,在倉庫地板上貼標記,給車輛裝高精地圖,在工廠裡寫死固定腳本。這些系統能工作,不是因為機器人真正理解環境,而是因為我們把環境精心設計成了機器人能應付的樣子。 而我和我實驗室關心的場景,恰恰是要拆掉這些腳手架。機器人可能沒有GPS,沒有先驗地圖,沒有穩定的工作流程——而一個錯誤動作的代價可能是實實在在的物理損失。幾周前我實驗室就發生過一次,代價昂貴。 二、核心框架:學習負責提案,結構負責決策 正因如此,我把自主系統的問題框架化表述為:在語義約束、社交約束和安全約束下的閉環決策。 人們常問:你用的是傳統經典機器人方法,還是基於學習的方法?我認為這個問題本身就是錯的。真正有用的問題是——學習型模塊向自主系統其餘部分暴露的“接口”是什麼? 感知模塊不應該只輸出特徵向量,它應該輸出物體、位姿、尺寸和不確定性。同樣,大語言模型不應該直接輸出機器人的控制指令——它應該輸出某種可以被監控、可以被約束求解器檢查的東西。這就是我所說的“可檢查接口”(Checkable Interfaces)。 學習負責提出更豐富的表徵、更豐富的候選方案;而結構負責決策哪些可以被信任、哪些需要被執行。這就是我們實驗室工作的底層邏輯。 三、感知:從"好看的地圖"到"可用的狀態" 在機器人能夠推理或行動之前,它需要一個狀態估計——這個狀態必須是幾何的、語義的、可定位的,並且對下游任務有用。機器人需要持久化的物體表徵、語義含義、不確定性——即一種可以被底層規劃器查詢的表示。而最難的部分是:所有這些必須實時完成。 核心問題是:你的感知棧輸出的是什麼? 如果它輸出的是原始像素或某種黑箱嵌入向量,整個系統棧的其餘部分就無法做出安全論證。反之,如果它輸出的是一個類型化的狀態(Typed State),那麼規劃和驗證層就能真正使用它。我們需要知道機器人在哪裡、場景中有哪些物體、這些物體之間的關係是什麼,以及所有這些估計有多不確定。 近年來,神經渲染領域(如3D高斯濺射)的工作為建圖、定位和SLAM提供了強大的表示。它能給出稠密、照片級真實、可連續優化的地圖。但這裡有兩個問題:第一,通過渲染-比較-優化光度誤差來估計相機位姿的管線,對於像無人機這樣需要快速閉環控制的場景來說太慢太脆弱;第二,一幅視覺上完美的高斯地圖,並不自動等同於一個規劃狀態——它不包含物體身份、開放詞彙語義,或校準過的不確定性。 我們的FastSLAM項目正是針對這個延遲問題。我們把位姿估計問題從“渲染-優化”轉變為“匹配-剛體註冊”:將當前幀與活躍關鍵幀進行匹配,反投影得到兩個3D點集,然後求解SE(3)上的最小二乘對齊——SVD解法直接從互協方差矩陣給出旋轉量。位姿變成一個快速的幾何計算,而重建質量可以異步提升。我們已經在搭載NVIDIA Jetson的無人機上部署了這個系統,在茂密森林中實現實時定位與建圖。 沿著同樣的思路,GoSLAM解決的是“如何讓重建的物體具有可指稱性和開放詞彙語義”——讓規劃器可以通過物體名稱查詢地圖,而不是隻能通過像素座標。TransLocNet則解決“無GPS環境下如何將局部地圖全局錨定”——通過將地面觀測與航拍影像進行跨視角、跨季節的配準。想象一下,森林裡大雪紛飛,樹葉落盡,而你的衛星圖是夏天拍的。這需要超越像素和座標層面的表徵理解。 所有這些不同的技術問題,被同一條主線縫合在一起:感知必須產出一個可查詢、可定位、可被關注的類型化狀態。 四、可信自主:大模型不是決策者,而是被審查的提案者 接下來進入第二大支柱:可信自主(Dependability)。在這裡,科學論證變得更加明確。一個學習型模塊可以非常有用,但同時仍然危險——它會在分佈偏移下失效,它的置信度可能被錯誤校準;在語言模型的場景中,它可能生成一個聽上去完美、實則違反任務級約束的計劃。 所以問題是:什麼是一個“可檢查的對象”?對感知來說,答案是類型化狀態;對規劃來說,答案必須是一個可容許的計劃或動作。 我們的項目SELP(ICRA 2025最佳論文入圍)正是為此而生。它的核心思想是:將大語言模型的角色從"無約束的規劃器"轉變為"受約束的提案機制"。SELP的工作方式是這樣的:將一個機器人任務翻譯成時序邏輯規範(Temporal Logic Specification),然後在生成過程中約束每一步——在每個token被採樣之前,系統先檢查“如果加上這個token,部分計劃是否仍然可行”。 如果不可行,這個token在採樣前就被屏蔽。大語言模型仍然是有用的先驗知識來源(幫助生成高效的計劃),但它不再是安全問題的最終權威。 這意味著什麼?它意味著約束不是“事後補救”——不是在模型輸出之後再貼一層安全檢查;約束被嵌入到生成過程本身。 形式化規範不是護欄,而是搜索空間的邊界。 沿著同樣的哲學,我們還開發了CAsForD(Context-Aware Safety For Decision-making,上下文感知決策安全)——當用戶指令不安全時,系統不只說“不”,而是識別不安全成分並選擇安全修復方案。 還有我們實驗室的其他工作,通過讓模型產生數學優化程序來表達運動規劃的時間約束。一以貫之的原則是:學習型模塊永遠不獲得未經審查的權威,它產生的計劃、修復和控制必須可驗證、可約束、可認證。五、人不是移動障礙物:行為感知導航與多機器人協作 在第三和第四支柱中,我們的工作延伸到更復雜的社交和協作場景。 在人類行為建模方面,我們研究的問題包括:在密集社交場景中預測人類運動、建模群體層面的動力學、人-物交互,以及當場景中的物體需要被移動或重新佈置時的規劃。核心主題是:人不僅僅是移動的障礙物——他們互相交互,他們與物體交互,他們與環境交互,圍繞機器人形成了一個耦合的、不確定的動力學系統。 機器人必須預測人類行為,推理以物體為中心的上下文,並在幾何約束不足以保障安全時採取行動。 在多機器人協作方面,我們研究了協作主動重建、多智能體信息路徑規劃、可擴展的多智能體SLAM等問題。核心主題是去中心化的團隊自主性:每個機器人必須基於局部觀測和有限通信採取行動。我們的策略是,在訓練階段使用集中式學習來獲取優勢,但在部署階段以去中心化方式運行——在部分可觀測、通信受限、多智能體動態交互的條件下。 六、結語:讓機器人走出"溫室" 回到最初的四大支柱,我想留給大家一個核心理念:安全的自主系統不是一個單獨的模塊,它是整個系統棧編織在一起的結果。 學習賦予機器人靈活性,但結構賦予它們可靠性。真正的目標是——當世界變得混亂:沒有GPS、地圖不完整、物體在移動、處處都是不確定性——機器人仍然能夠以安全的方式行動。 Q&A 問答環節 聽眾A: 感謝精彩的演講。我覺得工業界存在一個很大的脫節——我們在追逐KPI數字,和真正部署可驗證、安全的系統之間。我想問,您如何看待基於物理的方法與神經渲染(如高斯濺射)在驗證與安全方面的關係? Aniket Bera: 這個問題切中要害。所有的神經模型都需要——人們常說的——“護欄”(guardrails)。但護欄的問題在於,它是一種事後補救:你把機器學習模型建好了,然後貼上一層基於物理的約束或真實世界約束來限制輸出,讓它在做出危險行為之前被攔住。我認為這是極其錯誤的做法。這些約束——無論是物理先驗還是來自其他領域的先驗知識——應該被“嵌入”到學習空間本身中去。這就是為什麼我們要把問題轉化為形式化方法規範:讓我們能夠獨立地約束空間中的每一個輸出,從一開始就保證生成結果的可靠性和可信性。目標不是“全押”在學習方法上,而是找到一種智能的組合——在何處植入形式化方法規範、在何處植入物理約束、在何處植入特定應用所需的其他約束。 聽眾A(追問): 您說的是應該“內置”(in)而不是“後置”(post)。我的問題是:作為一個社區,我們有時候在追逐KPI數字,但真正部署物理系統需要考慮的遠不止一個數字。我們如何才能讓這兩者更接近? Aniket Bera: 我要說一些可能不太受歡迎的話。在與工業界合作、尤其是與製造業和國防領域的工程合作伙伴打交道的過程中,我理解為什麼很多工程方案傾向於更傳統的控制方法——因為學術界常常把"學習"包裝成一種萬能神諭,彷彿它能解決下游的一切。 我認為彌合這兩個世界的方法,也是讓工程界對基於學習的方法建立信心的方式,就是從一開始就給學習型問題賦予約束、賦予意義。我們不應該只看“教科書數字”,而應該關注系統在哪裡失敗、下游的可靠性指標是什麼。這正是這兩個領域需要更頻繁對話的地方。 聽眾B: 您談到了讓機器人行為更具社交性。我的問題是如何將這些行為信號傳導到操作層面(manipulation level)?比如在佈置餐桌的任務中,用戶可能期望先放杯子再放盤子,這種對齊如何傳導到運動規劃層面? Aniket Bera: 這是一個很有意思的問題。我認為,如果你能夠在任務層面用更好的物理約束來約束生成過程——確保步驟序列物理上可行,不會導向災難狀態或倫理失效——那麼,形式化方法的技巧就能幫上忙。你可以將基於學習的方法剖分成子模塊,判斷每一步是否仍在規劃邊界之內,還是已經進入了安全關鍵區域。 不過,安全約束和文化/行為約束的性質不同。如果你能把每一種約束都建模出來,嵌入到像SELP這樣的形式化方法規範中,我認為只要在安全範圍內,沒有理由不能處理文化線索和行為線索。這個問題我們可以在會後繼續聊。 為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨,雷峰網已全面上線【ICRA 2026 深度專區】。 專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。掃描下方二維碼,或點擊“閱讀原文”關注專區。與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

22 小時前