普渡大學Aniket Bera教授：可靠自主機器人的“安全閥”，藏在“可檢查接口”裡 | ICRA 2026

2026年6月8日 02:08

重點摘要

站內 AI 整理稿

2026年6月2日，國際機器人與自動化會議（ICRA 2026）在奧地利維也納進入第二天。普渡大學（Purdue University）計算機科學系教授、IDEAS Lab實驗室主任Aniket Bera發表了題為"RobotsSafe Navigation in Unstructured & Human-Centered Environments"（在非結構化與以人為中心環境中安全導航）的主題演講，系統闡述了他對魯棒自主機器人系統的一整套方法論。他的核心論斷直指當前自主系統研發中的結構性缺陷：今天絕大多數“成功”的自主系統，本質上是因為我們把世界變簡單了，而不是機器人真正理解了世界。工廠裡的機械臂被圍欄隔離、倉庫中的AGV依賴地面標記、自動駕駛依賴高精地圖——這些人為鋪設的外部條件，本質上都是幫助系統起步的腳手架。而真正的自主性，恰恰要求最終拆掉它們。對此，他提出了貫穿其實驗室研究的核心框架——“學習負責提議，結構負責決策”（Learning proposes, Structure decides）。在這一範式下，任何學習型模塊——無論是視覺感知還是大語言模型——都不應該直接輸出最終控制指令，而是必須先通過一道“可檢查接口”（Checkable Interface）：這是一種可被形式化方法驗證、由約束求解器審查的結構化輸出。這條原則貫穿了IDEAS實驗室的四大支柱研究：總結而言，Aniket Bera給出了一條清晰的路線圖：學習賦予機器人靈活性，但結構賦予它們可靠性。二者不是對立的技術路線，而是同一系統中不可分割的兩面——而這正是將自主機器人從實驗室"溫室"推向真實"荒野"的必由之路。以下是Aniket Bera在ICRA 2026大會發表的演講精編稿，雷峰網·AI科技評論基於原英文演講內容進行了不改原意的翻譯編輯：《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》主講人：Aniket Bera，普渡大學（Purdue University）計算機科學系，IDEAS實驗室一、成功的假象：我們不是在"造聰明機器人"，而是在"造溫室" 我是Aniket Bera，普渡大學計算機科學系的教授，領導IDEAS實驗室。我們實驗室橫跨機器人學、計算機視覺、機器學習和以人為中心的自主系統，共同的主線是：我們喜歡造智能的機器人。具身系統如何感知這個混亂的世界？如何推理人類和其他智能體的行為，同時在真實世界中實時執行安全的動作？我先從一個“成功自主系統”的失效模式講起。我們把世界變簡單了，以為這樣機器人就好辦了——給機械臂圍上圍欄，在倉庫地板上貼標記，給車輛裝高精地圖，在工廠裡寫死固定腳本。這些系統能工作，不是因為機器人真正理解環境，而是因為我們把環境精心設計成了機器人能應付的樣子。而我和我實驗室關心的場景，恰恰是要拆掉這些腳手架。機器人可能沒有GPS，沒有先驗地圖，沒有穩定的工作流程——而一個錯誤動作的代價可能是實實在在的物理損失。幾周前我實驗室就發生過一次，代價昂貴。二、核心框架：學習負責提案，結構負責決策正因如此，我把自主系統的問題框架化表述為：在語義約束、社交約束和安全約束下的閉環決策。人們常問：你用的是傳統經典機器人方法，還是基於學習的方法？我認為這個問題本身就是錯的。真正有用的問題是——學習型模塊向自主系統其餘部分暴露的“接口”是什麼？感知模塊不應該只輸出特徵向量，它應該輸出物體、位姿、尺寸和不確定性。同樣，大語言模型不應該直接輸出機器人的控制指令——它應該輸出某種可以被監控、可以被約束求解器檢查的東西。這就是我所說的“可檢查接口”（Checkable Interfaces）。學習負責提出更豐富的表徵、更豐富的候選方案；而結構負責決策哪些可以被信任、哪些需要被執行。這就是我們實驗室工作的底層邏輯。三、感知：從"好看的地圖"到"可用的狀態" 在機器人能夠推理或行動之前，它需要一個狀態估計——這個狀態必須是幾何的、語義的、可定位的，並且對下游任務有用。機器人需要持久化的物體表徵、語義含義、不確定性——即一種可以被底層規劃器查詢的表示。而最難的部分是：所有這些必須實時完成。核心問題是：你的感知棧輸出的是什麼？如果它輸出的是原始像素或某種黑箱嵌入向量，整個系統棧的其餘部分就無法做出安全論證。反之，如果它輸出的是一個類型化的狀態（Typed State），那麼規劃和驗證層就能真正使用它。我們需要知道機器人在哪裡、場景中有哪些物體、這些物體之間的關係是什麼，以及所有這些估計有多不確定。近年來，神經渲染領域（如3D高斯濺射）的工作為建圖、定位和SLAM提供了強大的表示。它能給出稠密、照片級真實、可連續優化的地圖。但這裡有兩個問題：第一，通過渲染-比較-優化光度誤差來估計相機位姿的管線，對於像無人機這樣需要快速閉環控制的場景來說太慢太脆弱；第二，一幅視覺上完美的高斯地圖，並不自動等同於一個規劃狀態——它不包含物體身份、開放詞彙語義，或校準過的不確定性。我們的FastSLAM項目正是針對這個延遲問題。我們把位姿估計問題從“渲染-優化”轉變為“匹配-剛體註冊”：將當前幀與活躍關鍵幀進行匹配，反投影得到兩個3D點集，然後求解SE(3)上的最小二乘對齊——SVD解法直接從互協方差矩陣給出旋轉量。位姿變成一個快速的幾何計算，而重建質量可以異步提升。我們已經在搭載NVIDIA Jetson的無人機上部署了這個系統，在茂密森林中實現實時定位與建圖。沿著同樣的思路，GoSLAM解決的是“如何讓重建的物體具有可指稱性和開放詞彙語義”——讓規劃器可以通過物體名稱查詢地圖，而不是隻能通過像素座標。TransLocNet則解決“無GPS環境下如何將局部地圖全局錨定”——通過將地面觀測與航拍影像進行跨視角、跨季節的配準。想象一下，森林裡大雪紛飛，樹葉落盡，而你的衛星圖是夏天拍的。這需要超越像素和座標層面的表徵理解。所有這些不同的技術問題，被同一條主線縫合在一起：感知必須產出一個可查詢、可定位、可被關注的類型化狀態。四、可信自主：大模型不是決策者，而是被審查的提案者接下來進入第二大支柱：可信自主（Dependability）。在這裡，科學論證變得更加明確。一個學習型模塊可以非常有用，但同時仍然危險——它會在分佈偏移下失效，它的置信度可能被錯誤校準；在語言模型的場景中，它可能生成一個聽上去完美、實則違反任務級約束的計劃。所以問題是：什麼是一個“可檢查的對象”？對感知來說，答案是類型化狀態；對規劃來說，答案必須是一個可容許的計劃或動作。我們的項目SELP（ICRA 2025最佳論文入圍）正是為此而生。它的核心思想是：將大語言模型的角色從"無約束的規劃器"轉變為"受約束的提案機制"。SELP的工作方式是這樣的：將一個機器人任務翻譯成時序邏輯規範（Temporal Logic Specification），然後在生成過程中約束每一步——在每個token被採樣之前，系統先檢查“如果加上這個token，部分計劃是否仍然可行”。如果不可行，這個token在採樣前就被屏蔽。大語言模型仍然是有用的先驗知識來源（幫助生成高效的計劃），但它不再是安全問題的最終權威。這意味著什麼？它意味著約束不是“事後補救”——不是在模型輸出之後再貼一層安全檢查；約束被嵌入到生成過程本身。形式化規範不是護欄，而是搜索空間的邊界。沿著同樣的哲學，我們還開發了CAsForD（Context-Aware Safety For Decision-making，上下文感知決策安全）——當用戶指令不安全時，系統不只說“不”，而是識別不安全成分並選擇安全修復方案。還有我們實驗室的其他工作，通過讓模型產生數學優化程序來表達運動規劃的時間約束。一以貫之的原則是：學習型模塊永遠不獲得未經審查的權威，它產生的計劃、修復和控制必須可驗證、可約束、可認證。五、人不是移動障礙物：行為感知導航與多機器人協作在第三和第四支柱中，我們的工作延伸到更復雜的社交和協作場景。在人類行為建模方面，我們研究的問題包括：在密集社交場景中預測人類運動、建模群體層面的動力學、人-物交互，以及當場景中的物體需要被移動或重新佈置時的規劃。核心主題是：人不僅僅是移動的障礙物——他們互相交互，他們與物體交互，他們與環境交互，圍繞機器人形成了一個耦合的、不確定的動力學系統。機器人必須預測人類行為，推理以物體為中心的上下文，並在幾何約束不足以保障安全時採取行動。在多機器人協作方面，我們研究了協作主動重建、多智能體信息路徑規劃、可擴展的多智能體SLAM等問題。核心主題是去中心化的團隊自主性：每個機器人必須基於局部觀測和有限通信採取行動。我們的策略是，在訓練階段使用集中式學習來獲取優勢，但在部署階段以去中心化方式運行——在部分可觀測、通信受限、多智能體動態交互的條件下。六、結語：讓機器人走出"溫室" 回到最初的四大支柱，我想留給大家一個核心理念：安全的自主系統不是一個單獨的模塊，它是整個系統棧編織在一起的結果。學習賦予機器人靈活性，但結構賦予它們可靠性。真正的目標是——當世界變得混亂：沒有GPS、地圖不完整、物體在移動、處處都是不確定性——機器人仍然能夠以安全的方式行動。 Q&A 問答環節聽眾A：感謝精彩的演講。我覺得工業界存在一個很大的脫節——我們在追逐KPI數字，和真正部署可驗證、安全的系統之間。我想問，您如何看待基於物理的方法與神經渲染（如高斯濺射）在驗證與安全方面的關係？ Aniket Bera：這個問題切中要害。所有的神經模型都需要——人們常說的——“護欄”（guardrails）。但護欄的問題在於，它是一種事後補救：你把機器學習模型建好了，然後貼上一層基於物理的約束或真實世界約束來限制輸出，讓它在做出危險行為之前被攔住。我認為這是極其錯誤的做法。這些約束——無論是物理先驗還是來自其他領域的先驗知識——應該被“嵌入”到學習空間本身中去。這就是為什麼我們要把問題轉化為形式化方法規範：讓我們能夠獨立地約束空間中的每一個輸出，從一開始就保證生成結果的可靠性和可信性。目標不是“全押”在學習方法上，而是找到一種智能的組合——在何處植入形式化方法規範、在何處植入物理約束、在何處植入特定應用所需的其他約束。聽眾A（追問）：您說的是應該“內置”（in）而不是“後置”（post）。我的問題是：作為一個社區，我們有時候在追逐KPI數字，但真正部署物理系統需要考慮的遠不止一個數字。我們如何才能讓這兩者更接近？ Aniket Bera：我要說一些可能不太受歡迎的話。在與工業界合作、尤其是與製造業和國防領域的工程合作伙伴打交道的過程中，我理解為什麼很多工程方案傾向於更傳統的控制方法——因為學術界常常把"學習"包裝成一種萬能神諭，彷彿它能解決下游的一切。我認為彌合這兩個世界的方法，也是讓工程界對基於學習的方法建立信心的方式，就是從一開始就給學習型問題賦予約束、賦予意義。我們不應該只看“教科書數字”，而應該關注系統在哪裡失敗、下游的可靠性指標是什麼。這正是這兩個領域需要更頻繁對話的地方。聽眾B：您談到了讓機器人行為更具社交性。我的問題是如何將這些行為信號傳導到操作層面（manipulation level）？比如在佈置餐桌的任務中，用戶可能期望先放杯子再放盤子，這種對齊如何傳導到運動規劃層面？ Aniket Bera：這是一個很有意思的問題。我認為，如果你能夠在任務層面用更好的物理約束來約束生成過程——確保步驟序列物理上可行，不會導向災難狀態或倫理失效——那麼，形式化方法的技巧就能幫上忙。你可以將基於學習的方法剖分成子模塊，判斷每一步是否仍在規劃邊界之內，還是已經進入了安全關鍵區域。不過，安全約束和文化/行為約束的性質不同。如果你能把每一種約束都建模出來，嵌入到像SELP這樣的形式化方法規範中，我認為只要在安全範圍內，沒有理由不能處理文化線索和行為線索。這個問題我們可以在會後繼續聊。為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨，雷峰網已全面上線【ICRA 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。掃描下方二維碼，或點擊“閱讀原文”關注專區。與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析