雷峰網生成式AI

斯坦福Jeannette Bohg教授:拋棄“人手崇拜”,靈巧手要「解構物理」 | ICRA 2026

2026年6月8日 02:11

重點摘要

2026年6月3日,ICRA 2026維也納會議“操作、控制與具身設計”主題Keynote環節,斯坦福大學計算機科學系的副教授,同時也是斯坦福交互式感知實驗室(Interactive Perception Lab)的負責人Jeannette Bohg以一個反問開場——“我們還需要靈巧手嗎?” 這個問題之所以有力,恰恰因為它指向了當下機器人操作領域最真實的張力:二指夾爪(two-finger gripper)配合端到端大模型,已經能完成Rubik魔方、精細拼裝等令人歎服的任務。那麼,高自由度、高複雜度的靈巧手(dexterous hand)的價值究竟在哪裡? Jeannette Bohg給出了清晰的回答:靈巧手的價值不在於“像人類一樣”,而在於吞吐量(throughput)與可控子空間(controllable subspace)這兩個維度上不可替代的優勢。她舉了一個例子: 一名製表大師用小指穩定工具、用腕部旋轉螺絲,是經過兩年訓練後才湧現的高效策略——這種能力,夾爪永遠無法復現。 然而,靈巧手的困境同樣清晰:22個自由度、多接觸狀態的切換,讓遠程操控(teleop)數據採集極其困難且低效。對此,Bohg提出了她實驗室的核心方法論——不從人手學,從物體軌跡學。 她的研究路線分兩步走:第一步:Sim-tool-real的統一操作策略(UniSim-Real)。 在仿真中對基元物體集合訓練單一RL策略,驅動策略的“目標信號”不是人手姿態,而是物體的目標位姿序列——這個目標序列來自人類視頻,但經由基礎模型提取出“物體在做什麼”,與“人手如何移動”完全解耦。結果是一個零樣本(zero-shot)遷移泛化到大量工具與任務的單一策略。第二步:Play-to-Effect的精細化微調。 上述“泛化探索策略(Play Policy)雖然掌握了原子級技能,但對精度要求極高的裝配任務(如公差極小

站內 AI 整理稿

2026年6月3日,ICRA 2026維也納會議“操作、控制與具身設計”主題Keynote環節,斯坦福大學計算機科學系的副教授,同時也是斯坦福交互式感知實驗室(Interactive Perception Lab)的負責人Jeannette Bohg以一個反問開場——“我們還需要靈巧手嗎?” 這個問題之所以有力,恰恰因為它指向了當下機器人操作領域最真實的張力:二指夾爪(two-finger gripper)配合端到端大模型,已經能完成Rubik魔方、精細拼裝等令人歎服的任務。那麼,高自由度、高複雜度的靈巧手(dexterous hand)的價值究竟在哪裡? Jeannette Bohg給出了清晰的回答:靈巧手的價值不在於“像人類一樣”,而在於吞吐量(throughput)與可控子空間(controllable subspace)這兩個維度上不可替代的優勢。她舉了一個例子: 一名製表大師用小指穩定工具、用腕部旋轉螺絲,是經過兩年訓練後才湧現的高效策略——這種能力,夾爪永遠無法復現。 然而,靈巧手的困境同樣清晰:22個自由度、多接觸狀態的切換,讓遠程操控(teleop)數據採集極其困難且低效。對此,Bohg提出了她實驗室的核心方法論——不從人手學,從物體軌跡學。 她的研究路線分兩步走:第一步:Sim-tool-real的統一操作策略(UniSim-Real)。 在仿真中對基元物體集合訓練單一RL策略,驅動策略的“目標信號”不是人手姿態,而是物體的目標位姿序列——這個目標序列來自人類視頻,但經由基礎模型提取出“物體在做什麼”,與“人手如何移動”完全解耦。結果是一個零樣本(zero-shot)遷移泛化到大量工具與任務的單一策略。第二步:Play-to-Effect的精細化微調。 上述“泛化探索策略(Play Policy)雖然掌握了原子級技能,但對精度要求極高的裝配任務(如公差極小的插孔)表現不足。團隊將該預訓練策略作為起點,通過精調(fine-tune)實現高精度插拔、傢俱組裝等任務——比從頭訓練更快、更魯棒,對外力干擾的抵抗力也更強。Bohg最後坦誠地提出了尚未解決的核心問題:如何彌合“低維度RL物體表徵”與“自我中心視頻中蘊含的豐富視覺-物理複雜性”之間的鴻溝? 這是她實驗室目前正在攻堅的開放問題,也是靈巧手走向真正通用的最後一塊拼圖。 以下是Jeannette Bohg在ICRA 2026大會上發表的演講精編稿,雷峰網·AI科技評論基於原英文演講內容進行了不改原意的翻譯編輯: 《Do We Still Need Dexterous Hands?》主講人:Jeannette Bohg,斯坦福大學一、反問開場:二指夾爪已經這麼強了,靈巧手還有位置嗎?今天我想提出一個問題:我們還需要靈巧手嗎?我之所以問這個,是因為兩指夾爪(two-finger gripper)所能做到的事情確實令人印象深刻。我舉兩個例子:一個來自Generalist團隊,大家應該都見過,他們用兩隻手兩個夾爪能做出相當驚豔的操作;另一個是我週一錄下來的視頻——一名研究人員展示的,一個人在解那個Gearboard的拼板,可以看到這個人操作得很吃力;而右邊,那個兩指夾爪機器人卻把這個任務完成得相當出色。把皮帶套到齒輪上,這個任務其實相當難。然而,我確實認為靈巧手有它不可替代的位置。 二、為什麼需要靈巧手:吞吐量與可控子空間那麼,我們究竟為什麼要研究靈巧手?首先,吞吐量(throughput)。我來展示一個視頻——我的一個學生找到的,一個人抓起工具然後用它擰緊螺絲,速度相當快。我們仔細看:首先是用靈巧手抓起桌上的工具,然後是“手內操作”(in-hand manipulation),旋轉工具對齊方向,再一次手內操作,確保工具和螺槽精確對齊。這整套動作,夾爪根本無法做到——而靈巧手能以極快的速度把它完成。其次,可控子空間(controllable subspace)。這裡我想引用LASA實驗室的一項研究,她非常好地與我分享了視頻。她的工作研究的是瑞士製表師如何在任務中變得精通。左邊是一個初學者——可以看到他需要用另一隻手來輔助定位工具與螺絲的對齊;右邊是一位專家,速度完全不同。這位專家在定位螺絲時,用的是小指來穩定工具完成對齊,完全不需要第二隻手。這是一種經過兩年訓練才湧現出來的能力和策略。這是夾爪永遠做不到的。 三、核心挑戰:22個自由度,遙操作太難——不要從人手學說了這麼多優勢,我們也必須直面現實:控制一個22自由度、6個驅動軸的靈巧手,並處理多接觸狀態的切換,是極其複雜的事情。目前有一條很流行的路線——從遙操作數據中學習。但遙操作靈巧手本身就是一個極難的問題,操控起來非常不直覺。你可以從某個團隊的視頻裡看到,用遙操作訓練出來的策略行為,和我們剛才看到的那個人類操作截然不同——動作很慢,非常謹慎。這正是因為遙操作本身就極難操控。所以,我們堅定地不走這條路。 相反,我們選擇sim-tool-real。當然,sim-tool-real近年來因為大量計算資源的投入取得了很大進展。但有一點我必須指出:大多數現有工作,每個技能對應一個單獨的策略——旋轉用一個,穩定握持用一個,工具使用用一個。我們想做的是把這些獨立的技能策略統一成一個策略。 四、UniSim-Real:從物體軌跡學,而非從人手學那麼,我們是怎麼做的?關鍵洞察是:我們可以將操作與物體的目標位姿統一起來。 在屏幕右側,你會看到一個綠色的“幽靈物體”——那是這個策略需要追蹤的目標位姿,策略需要通過所有這些手內操作和抓取來讓物體匹配這個目標。在訓練階段,我們在仿真裡生成一組基元(primitive)物體,並訓練一個單一的RL策略,讓它能夠把每個物體操控到隨機的目標位姿。這個策略在仿真裡只有一個,輸入是:手的本體感受狀態(通過傳感器獲取)、物體的包圍盒、物體當前位姿(用包圍盒上的40個關鍵點表示),以及一個目標位姿序列。那目標位姿序列從哪裡來? 我們確實錄製了人類視頻示範,然後使用基礎模型從視頻裡提取物體的位姿序列。重點在於:我們模仿的不是人手,我們只關心物體在做什麼。 提取出來的目標位姿由閉環手部跟蹤來追蹤執行。有了這個洞察,我們得到了一個單一策略,可以零樣本完成大量操作任務——包括大量從未見過的工具和任務。與基線方法相比:固定抓取不work,因為完成任務必須改變物體的手內朝向;運動學重定向(kinematic retargeting)也通常不穩定。如果你有興趣,可以掃我PPT上的二維碼,訪問我們的網頁,有一個交互式demo,你可以自己改變目標位姿、改變朝向,甚至讓物體掉落,探索這個策略的邊界。五、Play-to-Effect:從"遊玩"到"精確插拔"現在我們有了這個能幹很多事情的策略,能在靈巧手上通過RL學到各種有趣的行為。但我們也發現:它並不能很好地完成裝配任務(assembly)。裝配任務需要精確度。我們的測試表明:如果兩個零件之間的間隙比較寬鬆,這個策略有時能成功,但成功率不夠高;間隙越緊,成功率越低。於是我們問:能不能把這個已經內嵌了所有原子技能的“遊玩策略(Play Policy)”作為預訓練起點,再微調它去做更精確的操作?我們將“遊玩策略”作為預訓練基礎,針對一系列精確插拔任務進行微調(fine-tune)。在推理時,我們使用基礎模型來追蹤待操作零件和固定件的位姿,以關鍵點序列和目標抓取朝向作為輸入。測試結果包括:插銷任務、宜家基準測試(IKEA benchmark)的鉸鏈組裝(插入填充物、抓取橫樑並放置)、傢俱基準測試(將桌腿插入桌面的榫眼)。“Play-to-Effect”在所有這些任務上都有出色表現——比起遊玩策略有明顯提升,訓練速度也很快(甚至比從頭用稠密獎勵訓練還快),同時對引入外力干擾的抵抗力也更強。另一個讓我個人特別興奮的地方是:這是一個閉環策略,當物體從手裡掉落,它會主動撿起來再試。這種恢復行為,正是閉環策略的本質優勢。 六、尚未解決的問題:低維RL與富信息視頻之間的鴻溝好,讓我以幾點反思來結束這個演講。我們用RL在這個擬人手(anthropomorphic hand)上學習到了這些非常有趣的行為。我很喜歡的一點是:我們根本不關心人手的歷史動作軌跡,我們只關心物體是否在沿著軌跡運動、是否完成了任務。因為我們用了RL,實際上我們並不需要綁定在擬人手上。完全可以使用那些具有仿生主動表面的非擬人設計的手——這些手不需要像擬人手那樣做接觸狀態切換。而且,對於這樣的手,你永遠沒辦法通過模仿人手來驅動它。所以,同樣的方法論——先遊玩再精確,再完成任務——對非擬人手同樣適用。但RL也有它的侷限性:通過模仿學習,已經有人在用人類視頻做訓練,但他們是在模仿人手本身,而這條路正受制於運動學重定向的天花板。今天上午我們還展示了另一項成果——《Masquerade》。我們不是直接模仿人類的動作,而是在人類視頻中用機器人手替換掉人類的手,從而讓數據完美包含任務需求,並以此訓練視覺編碼器。這種方法徹底彌合了域偏移(Domain Gap)帶來的差距,在分佈外泛化(OOD Generalization)上表現特別優異。 最終,我們正在思考的開放問題是:如何彌合“在任何手上都能學到的全套行為”與“自我中心視頻中蘊藏的豐富視覺-物理複雜性”之間的鴻溝? 這是我和實驗室學生們接下來要一起攻克的課題。感謝所有合作者,也特別感Sharpa贊助並提供了這些靈巧手。謝謝大家! Q&A 問答環節 聽眾A(主持人): 您在談到彌合仿真到現實的差距時,尤其是針對仿真中難以處理的物體(比如柔性物體或有複雜交互的物體,如擠壓噴瓶),您怎麼看待這個問題? Jeannette Bohg: 讓我簡單介紹一下我們是怎麼做這個sim-to-real遷移的。我們使用了域隨機化(domain randomization)——不僅隨機化物體本身(形狀、大小),也隨機化環境的物理屬性。更關鍵的是,我們還必須在仿真裡模擬有噪聲的物體檢測和位姿估計,以及傳感器延遲——這些對於真正把仿真策略遷移到真實世界至關重要,包括對外力擾動的模擬。對於鉸接物體,我完全可以想象用同樣的方法,只是提高物體表徵的維度——比如用物體的關節狀態(如關節角度)來代表物體狀態。視覺社區能不能為我們提供魯棒的位姿估計,是關鍵的外部依賴。對於布料、麵糰這類廚房場景裡的柔性物體——坦率說,我暫時還不知道怎麼做。一個猜想是:也許可以在剛體和鉸接物體上預訓練,然後結合已有的示範數據(比如摺疊衣物的工作),進行微調。或者,如果有人能提供更快的柔性體仿真框架,我們仍然可以走RL這條路。 聽眾B: 您認為如何把這些策略功能化,整合進一個用於各類物體操作的基礎模型?我看到這裡所有的策略都是相對專一的,下一步是否可以把它們作為模塊,嵌入到類似Action Expert這樣的更大型操控模型裡? Jeannette Bohg: 很好的問題。首先澄清一下:我們選擇工具不是因為我們要專門做工具操作——而是因為工具是靈巧手最難操作的對象之一,對技能要求最高。同樣的訓練框架,完全可以擴展到更多類型的物體,我們只是還沒來得及做。關於“能不能把這個策略作為VLA模型的Action Head”——這個想法很有意思,我之前還沒想到過。一個可能的方向是:把策略蒸餾到以RGB或深度圖像為輸入,然後輸入到VLA的某個表徵層,再微調。但這需要更多時間討論,目前還只是直覺。 (編者按:Jeannette Bohg領導的斯坦福大學機器人學實驗室目前正積極招募博士生及合作研究者。)

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前