獨家|北大董豪:「僅停留在數據層面的Scaling Law,教不出通用機器人」
重點摘要
「數據量×任務量」二維Scaling才是具身AGI正解。 作者丨齊鋮湧 編輯丨林覺民 近段時間,具身智能的模型技術迭代方向,節奏放緩,分歧不斷。對此,北大副教授董豪(上緯啟元首席科學家)分享了一個新觀點:現在主流的模仿學習、強化學習、仿真數據各有硬傷,行業需要換套思路。在不久前的百度智能雲的具身智能論壇上,董豪詳細分享了他的想法,董豪主張用二維橫向Scaling Law新思路,把世界模型、生成數據、人類示教這些熱門技術串成一條線,讓機器人任務越學越多的同時,實現數據越用越省。(雷峰網)董豪堅信,這才是家用和通用人形機器人能大規模落地的關鍵。以下為董豪分享內容,經AI科技評論獨家獲取並做不改變原義的整理刪改:01模仿學習只能完成冷啟動,單一示範數據存在天然缺陷談及大模型行業共識的 Scaling Law,董豪將當前具身模型訓練劃分為兩大階段:預訓練依託模仿學習,後置迭代依靠強化學習,兩套方案各有顯著短板。模仿學習優勢在於快速冷啟動,依託標準化人工示範數據,能快速賦予機器人基礎操作能力,邏輯與大語言模型訓練邏輯相通。但其致命短板在於訓練樣本全部為正確軌跡,完全缺失故障、失誤樣本分佈。即便積累上萬條標準操作數據,機器人在真實場景執行出錯後,不具備自主調整、糾錯能力。國內已有成熟落地探索,北京智源研究院基於 15 款異構雙臂機器人搭建大規模多模態數據集,訓練出可跨硬件通用的 VLA 視覺語言動作模型,成為模仿學習路線標杆工程。仿真賽道同樣跑出階段性成果,上海人工智能實驗室推出 InternData-A1 純仿真合成數據集,無需真機採集,在多項實操任務中,訓練完成成功率甚至超過真機實拍數據。02強化學習補齊容錯短板,“模仿 + 強化” 實現全自主連續作業僅依靠模仿學習不足以支撐通用機器人落地,強化學習是行業確定性演進方向。董豪重點解讀經典 Dagger 數據聚合框架,該思路早年已在自
「數據量×任務量」二維Scaling才是具身AGI正解。 作者丨齊鋮湧 編輯丨林覺民 近段時間,具身智能的模型技術迭代方向,節奏放緩,分歧不斷。對此,北大副教授董豪(上緯啟元首席科學家)分享了一個新觀點:現在主流的模仿學習、強化學習、仿真數據各有硬傷,行業需要換套思路。在不久前的百度智能雲的具身智能論壇上,董豪詳細分享了他的想法,董豪主張用二維橫向Scaling Law新思路,把世界模型、生成數據、人類示教這些熱門技術串成一條線,讓機器人任務越學越多的同時,實現數據越用越省。(雷峰網)董豪堅信,這才是家用和通用人形機器人能大規模落地的關鍵。以下為董豪分享內容,經AI科技評論獨家獲取並做不改變原義的整理刪改:01模仿學習只能完成冷啟動,單一示範數據存在天然缺陷談及大模型行業共識的 Scaling Law,董豪將當前具身模型訓練劃分為兩大階段:預訓練依託模仿學習,後置迭代依靠強化學習,兩套方案各有顯著短板。模仿學習優勢在於快速冷啟動,依託標準化人工示範數據,能快速賦予機器人基礎操作能力,邏輯與大語言模型訓練邏輯相通。但其致命短板在於訓練樣本全部為正確軌跡,完全缺失故障、失誤樣本分佈。即便積累上萬條標準操作數據,機器人在真實場景執行出錯後,不具備自主調整、糾錯能力。國內已有成熟落地探索,北京智源研究院基於 15 款異構雙臂機器人搭建大規模多模態數據集,訓練出可跨硬件通用的 VLA 視覺語言動作模型,成為模仿學習路線標杆工程。仿真賽道同樣跑出階段性成果,上海人工智能實驗室推出 InternData-A1 純仿真合成數據集,無需真機採集,在多項實操任務中,訓練完成成功率甚至超過真機實拍數據。02強化學習補齊容錯短板,“模仿 + 強化” 實現全自主連續作業僅依靠模仿學習不足以支撐通用機器人落地,強化學習是行業確定性演進方向。董豪重點解讀經典 Dagger 數據聚合框架,該思路早年已在自動駕駛領域驗證價值:純正常行駛數據會造成模型容錯能力缺失,必須補充故障場景樣本。機器人執行失誤後接入人工干預,將糾錯軌跡納入訓練集,持續提升真機環境任務穩定性。董豪分享了實驗室最新落地成果:團隊已實現機器人全自主洗衣流程,設備可自主規劃移動路徑、開合洗衣機門,抓取衣物失敗後會像人類一樣主動重試,整套流程無需人工介入。實踐證明,模仿學習打底、強化學習持續迭代的組合方案,能夠支撐機器人在固定空間完成高強度連續作業。03一維縮放邏輯走到盡頭,橫向二維 Scaling Law 重構行業增長曲線即便實現模仿 + 強化學習閉環,傳統一維 Scaling Law 依舊無法描繪通用具身智能的長期增長天花板。對此董豪提出核心創新觀點:橫向二維 Scaling Law,在原有數據量維度之外,新增任務數量座標軸。這套框架下,隨著數據集持續擴充,機器人全新任務初始完成率同步上漲,達成高成功率所需的樣本量持續下降。行業需要規避兩種低效增長曲線:數據增長與可掌握任務僅呈線性關係、邊際收益持續遞減。理想技術曲線為 “高效紅線”—— 伴隨模型迭代、數據規模擴張,機器人可掌握的任務數量高速提升,實現 “越學越省”,這也是物理世界 AGI 的必經之路。近半年行業火熱的世界模型、Umi 等技術概念,底層目標全部服務於這條全新增長曲線;真機真實數據、仿真合成數據、硬件無關通用預訓練數據,所有技術創新都圍繞二維縮放邏輯落地。04多路徑數據增強落地1 條真機數據生成 50 條等效樣本、人示教低成本轉機器人軌跡。董豪披露團隊最新生成式數據增強研究成果:依託世界模型與生成 AI,單條真機採集軌跡,可生成 50 條物體擺放、空間位置差異化的高逼真等效訓練數據,極大緩解真機數據採集成本高、樣本稀缺的行業痛點,大幅提升真實數據利用效率。仿真體系的價值不止基礎動作訓練,更是家用機器人突破非標家電操作瓶頸的關鍵。家用設備型號繁雜、操作邏輯差異大,若模型具備讀取說明書、理解設備操作邏輯的能力,將大幅拓寬落地邊界。室內導航、多物體空間關係推演等任務,可通過仿真批量生成海量訓練素材;仿真數據與真機數據雙向互補,持續拓寬機器人能力邊界。當前前沿模型已可識別各類家電,接收 “燜米飯、榨橙汁” 自然語言指令後,自主匹配設備完成全套操作。在規模化數據採集層面,團隊探索普惠化低成本方案:通過穿戴式手持相機記錄人類操作視頻,直接轉化為機器人可訓練軌跡。同等預算下可獲取海量示範數據,持續優化二維縮放增長曲線,長期壓低機器人數據採集邊際成本。05行業統一底層邏輯:所有前沿技術,都是為加速二維 Scaling 增長曲線董豪也總結了整場分享核心結論:行業需要跳出傳統一維 Scaling Law 思維,以二維雙維度視角重構具身智能技術研發思路。全新增長曲線的核心訴求,是在穩定任務成功率的前提下,依靠增量數據持續拓展機器人可執行任務邊界。當下市場熱議的世界模型、Umi、人類視頻預訓練等不同技術路線,看似方向分散,底層目標高度統一:加速二維高效增長曲線成型。只有走完這條技術路徑,通用具身智能、家用服務機器人才具備規模化商業化落地基礎。(雷峰網)
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。