具身智能的數據困境,不只在數量
重點摘要
智東西 作者 | 許麗思 編輯 | 漠影 過去幾年,大模型的發展證明了,模型進化依賴於底層數據紅利的爆發,數據就是模型的能力邊界。 這也是當前具身智能行業的一大共識。雖然VLA、世界模型等各種技術路線五花八門,行業尚未形成統一答案,但對數據重要性的判斷已經趨於一致:數據荒漠已成為制約具身智能泛化能力突破的核心瓶頸。 與此同時,具身智能處於從實驗室探索走向產業化前夜。
### 重點整理:具身智能的數據困境,不只在數量
過去幾年,大模型的進化依賴於數據紅利,數據決定了模型的能力邊界。這個共識如今也延伸到具身智能領域——雖然技術路線(如VLA、世界模型)尚未統一,但業界普遍認為數據荒漠是阻礙泛化能力突破的核心瓶頸。然而,問題不只是「數據不夠多」,更在於「數據好不好用」:從原始採集到真正能訓練模型的數據資產,中間存在漫長且成本高昂的處理環節,這才是當前制約產業落地的隱形卡點。
### 背景脈絡:萬億市場預期 vs. 數據現實
具身智能正從實驗室走向產業化前夜,市場預測極為樂觀(全球規模有望在數十年內達到數兆美元)。但大量的算法原型因為缺乏足夠且高品質的數據,只能停留在實驗室,無法落地。這股預期與現實的落差,催生了各地政府、企業對數據採集基地與跨本體數據平台的投資熱潮。曾經被視為機器人模型幕後配套的數據環節,如今站上舞台中央,成為資本與產業競相布局的新戰場。
### 數據產能快速膨脹,但採集與處理面臨雙重挑戰
為了解決數據量不足,各方紛紛投入建設採集工廠,目標從百萬小時級到千萬小時級數據規模。同時,傳統遙操作採集方式成本高、擴展慢,促使「第一人稱(Ego-centric)數據」範式崛起:透過頭戴相機記錄與執行者一致的視角,不僅節省成本,還可透過社會化眾包(如東南亞、印度等地勞務)大規模生成資料。然而,採集門檻降低後,數據處理成為新的瓶頸——模型訓練需要視覺、力覺、關節軌跡、語言指令等多模態數據,且要求精確的時空對齊。許多團隊反映,處理數據的內建管線成本甚至高達採集成本的三到五倍。
### 從原始視頻到訓練數據:自動化流水線成為解方
為了打通「最後一公里」,業界開始關注能將分散處理整合為一條龍的平台方案。例如,如祺出行旗下如祺數據推出的具身智能數據平台,將原始第一人稱影片導入後,自動完成手部檢測、相機位姿估計、3D姿態優化等AI預處理,再透過動作標註工作臺與自動質檢,最終輸出標準化數據集,可直接對接LeRobot、HDF5等主流訓練框架。這樣的設計讓模型團隊不必再耗費精力自建管線,大幅降低從採集到訓練的邊際成本。
### 從出行平台延伸而來的數據能力:如祺數據的獨特定位
如祺數據之所以能切入具身智能領域,源於其母公司如祺出行在智能駕駛領域的長期積累。自動駕駛與具身智能都需要理解真實物理世界,處理複雜環境與長尾場景,因此數據工程能力可以遷移。如祺出行已建立包含採集、標註、合成數據、多模態處理的完整服務鏈,並已獲得客戶驗證。其在常態化運營的Robotaxi與智慧駕駛採集車中,累積了大量真實場景數據,這些經驗正外溢至具身智能,甚至已傳出獲得商業化訂單
Related
相關文章

Grammarly母公司收購GPTZero:一邊幫你用AI寫,一邊幫你查AI寫?
這篇消息聚焦「Grammarly母公司收購GPTZero:一邊幫你用AI寫,一邊幫你查AI寫?」。原始導語提到:Superhuman年營收超47億元,GPTZero年營收超2億元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

砍掉90%冗餘詞元,省下70萬美元:Netflix開源工具狙擊AI賬單黑洞
這篇消息聚焦「砍掉90%冗餘詞元,省下70萬美元:Netflix開源工具狙擊AI賬單黑洞」。原始導語提到:在近期的開源峰會上,Chopra 表示,Headroom 已為用戶節省了約 70 萬美元,這些用戶可以將節省的 2000 億Token用在其他地方。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Claude剛剛上線“群聊Agent”:Karpathy盛讚的交互新範式,還是打工人的“數字監工”?
這篇消息聚焦「Claude剛剛上線“群聊Agent”:Karpathy盛讚的交互新範式,還是打工人的“數字監工”?」。原始導語提到:“Claude Code 升級版”來了!24小時在線待命(進一步消耗你的Token) 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛,Claude進入美國版飛書,成了我的AI新同事
這篇消息聚焦「剛剛,Claude進入美國版飛書,成了我的AI新同事」。原始導語提到:Claude進群變身“打工人”。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI太會寫代碼,人類已經審不過來了
這篇消息聚焦「AI太會寫代碼,人類已經審不過來了」。原始導語提到:從月均2.5萬行,到月均25萬行。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

OpenAI ChatGPT 語音最大規模升級:雙向 AI 語音模型 Bidi 1 已上線測試
科技媒體 testingcatalog 昨日(6 月 23 日)發佈博文,報道稱部分用戶反饋在網頁版、App 版 ChatGPT 應用中,發現了雙向 AI 語音模型 Bidi 1。