具身智能的數據困境，不只在數量

2026年6月24日 13:59

重點摘要

智東西作者 | 許麗思編輯 | 漠影過去幾年，大模型的發展證明了，模型進化依賴於底層數據紅利的爆發，數據就是模型的能力邊界。這也是當前具身智能行業的一大共識。雖然VLA、世界模型等各種技術路線五花八門，行業尚未形成統一答案，但對數據重要性的判斷已經趨於一致：數據荒漠已成為制約具身智能泛化能力突破的核心瓶頸。與此同時，具身智能處於從實驗室探索走向產業化前夜。

站內 AI 整理稿

### 重點整理：具身智能的數據困境，不只在數量

過去幾年，大模型的進化依賴於數據紅利，數據決定了模型的能力邊界。這個共識如今也延伸到具身智能領域——雖然技術路線（如VLA、世界模型）尚未統一，但業界普遍認為數據荒漠是阻礙泛化能力突破的核心瓶頸。然而，問題不只是「數據不夠多」，更在於「數據好不好用」：從原始採集到真正能訓練模型的數據資產，中間存在漫長且成本高昂的處理環節，這才是當前制約產業落地的隱形卡點。

### 背景脈絡：萬億市場預期 vs. 數據現實

具身智能正從實驗室走向產業化前夜，市場預測極為樂觀（全球規模有望在數十年內達到數兆美元）。但大量的算法原型因為缺乏足夠且高品質的數據，只能停留在實驗室，無法落地。這股預期與現實的落差，催生了各地政府、企業對數據採集基地與跨本體數據平台的投資熱潮。曾經被視為機器人模型幕後配套的數據環節，如今站上舞台中央，成為資本與產業競相布局的新戰場。

### 數據產能快速膨脹，但採集與處理面臨雙重挑戰

為了解決數據量不足，各方紛紛投入建設採集工廠，目標從百萬小時級到千萬小時級數據規模。同時，傳統遙操作採集方式成本高、擴展慢，促使「第一人稱（Ego-centric）數據」範式崛起：透過頭戴相機記錄與執行者一致的視角，不僅節省成本，還可透過社會化眾包（如東南亞、印度等地勞務）大規模生成資料。然而，採集門檻降低後，數據處理成為新的瓶頸——模型訓練需要視覺、力覺、關節軌跡、語言指令等多模態數據，且要求精確的時空對齊。許多團隊反映，處理數據的內建管線成本甚至高達採集成本的三到五倍。

### 從原始視頻到訓練數據：自動化流水線成為解方

為了打通「最後一公里」，業界開始關注能將分散處理整合為一條龍的平台方案。例如，如祺出行旗下如祺數據推出的具身智能數據平台，將原始第一人稱影片導入後，自動完成手部檢測、相機位姿估計、3D姿態優化等AI預處理，再透過動作標註工作臺與自動質檢，最終輸出標準化數據集，可直接對接LeRobot、HDF5等主流訓練框架。這樣的設計讓模型團隊不必再耗費精力自建管線，大幅降低從採集到訓練的邊際成本。

### 從出行平台延伸而來的數據能力：如祺數據的獨特定位

如祺數據之所以能切入具身智能領域，源於其母公司如祺出行在智能駕駛領域的長期積累。自動駕駛與具身智能都需要理解真實物理世界，處理複雜環境與長尾場景，因此數據工程能力可以遷移。如祺出行已建立包含採集、標註、合成數據、多模態處理的完整服務鏈，並已獲得客戶驗證。其在常態化運營的Robotaxi與智慧駕駛採集車中，累積了大量真實場景數據，這些經驗正外溢至具身智能，甚至已傳出獲得商業化訂單

原始來源：智東西 ↗

查看原始來源

36氪生成式AI

Grammarly母公司收購GPTZero：一邊幫你用AI寫，一邊幫你查AI寫？

這篇消息聚焦「Grammarly母公司收購GPTZero：一邊幫你用AI寫，一邊幫你查AI寫？」。原始導語提到：Superhuman年營收超47億元，GPTZero年營收超2億元。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

砍掉90%冗餘詞元，省下70萬美元：Netflix開源工具狙擊AI賬單黑洞

這篇消息聚焦「砍掉90%冗餘詞元，省下70萬美元：Netflix開源工具狙擊AI賬單黑洞」。原始導語提到：在近期的開源峰會上，Chopra 表示，Headroom 已為用戶節省了約 70 萬美元，這些用戶可以將節省的 2000 億Token用在其他地方。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

Claude剛剛上線“群聊Agent”：Karpathy盛讚的交互新範式，還是打工人的“數字監工”?

這篇消息聚焦「Claude剛剛上線“群聊Agent”：Karpathy盛讚的交互新範式，還是打工人的“數字監工”?」。原始導語提到：“Claude Code 升級版”來了！24小時在線待命（進一步消耗你的Token）從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析