對話橋介數物尚陽星：機器人運動能力，遠遠沒有被解決

2026年6月3日 09:09

重點摘要

站內 AI 整理稿

全身運動數據的重要性，被低估了。作者丨向欣編輯丨高景輝雷峰網報道：機器人進入真實世界“幹活”，到底需要什麼數據？面對這個問題，大多數具身智能從業者可能都會回答“操作”。的確，人們幹活離不開雙手，那麼人形機器人的末端精細操作數據，順理成章地成了重中之重。但橋介數物創始人尚陽星，給出了一個截然不同的答案。在他看來，機器人全身運動數據的重要性被大大低估了，機器人想進入真實環境完成複雜任務，僅靠操作能力遠遠不夠，底層的全身運動能力才是基礎。他做了一個比喻：如果把機器人類比成電腦，運動控制能力相當於操作系統的內核，操作模型則是應用軟件。沒了底層系統，應用就無法運行。也就是說，缺少高質量的運動數據和全身運動模型，機器人將難以適應不同地形、應對突發擾動，實現長時間穩定運行和落地。基於這個判斷，橋介數物在半年前啟動了“跨本體全身運動數據工廠”的建設，並於近期正式投入使用。橋介將他們採集的數據定義為跨本體全身運動數據（Cross-Embodiment Whole-Body Motion Data），簡稱CWM。CWM包含人體全身動作、第一人稱和第三人稱視角視頻、語義標籤、環境信息以及接觸與物理狀態信息，是一種多模態數據，用於訓練通用的全身運動模型，最大的亮點是具備跨本體能力。有了數據工廠，深耕運動控制基礎設施，橋介數物想構建一個人形機器人的通用操作系統，類似於尚陽星早些時候在中國移動具身智能產業大會上提出的Runtime Robot OS（運行時機器人操作系統）。簡單來說，這是一套通用的底層運動能力基礎設施，讓不同機器人複用同一套運動模型，新機型接入後，也無需再為大量動作重複訓練。橋介的定位也隨之發生變化，由具身小腦廠商，成長為具身智能基礎設施公司。不過在某種意義上，這其實是一種迴歸，尚陽星說：“從創業開始，我想做的就是機器人時代的基礎設施。”01運動泛化，仍是人形機器人的難題▎AI科技評論：現在機器人Demo已經能跑能跳能越障了，看起來全身運動已經算不上核心瓶頸，為什麼你們還要做運動數據工廠？尚陽星：目前能看到的機器人運動視頻，基本都是針對特定場景調出來的。例如春晚的機器人，七八個工程師花三四個月才能完成一個表演，換個場景就不行了。這裡的核心問題是運動泛化能力差。我們理解的泛化，是讓一套系統適應不同地形、不同機型、不同動作，在複雜環境中長期穩定運行。現在還沒有機器人能做到這一點。我們之前給客戶做運動控制，用的雖是通用框架，但還需針對性適配。建數據工廠，就是為了訓練出真正通用的底層運動模型，讓機器人能擁有像人類一樣的運動能力，而這件事目前遠遠沒有被解決。▎AI科技評論：真實環境裡，機器人最容易在哪些地方出問題？尚陽星：首先是感知問題，當前機器人的感知是被動的，就像人閉著眼睛走路，所以遇到意外時反應很劇烈，人流密集時存在安全隱患。最近也有些公司發佈了機器人的語言交互demo，但這種理解都比較淺，沒有對真實外部世界的理解。其次是長期運行問題。長時間運行後，關節出現磨損、性能變化時，機器人很難像人類受傷後那樣繼續調整動作並適應環境，持續學習與自我補償能力仍然不足。這都是我們會著力解決的方向。▎AI科技評論：做通用的底層運動模型，對具身智能落地有實質性價值嗎？尚陽星：行業大多僅聚焦人形機器人上半身控制，往後要實現機器人全身協同作業，就必須搭建通用全身運動控制基礎模型。依託這套模型，手部動作操作模型可直接部署應用，不用重複解決全身運動適配難題。▎AI科技評論：機器人全身運動能力那麼重要，為什麼行業不太重視運動數據，反而都聚焦上半身控制，去採集操作數據了？尚陽星：因為疊衣服、端咖啡、擰螺絲這些操作類任務成果直觀，價值容易被看見。機器人的運動能力可以視為Windows、iOS這些底層的基礎運行系統，操作能力則相當於系統之上的各種APP。如果沒了底層系統，所有應用都無法運行。機器人也一樣，沒有穩定的全身運動能力，複雜操作只能侷限在固定桌面，無法真正落地。市場需要大家多做應用，但也需要有人做基礎設施。基礎設施平時不被注意，一壞就出問題；做好了卻不容易被察覺，但非常重要。▎AI科技評論：為什麼不去外面買數據，而是選擇自建數據工廠？尚陽星：三個原因。一是市面上買不到高質量的運動控制數據，賣這類數據的人極少，而且價格貴。國內專注於運動控制且特別重視這件事的，可能只有橋介。我們內部之前也有用動捕設備採集，但進度很慢，需要更加工業化、規模化的採集手段。二是我們發現過去數據都有很強的“本體綁定”問題。機型變了數據就沒法用了，遷移能力很差。我們需要更多無本體的數據，促進模型快速迭代。三是我們發現數據量越多，全身運動基礎模型表現越好。這不僅是我們在工作過程中發現的規律，英偉達在一個項目中也提到了這個觀點，數據規模越大，模型效果會更好。英偉達開源了數百小時的運動數據，不過這個量級離上限還差得很遠。既然發現這個領域也存在Scaling Law ，我們就下定決心投入了。▎AI科技評論：最近大家都在談世界模型，很多人認為它會成為機器人理解物理世界的關鍵能力。橋介也會往這個方向佈局嗎？尚陽星：我們也在訓練動作層面的世界模型。訓練世界模型本身也需要大量數據，視頻是其中重要的一類。不過，世界模型可以接受任何形式的視頻，但在處理動作這個維度上，需要做一些特殊處理。02人形機器人，會比四足更先落地▎AI科技評論：你們是怎麼採集數據的？尚陽星：我們的數據工廠使用動捕 + 視頻（包括第一人稱和第三人稱）方式，採集後還會人為標註語義標籤。我們採集的是人類全身運動數據，包括手部和全身的動作，一開始會從不涉及精細操作的全身動作入手。這類數據可以和行業現有的操作數據配合使用，是一種補充。▎AI科技評論：為什麼要選擇這種採集方式？這會比行業主流的方式更好嗎？尚陽星：優勢在於兩點。一是無本體，數據可以跨本體遷移，且採集更為簡單。很多廠商採用遙操作，數據和本體強綁定，複用性較差，而且還需要人去適應機器人，動捕不需要。二是數據精度更高。現在很多人體數據依賴視頻提取，全身動作還原精度有限。要採集高精度、高質量的全身人體動作，目前只有全身動捕這一種方法。這些高精度數據後續也能用於訓練視頻動作提取模型。▎AI科技評論：去年開始行業開始流行無本體採集方案，UMI就很受歡迎，為什麼不用這種成本更低且簡易的方案？尚陽星：UMI 本質上是去掉機器人本體，只保留末端執行器，用夾爪和相機採集數據。問題在於，如果用夾爪採集，以後本體上的夾爪無法換成其他執行器，靈活性也比人手差，而且視頻提取的人體全身動作精度也不夠高。後來行業開始轉向採集人體數據，因為人體數據更通用，不會綁定某一個機器人。新的問題是，人和機器人結構不同，不同機器人之間也有差異，所以人體動作還需要經過重定向和適配。因此我們特別強調跨本體能力。▎AI科技評論：你們的跨本體是如何實現的，有技術壁壘嗎？尚陽星：遷移中涉及的核心技術是重定向。我們做了一套自己的重定向引擎，可以自動適配不同機器人構型、動作和地形，還支持邊採集邊重定向。行業很多重定向方案只考慮運動學，就是隻復現運動軌跡，我們還加入了動力學，會同時考慮重力、受力和平衡問題。一般的數據工廠都不會做到這一步。這也屬於我們的技術優勢。比如人跳起來是一條拋物線，如果機器人只是照著軌跡模仿，很容易落地失敗。加入動力學後，它會結合自身結構和受力情況調整動作，更符合真實物理規律。▎AI科技評論：在數據遷移過程中，哪些構型的機器人更容易遷移，哪些更難？尚陽星：橋介採集的是人類數據，因此主要面向與人類形態最接近的雙足人形機器人。機器人的形態與人越像，數據遷移越容易；越不像則越難。▎AI科技評論：為什麼不選落地更容易的四足狗或者輪足人形做運動控制？很多人覺得，四足狗加個機械臂比人形落地更快、成本更低，輪足在很多場景也夠用了。尚陽星：輪足在特定場景確實夠用，但如果目標是物理世界的AGI，就需要更通用的形態，也就是雙足人形。至於落地，我有個非共識的看法：人形機器人會比四足更先落地。這有點像大語言模型。語言能力其實是人類後演化出來的，但因為互聯網文本數據足夠多，所以它反而最先突破。機器人運動也是一樣，過去運動數據沒人系統記錄，但現在如果開始大規模採集，可能也會很快突破。03做數據工廠，最難的不是採集▎AI科技評論：你們收集的全身運動數據不涉及精細操作，未來要怎麼和市面上的操作數據融合？尚陽星：我覺得不會有融合問題，或者說我們會把融合做好。我們更傾向於分層式架構：上層負責認知和任務理解，底層負責實時運動控制，而橋介提供的是底層運動控制模型。原因是認知模型體量大、推理慢，運動控制模型則對實時性和安全性要求很高，兩者很難用同一個模型兼顧。Figure的具身模型就是多個系統。未來機器人行業也會像操作系統和應用軟件一樣，形成更明確的軟件分工。▎AI科技評論：這其中有個很大的問題是行業數據格式不統一，你們怎麼處理？尚陽星：現在行業的數據格式，大多沿用了影視動畫行業的體系，所以標準並沒有特別混亂。出現這個問題的原因之一就是數據和本體強綁定，應該採集無本體數據，現在這已經是大趨勢。▎AI科技評論：做數據工廠，最難的環節是什麼？尚陽星：數據處理、數據閉環是最難的。大規模數據需要完整的數據管線，解決調配、算力處理等問題。數據工廠還要跑通“設計—採集—處理—訓練—反饋”的完整閉環，背後涉及大量系統協同和流程管理。其中採集環節是成本最高的，反饋環節決定數據有效性。單純動作採集難度不高，花錢配齊設備就能做，難的是後續整體運營與統籌管理。▎AI科技評論：你們怎麼定義高質量運動數據，數據質量又如何保障？尚陽星：高質量數據首先要噪聲小、軌跡穩定，動作姿態自然，不能出現肢體穿插、穿透等異常情況。數據質量主要取決於錄製方式和動捕設備精度。動捕設備直接錄製的數據精度高、質量好；從視頻提取的數據精度就差不少。因此在源頭環節，就得高精度動捕設備做標準化採集，我們設計了涵蓋動作分類、質量權重、標籤維度、環境參數、位姿信息及質檢標準在內的准入體系。但設備本身存在侷限，難免出現異常數據，所以採集完成後會經過人工核驗，程序自動篩選環節，通過自研管線完成跨本體的數據清洗、動作重定向等等，就連訓練階段也會再次篩查。最後，訓練結果還會反向指導數據採集。比如哪些動作效果不好、哪些場景覆蓋不夠，都會反饋給採集端，用來調整下一輪的數據採集方向，形成持續優化的數據閉環。▎AI科技評論：行業有種觀點是髒數據也有用，你們也會收集這類數據嗎？尚陽星：髒數據應該分為兩類，任務失敗數據和低質量數據，兩類數據的價值完全不一樣。大家說的髒數據，應該是指機器人執行任務失利後恢復的數據，比如摔倒後自主起身，這類數據很有采集價值。而低質量數據，是採集時因設備故障等問題錄出來本身就是錯誤失常的動作數據，這類數據沒有用處，不需要留存。▎AI科技評論：同時滿足高質量和大規模兩個要求一直是具身數據領域的難題，橋介是怎麼平衡數據規模和數據質量的？尚陽星：先用一小批有一定規模、高質量的數據訓練模型，再用該模型從視頻中挖掘更大規模的數據，相互增強。視頻包含了一切信息，只是目前提取不出來。就像自動駕駛，視頻裡可能包含深度信息，但模型能力不夠就提取不了，需要視頻與深度的配對數據訓練模型。機器人同理，視頻包含大量人體動作信息，人看視頻就能學會，但當前從視頻中提取這些信息的基礎設施還沒建好。▎AI科技評論：訓練過程中會用仿真數據嗎？尚陽星：會，而且仿真數據是必須的。人體數據經過重定向後，機器人還需要在仿真環境裡做強化學習訓練，用來彌補人體動作和機器人實際執行之間的差距。離開數據工廠後的複雜環境適應，本質上也依賴強化學習來完成泛化。▎AI科技評論：使用的真實數據和仿真數據的比例是多少？尚陽星：仿真數據會比真實數據多好幾個量級。04我們的最終目標，是做機器人的基礎設施▎AI科技評論：現在數據工廠處於什麼階段？尚陽星：已經跑通了所有流程，在產能爬坡階段。過去三個月，我們在內部試點中跑通了跨本體全身運動數據工廠的端到端鏈路，累計產出了近千小時高質量 CWM 數據，數據訓練出的模型在十多款不同足式機器人上完成了驗證。我們規劃今年內一天採集數十個小時的數據，一個月就是數千小時。今年預計會收集上萬小時的數據。▎AI科技評論：這些數據會帶來哪些提升？未來會開放給行業嗎？尚陽星：主要是我們模型泛化能力的提升，特別是不同動作之間的泛化。目前機器人跳不高或做不好極端動作，補充更多數據後就能學會。我們的數據主要服務於內部模型訓練，不會直接給外部使用。但如果有合作方想購買數據，也可以談。▎AI科技評論：具體到產品上，今年會拿出什麼？尚陽星：數據訓練出來的能力，會通過我們的平臺化產品提供給大家。去年更多的是非泛化的動作。今年我們重點解決兩個泛化：跨本體和跨機型。6月我們會推出一個革命性的產品，這會是歷史上第一個將機器人運動控制做成標準化方案的產品。我們的設想是，未來任意機器人接入平臺後，就能快速獲得對應運動能力，不再為每個動作重複訓練。比如平臺可以和機器人拳賽結合，讓用戶自由組合不同機型的技能，分力量型、速度型等不同能力，不同本體之間的比賽才更有看頭。▎AI科技評論：目前橋介在數據工廠上的投入，大概是什麼量級？尚陽星：我們採購了一批動捕設備，一套動捕設備約幾十萬元，再算上場地搭建、團隊人員運營等成本，整體投入在千萬級別。▎AI科技評論：數據合格率高嗎？一條數據的成本是多少？尚陽星：現在數據合格率可以達到90%以上。我們不按“條”，按“小時”計價，因為不同數據條的時長差異很大。一小時數據的採集成本大約是幾百元，未來也會繼續降本。▎AI科技評論：如果想讓機器人真正達到接近人類的運動能力，需要多大規模的數據量？尚陽星：大概需要幾十萬小時量級的數據，人形機器人運動才會達到很好效果。這是基於人的一生約幾十萬小時推斷，但人動作有重複，也不可能做遍所有動作，所以只是非常粗略的估算。如果數據量上來，發現數據對模型訓練沒用了，我們也會停止。▎AI科技評論：這麼說的話，聚焦運動控制，天花板會不會很低，未來你們還會拓展其他方向嗎？尚陽星：等到集齊足量運動數據、機器人運動能力成熟後，我們也不會止步於此。先依靠海量全身運動動捕數據打好基礎，讓模型擁有動作組合能力，可靈活搭配不同動作完成各類任務。後續場景類、融合感知的規劃數據，可依託成熟模型從視頻中提取，覆蓋海量複雜現實場景。我們的最終目標是提供基礎設施，讓用戶在平臺上做組合創新，壁壘在於構建應用生態。▎AI科技評論：基礎設施的概念，聽起來比你們之前“小腦廠商”的定位更為宏大。尚陽星：其實從創業開始，我們想做的就是通用機器人時代的基礎設施廠商。運動控制雖然不等於操作系統，但是操作系統中很重要的一部分。橋介的長期定位是做人形機器人的操作系統，打造生態。▎AI科技評論：之前有投資人和你說，你做硬件他們才投，現在他們的看法改變了嗎？尚陽星：我們最近每天都在接待投資人，最近關閉了一輪融資，正在開啟新一輪融資。我感覺越來越多投資人都看明白了，有投資人和我直說，硬件現在太捲了，投了那麼多家，最後能留下來的估計沒幾家。有長期價值的是底層平臺能力。（雷峰網）

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析