對話橋介數物尚陽星:機器人運動能力,遠遠沒有被解決
重點摘要
全身運動數據的重要性,被低估了。 作者丨向 欣 編輯丨高景輝 雷峰網報道:機器人進入真實世界“幹活”,到底需要什麼數據?面對這個問題,大多數具身智能從業者可能都會回答“操作”。的確,人們幹活離不開雙手,那麼人形機器人的末端精細操作數據,順理成章地成了重中之重。但橋介數物創始人尚陽星,給出了一個截然不同的答案。在他看來,機器人全身運動數據的重要性被大大低估了,機器人想進入真實環境完成複雜任務,僅靠操作能力遠遠不夠,底層的全身運動能力才是基礎。他做了一個比喻:如果把機器人類比成電腦,運動控制能力相當於操作系統的內核,操作模型則是應用軟件。沒了底層系統,應用就無法運行。也就是說,缺少高質量的運動數據和全身運動模型,機器人將難以適應不同地形、應對突發擾動,實現長時間穩定運行和落地。基於這個判斷,橋介數物在半年前啟動了“跨本體全身運動數據工廠”的建設,並於近期正式投入使用。橋介將他們採集的數據定義為跨本體全身運動數據(Cross-Embodiment Whole-Body Motion Data),簡稱CWM。CWM包含人體全身動作、第一人稱和第三人稱視角視頻、語義標籤、環境信息以及接觸與物理狀態信息,是一種多模態數據,用於訓練通用的全身運動模型,最大的亮點是具備跨本體能力。有了數據工廠,深耕運動控制基礎設施,橋介數物想構建一個人形機器人的通用操作系統,類似於尚陽星早些時候在中國移動具身智能產業大會上提出的Runtime Robot OS(運行時機器人操作系統)。簡單來說,這是一套通用的底層運動能力基礎設施,讓不同機器人複用同一套運動模型,新機型接入後,也無需再為大量動作重複訓練。橋介的定位也隨之發生變化,由具身小腦廠商,成長為具身智能基礎設施公司。不過在某種意義上,這其實是一種迴歸,尚陽星說:“從創業開始,我想做的就是機器人時代的基礎設施。”01運動泛化,仍是人形機器人的難題▎AI
全身運動數據的重要性,被低估了。 作者丨向 欣 編輯丨高景輝 雷峰網報道:機器人進入真實世界“幹活”,到底需要什麼數據?面對這個問題,大多數具身智能從業者可能都會回答“操作”。的確,人們幹活離不開雙手,那麼人形機器人的末端精細操作數據,順理成章地成了重中之重。但橋介數物創始人尚陽星,給出了一個截然不同的答案。在他看來,機器人全身運動數據的重要性被大大低估了,機器人想進入真實環境完成複雜任務,僅靠操作能力遠遠不夠,底層的全身運動能力才是基礎。他做了一個比喻:如果把機器人類比成電腦,運動控制能力相當於操作系統的內核,操作模型則是應用軟件。沒了底層系統,應用就無法運行。也就是說,缺少高質量的運動數據和全身運動模型,機器人將難以適應不同地形、應對突發擾動,實現長時間穩定運行和落地。基於這個判斷,橋介數物在半年前啟動了“跨本體全身運動數據工廠”的建設,並於近期正式投入使用。橋介將他們採集的數據定義為跨本體全身運動數據(Cross-Embodiment Whole-Body Motion Data),簡稱CWM。CWM包含人體全身動作、第一人稱和第三人稱視角視頻、語義標籤、環境信息以及接觸與物理狀態信息,是一種多模態數據,用於訓練通用的全身運動模型,最大的亮點是具備跨本體能力。有了數據工廠,深耕運動控制基礎設施,橋介數物想構建一個人形機器人的通用操作系統,類似於尚陽星早些時候在中國移動具身智能產業大會上提出的Runtime Robot OS(運行時機器人操作系統)。簡單來說,這是一套通用的底層運動能力基礎設施,讓不同機器人複用同一套運動模型,新機型接入後,也無需再為大量動作重複訓練。橋介的定位也隨之發生變化,由具身小腦廠商,成長為具身智能基礎設施公司。不過在某種意義上,這其實是一種迴歸,尚陽星說:“從創業開始,我想做的就是機器人時代的基礎設施。”01運動泛化,仍是人形機器人的難題▎AI科技評論:現在機器人Demo已經能跑能跳能越障了,看起來全身運動已經算不上核心瓶頸,為什麼你們還要做運動數據工廠?尚陽星:目前能看到的機器人運動視頻,基本都是針對特定場景調出來的。例如春晚的機器人,七八個工程師花三四個月才能完成一個表演,換個場景就不行了。這裡的核心問題是運動泛化能力差。我們理解的泛化,是讓一套系統適應不同地形、不同機型、不同動作,在複雜環境中長期穩定運行。現在還沒有機器人能做到這一點。我們之前給客戶做運動控制,用的雖是通用框架,但還需針對性適配。建數據工廠,就是為了訓練出真正通用的底層運動模型,讓機器人能擁有像人類一樣的運動能力,而這件事目前遠遠沒有被解決。▎AI科技評論:真實環境裡,機器人最容易在哪些地方出問題?尚陽星:首先是感知問題,當前機器人的感知是被動的,就像人閉著眼睛走路,所以遇到意外時反應很劇烈,人流密集時存在安全隱患。最近也有些公司發佈了機器人的語言交互demo,但這種理解都比較淺,沒有對真實外部世界的理解。其次是長期運行問題。長時間運行後,關節出現磨損、性能變化時,機器人很難像人類受傷後那樣繼續調整動作並適應環境,持續學習與自我補償能力仍然不足。這都是我們會著力解決的方向。▎AI科技評論:做通用的底層運動模型,對具身智能落地有實質性價值嗎?尚陽星:行業大多僅聚焦人形機器人上半身控制,往後要實現機器人全身協同作業,就必須搭建通用全身運動控制基礎模型。依託這套模型,手部動作操作模型可直接部署應用,不用重複解決全身運動適配難題。▎AI科技評論:機器人全身運動能力那麼重要,為什麼行業不太重視運動數據,反而都聚焦上半身控制,去採集操作數據了?尚陽星:因為疊衣服、端咖啡、擰螺絲這些操作類任務成果直觀,價值容易被看見。機器人的運動能力可以視為Windows、iOS這些底層的基礎運行系統,操作能力則相當於系統之上的各種APP。如果沒了底層系統,所有應用都無法運行。機器人也一樣,沒有穩定的全身運動能力,複雜操作只能侷限在固定桌面,無法真正落地。市場需要大家多做應用,但也需要有人做基礎設施。基礎設施平時不被注意,一壞就出問題;做好了卻不容易被察覺,但非常重要。▎AI科技評論:為什麼不去外面買數據,而是選擇自建數據工廠?尚陽星:三個原因。一是市面上買不到高質量的運動控制數據,賣這類數據的人極少,而且價格貴。國內專注於運動控制且特別重視這件事的,可能只有橋介。我們內部之前也有用動捕設備採集,但進度很慢,需要更加工業化、規模化的採集手段。二是我們發現過去數據都有很強的“本體綁定”問題。機型變了數據就沒法用了,遷移能力很差。我們需要更多無本體的數據,促進模型快速迭代。三是我們發現數據量越多,全身運動基礎模型表現越好。這不僅是我們在工作過程中發現的規律,英偉達在一個項目中也提到了這個觀點,數據規模越大,模型效果會更好。英偉達開源了數百小時的運動數據,不過這個量級離上限還差得很遠。既然發現這個領域也存在Scaling Law ,我們就下定決心投入了。▎AI科技評論:最近大家都在談世界模型,很多人認為它會成為機器人理解物理世界的關鍵能力。橋介也會往這個方向佈局嗎?尚陽星:我們也在訓練動作層面的世界模型。訓練世界模型本身也需要大量數據,視頻是其中重要的一類。不過,世界模型可以接受任何形式的視頻,但在處理動作這個維度上,需要做一些特殊處理。02人形機器人,會比四足更先落地▎AI科技評論:你們是怎麼採集數據的?尚陽星:我們的數據工廠使用動捕 + 視頻(包括第一人稱和第三人稱)方式,採集後還會人為標註語義標籤。我們採集的是人類全身運動數據,包括手部和全身的動作,一開始會從不涉及精細操作的全身動作入手。這類數據可以和行業現有的操作數據配合使用,是一種補充。▎AI科技評論:為什麼要選擇這種採集方式?這會比行業主流的方式更好嗎?尚陽星:優勢在於兩點。一是無本體,數據可以跨本體遷移,且採集更為簡單。很多廠商採用遙操作,數據和本體強綁定,複用性較差,而且還需要人去適應機器人,動捕不需要。二是數據精度更高。現在很多人體數據依賴視頻提取,全身動作還原精度有限。要採集高精度、高質量的全身人體動作,目前只有全身動捕這一種方法。這些高精度數據後續也能用於訓練視頻動作提取模型。▎AI科技評論:去年開始行業開始流行無本體採集方案,UMI就很受歡迎,為什麼不用這種成本更低且簡易的方案?尚陽星:UMI 本質上是去掉機器人本體,只保留末端執行器,用夾爪和相機採集數據。問題在於,如果用夾爪採集,以後本體上的夾爪無法換成其他執行器,靈活性也比人手差,而且視頻提取的人體全身動作精度也不夠高。後來行業開始轉向採集人體數據,因為人體數據更通用,不會綁定某一個機器人。新的問題是,人和機器人結構不同,不同機器人之間也有差異,所以人體動作還需要經過重定向和適配。因此我們特別強調跨本體能力。▎AI科技評論:你們的跨本體是如何實現的,有技術壁壘嗎?尚陽星: 遷移中涉及的核心技術是重定向。我們做了一套自己的重定向引擎,可以自動適配不同機器人構型、動作和地形,還支持邊採集邊重定向。行業很多重定向方案只考慮運動學,就是隻復現運動軌跡,我們還加入了動力學,會同時考慮重力、受力和平衡問題。一般的數據工廠都不會做到這一步。這也屬於我們的技術優勢。比如人跳起來是一條拋物線,如果機器人只是照著軌跡模仿,很容易落地失敗。加入動力學後,它會結合自身結構和受力情況調整動作,更符合真實物理規律。▎AI科技評論:在數據遷移過程中,哪些構型的機器人更容易遷移,哪些更難?尚陽星:橋介採集的是人類數據,因此主要面向與人類形態最接近的雙足人形機器人。機器人的形態與人越像,數據遷移越容易;越不像則越難。▎AI科技評論:為什麼不選落地更容易的四足狗或者輪足人形做運動控制?很多人覺得,四足狗加個機械臂比人形落地更快、成本更低,輪足在很多場景也夠用了。尚陽星:輪足在特定場景確實夠用,但如果目標是物理世界的AGI,就需要更通用的形態,也就是雙足人形。至於落地,我有個非共識的看法:人形機器人會比四足更先落地。這有點像大語言模型。語言能力其實是人類後演化出來的,但因為互聯網文本數據足夠多,所以它反而最先突破。機器人運動也是一樣,過去運動數據沒人系統記錄,但現在如果開始大規模採集,可能也會很快突破。03做數據工廠,最難的不是採集▎AI科技評論:你們收集的全身運動數據不涉及精細操作,未來要怎麼和市面上的操作數據融合?尚陽星:我覺得不會有融合問題,或者說我們會把融合做好。我們更傾向於分層式架構:上層負責認知和任務理解,底層負責實時運動控制,而橋介提供的是底層運動控制模型。原因是認知模型體量大、推理慢,運動控制模型則對實時性和安全性要求很高,兩者很難用同一個模型兼顧。Figure的具身模型就是多個系統。未來機器人行業也會像操作系統和應用軟件一樣,形成更明確的軟件分工。▎AI科技評論:這其中有個很大的問題是行業數據格式不統一,你們怎麼處理?尚陽星:現在行業的數據格式,大多沿用了影視動畫行業的體系,所以標準並沒有特別混亂。出現這個問題的原因之一就是數據和本體強綁定,應該採集無本體數據,現在這已經是大趨勢。▎AI科技評論:做數據工廠,最難的環節是什麼?尚陽星:數據處理、數據閉環是最難的。大規模數據需要完整的數據管線,解決調配、算力處理等問題。數據工廠還要跑通“設計—採集—處理—訓練—反饋”的完整閉環,背後涉及大量系統協同和流程管理。其中採集環節是成本最高的,反饋環節決定數據有效性。單純動作採集難度不高,花錢配齊設備就能做,難的是後續整體運營與統籌管理。▎AI科技評論:你們怎麼定義高質量運動數據,數據質量又如何保障?尚陽星:高質量數據首先要噪聲小、軌跡穩定,動作姿態自然,不能出現肢體穿插、穿透等異常情況。數據質量主要取決於錄製方式和動捕設備精度。動捕設備直接錄製的數據精度高、質量好;從視頻提取的數據精度就差不少。因此在源頭環節,就得高精度動捕設備做標準化採集,我們設計了涵蓋動作分類、質量權重、標籤維度、環境參數、位姿信息及質檢標準在內的准入體系。但設備本身存在侷限,難免出現異常數據,所以採集完成後會經過人工核驗,程序自動篩選環節,通過自研管線完成跨本體的數據清洗、動作重定向等等,就連訓練階段也會再次篩查。最後,訓練結果還會反向指導數據採集。比如哪些動作效果不好、哪些場景覆蓋不夠,都會反饋給採集端,用來調整下一輪的數據採集方向,形成持續優化的數據閉環。▎AI科技評論:行業有種觀點是髒數據也有用,你們也會收集這類數據嗎?尚陽星:髒數據應該分為兩類,任務失敗數據和低質量數據,兩類數據的價值完全不一樣。大家說的髒數據,應該是指機器人執行任務失利後恢復的數據,比如摔倒後自主起身,這類數據很有采集價值。而低質量數據,是採集時因設備故障等問題錄出來本身就是錯誤失常的動作數據,這類數據沒有用處,不需要留存。▎AI科技評論:同時滿足高質量和大規模兩個要求一直是具身數據領域的難題,橋介是怎麼平衡數據規模和數據質量的?尚陽星: 先用一小批有一定規模、高質量的數據訓練模型,再用該模型從視頻中挖掘更大規模的數據,相互增強。視頻包含了一切信息,只是目前提取不出來。就像自動駕駛,視頻裡可能包含深度信息,但模型能力不夠就提取不了,需要視頻與深度的配對數據訓練模型。機器人同理,視頻包含大量人體動作信息,人看視頻就能學會,但當前從視頻中提取這些信息的基礎設施還沒建好。▎AI科技評論:訓練過程中會用仿真數據嗎?尚陽星:會,而且仿真數據是必須的。人體數據經過重定向後,機器人還需要在仿真環境裡做強化學習訓練,用來彌補人體動作和機器人實際執行之間的差距。離開數據工廠後的複雜環境適應,本質上也依賴強化學習來完成泛化。▎AI科技評論:使用的真實數據和仿真數據的比例是多少?尚陽星:仿真數據會比真實數據多好幾個量級。04我們的最終目標,是做機器人的基礎設施▎AI科技評論:現在數據工廠處於什麼階段?尚陽星:已經跑通了所有流程,在產能爬坡階段。過去三個月,我們在內部試點中跑通了跨本體全身運動數據工廠的端到端鏈路,累計產出了近千小時高質量 CWM 數據,數據訓練出的模型在十多款不同足式機器人上完成了驗證。我們規劃今年內一天採集數十個小時的數據,一個月就是數千小時。今年預計會收集上萬小時的數據。▎AI科技評論:這些數據會帶來哪些提升?未來會開放給行業嗎?尚陽星:主要是我們模型泛化能力的提升,特別是不同動作之間的泛化。目前機器人跳不高或做不好極端動作,補充更多數據後就能學會。我們的數據主要服務於內部模型訓練,不會直接給外部使用。但如果有合作方想購買數據,也可以談。▎AI科技評論:具體到產品上,今年會拿出什麼?尚陽星:數據訓練出來的能力,會通過我們的平臺化產品提供給大家。去年更多的是非泛化的動作。今年我們重點解決兩個泛化:跨本體和跨機型。6月我們會推出一個革命性的產品,這會是歷史上第一個將機器人運動控制做成標準化方案的產品。我們的設想是,未來任意機器人接入平臺後,就能快速獲得對應運動能力,不再為每個動作重複訓練。比如平臺可以和機器人拳賽結合,讓用戶自由組合不同機型的技能,分力量型、速度型等不同能力,不同本體之間的比賽才更有看頭。▎AI科技評論:目前橋介在數據工廠上的投入,大概是什麼量級?尚陽星:我們採購了一批動捕設備,一套動捕設備約幾十萬元,再算上場地搭建、團隊人員運營等成本,整體投入在千萬級別。▎AI科技評論:數據合格率高嗎?一條數據的成本是多少?尚陽星:現在數據合格率可以達到90%以上。我們不按“條”,按“小時”計價,因為不同數據條的時長差異很大。一小時數據的採集成本大約是幾百元,未來也會繼續降本。▎AI科技評論:如果想讓機器人真正達到接近人類的運動能力,需要多大規模的數據量?尚陽星:大概需要幾十萬小時量級的數據,人形機器人運動才會達到很好效果。這是基於人的一生約幾十萬小時推斷,但人動作有重複,也不可能做遍所有動作,所以只是非常粗略的估算。如果數據量上來,發現數據對模型訓練沒用了,我們也會停止。▎AI科技評論:這麼說的話,聚焦運動控制,天花板會不會很低,未來你們還會拓展其他方向嗎?尚陽星:等到集齊足量運動數據、機器人運動能力成熟後,我們也不會止步於此。先依靠海量全身運動動捕數據打好基礎,讓模型擁有動作組合能力,可靈活搭配不同動作完成各類任務。後續場景類、融合感知的規劃數據,可依託成熟模型從視頻中提取,覆蓋海量複雜現實場景。我們的最終目標是提供基礎設施,讓用戶在平臺上做組合創新,壁壘在於構建應用生態。▎AI科技評論:基礎設施的概念,聽起來比你們之前“小腦廠商”的定位更為宏大。尚陽星:其實從創業開始,我們想做的就是通用機器人時代的基礎設施廠商。運動控制雖然不等於操作系統,但是操作系統中很重要的一部分。橋介的長期定位是做人形機器人的操作系統,打造生態。▎AI科技評論:之前有投資人和你說,你做硬件他們才投,現在他們的看法改變了嗎?尚陽星:我們最近每天都在接待投資人,最近關閉了一輪融資,正在開啟新一輪融資。我感覺越來越多投資人都看明白了,有投資人和我直說,硬件現在太捲了,投了那麼多家,最後能留下來的估計沒幾家。有長期價值的是底層平臺能力。(雷峰網)
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。