超越 SONIC ！人形機器人通用小腦迎來 GPT 時刻

2026年6月22日 09:48

重點摘要

站內 AI 整理稿

AstraBrain-WBC 0.5 論文深度解讀作者丨齊鋮湧編輯丨林覺民全球首個人形通用小腦GPT基座大模型來了。在美國科羅拉多州丹佛會議中心舉行的CVPR 2026現場，銀河通用聯合研究團隊提出的AstraBrain-WBC 0.5，用一組數字直接刷新了行業認知：▎引入"20億幀最大人類行為數據規模"▎真機實測效果，顯著優於SONIC▎零樣本泛化成功率92.58%史上最大規模、整整20億幀人類動作數據，80.4M參數，零樣本泛化成功率92.58%，把傳統三層MLP的76.89%遠遠甩在身後，在MPJPE、MPJVE等多項指標上全面超越SONIC、TWIST、Any2Track等當前最優方法。這是人形機器人運控領域前所未有的事。（雷峰網）01引入"最大人類行為數據規模"，真機實測超越SONIC一個模型，沒有任何預先編程，就能直接跟做從未見過的新動作。在室外泥地裡拿起鋤頭幹活，在家庭裡絲滑穩定地擼貓/鏟屎，在拳打腳踢下保持魯棒，也能風度翩翩跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作，同樣是零樣本，無需針對任務微調。這就是銀河通用最新發布——全球首個人形通用小腦GPT基座大模型的含金量。AstraBrain-WBC 0.5，作為全球首個人形機器通用小腦GPT基座大模型，有幾個特點：第一是GPT式預訓練，告別三層MLP，實現規模即智能。它通過引入GPT式預訓練+時序因果建模、加入超大規模數據訓練，其中Transformer相比MLP，擁有更強的可擴展性，打破單一動作過擬合，實現了零樣本泛化追蹤全新動作。再加上訓練數據組最近鄰檢索，實現完全OOD泛化，以及諧波自編碼器與聚類，重塑訓練流程，讓這個人形機器人運控領域的"GPT式大規模預訓練系統"，呈現出幾個顯著亮點：▎引入了"最大人類行為數據規模"。從規模上看，AstraBrain-WBC 0.5包含了20億幀、8000萬參數，其中20億幀可以簡單等效於20億token，這個數字已經比肩2018年GPT-1的量級（GPT-1約1.17億參數），這是人形機器人運控領域有史以來最大規模的人類行為數據集。比此前最常用的公開數據集AMASS（約720萬幀）高出兩個數量級，是業內同類跟蹤模型訓練集的200倍以上。▎真機實測效果，顯著優於SONIC。真機實測中，在沒有任何預先編程的前提下，不僅能拿鋤頭，跳華爾茲，還能完成武術踢腿、籃球運球投籃等高動態動作，而且全是零樣本，無需針對任務微調。在四個未見舞蹈動作的跟蹤誤差對比中，AstraBrain-WBC 0.5在MPJPE、MPJVE等多項指標上，顯著優於SONIC、TWIST、Any2Track等當前最優方法；而當模型擴容到80.4M參數的AstraBrain-WBC 0.5，成功率躍升至92.58%，把三層MLP的76.89%遠遠甩在身後。20億幀，堪比2018年GPT-1的量級，Scaling Law在人形運動控制領域真實存在。但這只是結果。要理解AstraBrain-WBC 0.5為什麼能做到這些，得先看看它解決了什麼問題。在過去幾年，人形機器人運動控制領域雖然發展很快，但"敏捷"、"穩定"和"泛化"始終不可兼得。有些方法能讓人形機器人奔跑跳躍，完成舞蹈、武術動作，也有些方法讓人形機器人泛化能力強，能跟蹤更開放的動作輸入，但一遇到複雜舞蹈、快速接觸切換、或是"金雞獨立""葉問蹲"等平衡性動作，機器人全身大幅協調，就會變得僵硬，動作精度明顯下降。要敏捷，就會犧牲穩定性和泛化性；要泛化，動作質量就打折扣。AstraBrain-WBC 0.5正是衝著這個"不可能三角"去的。02AstraBrain-WBC 0.5解讀：把全身運動視為"動作語言"核心思想，可以概括為一句話：把人體全身運動看作一種"動作語言"，用處理自然語言的方式去理解和生成它。https://arxiv.org/abs/2606.03985論文中提到了GPT之所以能在文本領域實現通用智能，關鍵在於以下三方面：▪ 海量且均衡的數據▪ 因果Transformer架構的自迴歸預測能力▪ 從大量"專家"中提煉出的通用表示（預訓練語料）AstraBrain-WBC 0.5團隊認為，這三點同樣適用於人形運動控制，於是先採集海量人類動作數據集，再用諧波運動嵌入方法讓模型吃下數據，再經過專家經驗的Transformer模型訓練，最後在部署方面控制住推理延遲。完成了運控大模型的閉環。我深扒了一下論文，具體來說，AstraBrain-WBC 0.5的整套方案分為三個緊密銜接的階段：數據基建、架構改造、雙階段訓練。▎第一、數據基建，解決"模型吃什麼"的問題人形機器人運控數據很稀缺，AstraBrain-WBC 0.5團隊沒有侷限於某個單一數據集，而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多個來源的動作數據，再加上超過一千小時的高質量內部採集數據，統一重定向到宇樹G1的29自由度關節空間。但光是"堆數據"不夠。不同動作的頻率、幅度、風格差異巨大，直接混在一起訓練，模型會"消化不良"。AstraBrain-WBC 0.5團隊引入了Harmonic Motion Embedding（HME，諧波運動嵌入）技術，基於動作的週期特徵進行聚類，把約20億幀原始數據切分成大約300個運動簇。這一步非常關鍵。它相當於給動作數據做了一次"詞性標註"和"句法分析"，讓後續的訓練更有條理。沒有這一步，20億幀數據就是一鍋粥；有了這一步，它變成了一本結構清晰的詞典。▎第二、架構改造，解決"用什麼吃數據"的問題團隊徹底拋棄了淺層MLP，改用GPT風格的Causal Transformer（因果Transformer）。這個選擇不是跟風，而是有紮實的控制理論依據：在線動作跟蹤本質上是一個時序預測問題，機器人每一步的決策都依賴於過去的狀態和動作歷史。Causal Transformer的"因果注意力"機制，天然適合處理這種"只能看過去、不能偷看未來"的場景。相比MLP只能看當前幾幀的"短視"，Transformer可以捕捉更長的時間上下文，理解動作的連貫性和節奏感。一個舞蹈動作失敗，往往不是因為當前這一步錯了，而是因為三步之前的重心沒調好。Transformer的長記憶能力，讓它能夠"覆盤"歷史，做出更連貫的決策。▎第三、雙階段訓練，解決"怎麼消化"的問題團隊沒有天真地指望一個Transformer直接硬啃20億幀數據。他們採用了"先分後總"的策略：第一階段，為300個運動簇分別訓練約300個PPO（近端策略優化）運動專家，讓每個專家把自己那一類動作學到極致；第二階段，用DAgger（數據集聚合）算法，把這300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中，相當於專科會診，再培養一個全科醫生。專家策略負責在各自領域達到性能上限，蒸餾過程則負責把分散的知識整合成通用能力。這三個階段環環相扣，缺一不可。沒有高質量的數據基建，Transformer就是無米之炊；沒有架構升級，數據再多也裝不進小容量的MLP；沒有雙階段訓練，大規模數據會導致訓練不穩定、收斂困難。這是一個系統工程，不是某個單點技術的突破。03架構創新：Transformer重構小腦，終結MLP時代接下來聊聊AstraBrain-WBC 0.5的創新性。我覺得論文中首先值得一提的，是架構創新。簡單來說，用Transformer替代MLP，是首次實現人形運控模型的規模化擴展。這是論文最直接、但也最容易被我們"理所當然化"的貢獻。這部分團隊做了非常紮實的對比實驗：在同樣的2M token訓練數據下，三層MLP的成功率是76.89%，8層TCN（時序卷積網絡）提升到81.48%，而參數量僅5.7M的AstraBrain-WBC 0.5-S就達到了83.26%。當數據量提升到20億token、模型參數擴展到80.4M時，成功率躍升至92.58%。論文中也給出了對比：當數據量達到最大的AstraBrain-WBC 0.5-L，在全部評測指標上幾乎都實現性能最優。這組數字說明了兩件事。第一，Transformer的容量天花板遠高於MLP和TCN，能夠持續從更多數據中"汲取營養"；第二，在人形運動控制領域，Scaling Law是真實存在的。更值得注意的是，團隊證明了Transformer在保持高容量的同時，依然可以滿足實時控制的嚴苛要求。這裡面有個細節：團隊通過ONNX導出、TensorRT編譯、C++流式數據通道等工程優化，在單張RTX 4090顯卡上把端到端推理延遲壓到了1.5毫秒以下。作為對比，傳統方案TWIST在CPU ONNX上的延遲是2.79—3.32毫秒。這意味著，即便模型大了幾十倍，真機部署時的響應速度依然比很多傳統小模型更快。這一點打破了"大模型必然慢"的偏見，為後續更大規模的模型奠定了基礎。0420億幀超大規模人類動作數據集：首次驗證小腦大模型 Scaling low如果說架構創新是最容易被看見的，數據基建就是這篇論文中最容易被忽略的部分。我們都知道，人形動作數據如果分佈太窄，模型只會在窄分佈裡越來越熟。未來要接住各種動作，數據來源必須更雜。我看了下論文裡提到的20億幀、8000萬參數的分佈，這個參數量達到了“最大人類行為數據規模”，這體現出銀河通用團隊在數據積累層面的強大技術壁壘。他們統一不同數據源的骨骼偏差、過濾低質量動作片段、進行時序分段和數據增廣、通過HME聚類保證數據分佈均衡。在最終的數據集裡，我又發現了一個細節。看右側圖表這樣的配比，能看得出來，這個數據配比融入了各種數據來源，既保證了多樣性，又避免了某些數據源的過度主導，明顯是多次試驗驗證得到的。某種意義上，它證實了一件事：只要你有足夠的數據、足夠的算力、足夠好的架構，人形機器人的運動控制也能像自然語言一樣，通過規模化實現質變。05零樣本泛化關鍵：300個專家"會診"1個模型雙階段訓練是整套系統的核心，也是煉成通用能力的關鍵。在第一訓練階段，論文提到一個細節：AstraBrain-WBC 0.5團隊沒有把所有動作直接扔給一個模型硬學。它先用HME把動作分簇，再訓練一批motion experts。AstraBrain-WBC 0.5的處理很直接：先承認動作分佈不同，讓專家各自把一塊學穩，再把專家經驗蒸餾回一個大模型。訓練這300個PPO專家，消耗了15000 GPU小時中的75%，投入是巨大的，但也是必要的。第二階段是蒸餾。團隊用DAgger算法，讓AstraBrain-WBC 0.5在專家策略生成的軌跡上學習，逐步把300個專家的"集體智慧"壓縮到一個模型裡。為防止越學越偏，用算法收集學生模型的"犯錯數據"並交給專家重新標註，這就解決了"分佈偏移"。最終得到的AstraBrain-WBC 0.5，既保留了專家策略的高性能，又具備了單一模型的通用性和部署便利性。這是一種典型的"用工程複雜度換模型通用性"的思路，也是大模型時代常見的技術路線。其實當時看論文看到這裡，我想到一個現實問題：以後人形機器人底層運控如果真的走向基座化，算力賬本可能不會只出現在VLA和世界模型裡。身體這一層，也開始有自己的數據賬本、專家賬本和蒸餾賬本。06從"只會走"到"全身動"：伯克利之後，誰把GPT範式推到了極致？其實AstraBrain-WBC 0.5的工作，並不是憑空出現的範式創新。不少人看到這裡，應該想到了2024年伯克利團隊的《Humanoid Locomotion as Next Token Prediction》論文，它的核心思路是用"預測下一個token"的自迴歸方式做人形機器人的行走控制。當時這篇論文在學術界引起了很大反響，因為它首次把GPT的範式引入機器人運動領域，證明了在單一行走任務上，自迴歸模型可以取得不錯的效果。而AstraBrain-WBC 0.5，則是在此基礎上往前邁出了一大步。伯克利的工作主要聚焦於行走（Locomotion），這是一個相對單一的任務域。行走雖然複雜，但本質上是一個週期性運動，狀態空間相對有限。而AstraBrain-WBC 0.5解決的是全身運動跟蹤，涵蓋走路、跑步、舞蹈、武術、搬運、倒地起身等極其豐富的動作類型。從"只會走"到"全身都會動"，這中間的難度跨越不是線性的，而是指數級的。更重要的是，AstraBrain-WBC 0.5實現了零樣本泛化。從效果上看，AstraBrain-WBC 0.5在多個維度實現了突破：第一是高動態動作支持。真機實測視頻中，機器人可以完成跳躍、快速轉身、武術踢腿等動作。很多人形動作失敗，看起來發生在某一幀，根源往往在前面幾步。節奏沒接上，重心提前偏了，腳落點稍微錯了一點，後面再想補就很難。Transformer真正有用的地方，是它給tracker更長的時間視野。第二是超低延遲響應。端到端推理延遲低於1.5毫秒。在人形機器人控制中，延遲非常要命。每多一毫秒，機器人在受到擾動時的恢復窗口就小一分。第三是魯棒性。論文展示了機器人在受到外部推力、地面摩擦變化等干擾下的表現。這不是"死記硬背"某個動作軌跡，而是真正理解。論文裡，團隊用四個未見舞蹈動作的真機跟蹤誤差橫向對比AstraBrain-WBC 0.5與SONIC、TWIST、Any2Track，AstraBrain-WBC 0.5-B在多項指標上優於GMT、TWIST、Any2Track。此外還有一個在線遙操作驗證的實驗：實時MoCap流持續重定向到G1關節空間，AstraBrain-WBC 0.5不額外微調，直接驅動機器人跟隨。這些都是非常直觀的突破。07銀河通用重構人形機器人商業版圖最後，拋開頂會論文的學術意義，我們再聊聊AstraBrain-WBC 0.5的產業價值。首先，AstraBrain-WBC 0.5作為一個預訓練的"運控基座"，其他研究者可以直接零樣本跟蹤新的參考動作，大幅降低研究門檻。再加上開源了代碼和部分工具，這意味著全球的研究者都可以在此基礎上進行二次開發。放在娛樂場景，AstraBrain-WBC 0.5讓"一鍵生成複雜擬人化表演"成為可能。以後舞蹈編導可以給遠在千里之外的機器人實時復現，迪士尼或者劇組的機器人拿到遠程運控信號，就可以隨時開跳。對於應急救援等嚴肅場景，AstraBrain-WBC 0.5的泛化能力也讓機器人可以在未知環境中執行更復雜的身體任務。最後，必須要說的是，AstraBrain-WBC 0.5也是具身頭部公司銀河通用的"銀河星腦"的小腦部分。銀河星腦是全球首個集成"大腦-小腦-神經控制"於一體的全身全手端到端具身大模型，其中AstraBrain-WBC 0.5所擅長的，就是把高層指令轉化為具體的關節運動。回顧銀河通用的發展軌跡，這家公司成立於2023年5月，短短兩年多時間，已經完成了從零樣本抓取、零售場景、導航基座到AstraBrain（全身全手大模型）的技術佈局。AstraBrain-WBC 0.5作為其中的"小腦"模塊，不僅補齊了全身運動控制這塊關鍵拼圖，也為整個銀河星腦的泛化能力提供了堅實的身體底座。銀河通用帶領團隊的這項工作，在學術領域最大的意義或許在於：在人形機器人運控領域已經找到了一條可擴展、可復現的技術路徑，就像2018年的GPT-1的出現，雖然遠不及今天的GPT-4，但它卻奠定了一個路書。而在商業視角下，AstraBrain-WBC 0.5的價值還在於它正在重構人形機器人的商業模型。一個預訓練的通用運控基座，意味著銀河通用無需為每個新場景重新投入研發成本，舞蹈、巡檢、救援共用同一套"身體操作系統"。邊際成本隨部署規模遞減，毛利率曲線將顯著抬升。而零樣本泛化能力大幅縮短了客戶驗證週期，從"定製開發"變成"即插即用"，客戶獲取速度有望複製軟件行業的規模化擴張路徑。（雷峰網）

原始來源：雷峰網 ↗

查看原始來源

IT之家生成式AI

為劇而生：生數 Vidu Q3 多模態大模型上線華為雲，主打文 / 圖生視頻一體化成片能力

據介紹，Vidu Q3 是全球首個「為劇而生」的視頻大模型，支持 16 秒聲畫同出、1080P 畫質，擁有穩定多鏡頭敘事與精準切鏡能力，並具備多國語言文字渲染及多語言輸出功能，可用於漫劇、短劇、影視劇等專業內容創作。

剛剛閱讀分析

IT之家生成式AI

Anthropic 工程負責人：Claude Code 讓程序員更孤獨

Anthropic 工程負責人指出，Claude Code 可能讓程序員感到更孤獨。為此，團隊重拾面對面交流，舉辦編程午餐、黑客松和共同開發時段，鼓勵工程師一起工作，並互相學習不同的 AI 工作流程。

剛剛閱讀分析

36氪生成式AI

Claude Code破解3500年前死語言，74年來最大考古語言學突破

這篇消息聚焦「Claude Code破解3500年前死語言，74年來最大考古語言學突破」。原始導語提到：可能是74年來最大考古語言學突破從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

智東西生成式AI

庫克攤牌了：漲價！

智東西編譯 | 陳佳編輯 | 雲鵬智東西6月22日消息，據《華爾街日報》昨日報道，AI行業對存儲芯片的海量需求正引發一場波及全球的消費電子漲價潮。蘋果、微軟、任天堂、索尼等廠商近期密集上調產品售價，蘋果公司CEO蒂姆·庫克（Tim Cook）坦言公司已無力獨自消化上游成本上漲壓力，計劃在未來數月上調產品售價。這場漲價的根源直指AI產業擴張。DRAM和NAND閃存既是手機、筆記本、遊戲主機等消費設備的基礎硬件，也是AI企業訓練和運行大模型的關鍵資源。AI行業的爆發式增長大量吞噬了同類芯片產能，導致全球存儲芯片供應陷入嚴重緊缺。芯片廠商從中大幅獲益，全球三家存儲芯片巨頭——SK海力士、三星電子和美光科技，成為最大贏家。過去半年SK海力士與美光市值均飆漲約四倍，各自突破1萬億美元（約合人民幣6.77萬億元）。而成本壓力層層向消費者端傳導，過去一年美光一款主流數據中心內存芯片合約價漲幅接近4倍。據Investing 2026年6月20日報道，高盛下調了2026年和2027年全球智能手機出貨量預測，理由是存儲芯片價格持續上漲抑制市場需求。在新設備售價持續走高的背景下，二手翻新設備市場正迎來新一輪增長窗口，多家翻新交易平臺在品質管控和售後保障方面持續加碼。與此同時，分析師預測新建晶圓廠需要兩到三年才能投產，芯片短缺和漲價態勢還將持續數年，消費電子買家短期內難以等到降價拐點。一、各品類消費電子密集漲價，成本壓力轉嫁給消費者消費者已在各類產品上切身感受到漲價衝擊。微軟上週公佈新款Surface Pro筆記本起售價為1599美元（約合人民幣1.08萬元），較上一代產品上漲600美元（約合人民幣4062元）。任天堂5月將Switch 2遊戲主機售價上調50美元（約合人民幣339元）至499美元（約合人民幣3378元），官方就此致歉稱“為本次調價給消費者帶來的影響致以誠摯

3 小時前閱讀分析

36氪生成式AI

Claude下一代神級模型秘密出爐，Sonnet-5被曝下週上線

這篇消息聚焦「Claude下一代神級模型秘密出爐，Sonnet-5被曝下週上線」。原始導語提到：封禁，反而讓Anthropic更快了？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

4 小時前閱讀分析

智東西生成式AI

剛剛，阿里HappyHorse1.1上線，我用它把國足送進世界盃

智東西作者 | 陳駿達編輯 | 心緣智東西6月22日報道，今天，阿里巴巴發佈了其最新一代視頻生成模型HappyHorse 1.1（快樂小馬1.1）。阿里稱，相比HappyHorse 1.1，這代模型在動態表現力、主體一致性、指令遵循、視覺質感和音頻能力等維度有了一定提升。 HappyHorse 1.1的技術規格與HappyHorse 1.0保持一致，單次生成時長為3至15秒，支持720p和1080p分辨率和自由寬高比。阿里官方曬出了幾個HappyHorse 1.1的生成結果。在舞蹈這類考驗模型動態表現力和動作連貫性的任務上，HappyHorse 1.1生成的動作流暢自然，沒有像過去許多視頻生成模型一樣出現慢動作、殘影等問題，人體特徵符合正常情況，長相也保持了一致。在風格化內容方面，HappyHorse 1.1在下方案例中很好地保持了傳統中國畫的畫風，沒有出現風格偏移等問題。模型發佈後，智東西第一時間對HappyHorse 1.1進行了實測，並將其表現與HappyHorse 1.0和近期發佈的Seedance 2.0 Mini進行了對比。從實測結果看來，HappyHorse 1.1較上一代模型的確實現了一定提升，尤其是畫面“油膩感”問題得到了較好的解決。不過，在部分邊緣場景、多參考主體的任務上，其生成結果的真實感、物理規律遵循還有優化空間。目前，HappyHorse 1.1已經上線阿里雲百鍊平臺和HappyHorse官網。以文生視頻為例，其生成720p清晰度畫面的價格為每秒0.9元（優惠後0.54元），與HappyHorse 1.0保持一致；生成1080p清晰度畫面的價格為每秒1.2元（優惠後為0.72元），與HappyHorse 1.0相比下調了25%。體驗鏈接：www.happyhorse.cn API接入：bailian.console.aliyun.c

4 小時前閱讀分析

相關文章

為劇而生：生數 Vidu Q3 多模態大模型上線華為雲，主打文 / 圖生視頻一體化成片能力

Anthropic 工程負責人：Claude Code 讓程序員更孤獨

Claude Code破解3500年前死語言，74年來最大考古語言學突破

庫克攤牌了：漲價！

Claude下一代神級模型秘密出爐，Sonnet-5被曝下週上線

剛剛，阿里HappyHorse1.1上線，我用它把國足送進世界盃