雷峰網生成式AI

超越 SONIC !人形機器人通用小腦迎來 GPT 時刻

2026年6月22日 09:48

重點摘要

AstraBrain-WBC 0.5 論文深度解讀 作者丨齊鋮湧 編輯丨林覺民 全球首個人形通用小腦GPT基座大模型來了。在美國科羅拉多州丹佛會議中心舉行的CVPR 2026現場,銀河通用聯合研究團隊提出的AstraBrain-WBC 0.5,用一組數字直接刷新了行業認知:▎引入"20億幀最大人類行為數據規模"▎真機實測效果,顯著優於SONIC▎零樣本泛化成功率92.58%史上最大規模、整整20億幀人類動作數據,80.4M參數,零樣本泛化成功率92.58%,把傳統三層MLP的76.89%遠遠甩在身後,在MPJPE、MPJVE等多項指標上全面超越SONIC、TWIST、Any2Track等當前最優方法。這是人形機器人運控領域前所未有的事。(雷峰網)01引入"最大人類行為數據規模",真機實測超越SONIC一個模型,沒有任何預先編程,就能直接跟做從未見過的新動作。在室外泥地裡拿起鋤頭幹活,在家庭裡絲滑穩定地擼貓/鏟屎,在拳打腳踢下保持魯棒,也能風度翩翩跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作,同樣是零樣本,無需針對任務微調。這就是銀河通用最新發布——全球首個人形通用小腦GPT基座大模型的含金量。AstraBrain-WBC 0.5,作為全球首個人形機器通用小腦GPT基座大模型,有幾個特點:第一是GPT式預訓練,告別三層MLP,實現規模即智能。它通過引入GPT式預訓練+時序因果建模、加入超大規模數據訓練,其中Transformer相比MLP,擁有更強的可擴展性,打破單一動作過擬合,實現了零樣本泛化追蹤全新動作。再加上訓練數據組最近鄰檢索,實現完全OOD泛化,以及諧波自編碼器與聚類,重塑訓練流程,讓這個人形機器人運控領域的"GPT式大規模預訓練系統",呈現出幾個顯著亮點:▎引入了"最大人類行為數據規模"。從規模上看,AstraBrain-WBC 0.5包含了20億幀、8000萬

站內 AI 整理稿

AstraBrain-WBC 0.5 論文深度解讀 作者丨齊鋮湧 編輯丨林覺民 全球首個人形通用小腦GPT基座大模型來了。在美國科羅拉多州丹佛會議中心舉行的CVPR 2026現場,銀河通用聯合研究團隊提出的AstraBrain-WBC 0.5,用一組數字直接刷新了行業認知:▎引入"20億幀最大人類行為數據規模"▎真機實測效果,顯著優於SONIC▎零樣本泛化成功率92.58%史上最大規模、整整20億幀人類動作數據,80.4M參數,零樣本泛化成功率92.58%,把傳統三層MLP的76.89%遠遠甩在身後,在MPJPE、MPJVE等多項指標上全面超越SONIC、TWIST、Any2Track等當前最優方法。這是人形機器人運控領域前所未有的事。(雷峰網)01引入"最大人類行為數據規模",真機實測超越SONIC一個模型,沒有任何預先編程,就能直接跟做從未見過的新動作。在室外泥地裡拿起鋤頭幹活,在家庭裡絲滑穩定地擼貓/鏟屎,在拳打腳踢下保持魯棒,也能風度翩翩跳起華爾茲。武術踢腿、籃球運球投籃等高動態動作,同樣是零樣本,無需針對任務微調。這就是銀河通用最新發布——全球首個人形通用小腦GPT基座大模型的含金量。AstraBrain-WBC 0.5,作為全球首個人形機器通用小腦GPT基座大模型,有幾個特點:第一是GPT式預訓練,告別三層MLP,實現規模即智能。它通過引入GPT式預訓練+時序因果建模、加入超大規模數據訓練,其中Transformer相比MLP,擁有更強的可擴展性,打破單一動作過擬合,實現了零樣本泛化追蹤全新動作。再加上訓練數據組最近鄰檢索,實現完全OOD泛化,以及諧波自編碼器與聚類,重塑訓練流程,讓這個人形機器人運控領域的"GPT式大規模預訓練系統",呈現出幾個顯著亮點:▎引入了"最大人類行為數據規模"。從規模上看,AstraBrain-WBC 0.5包含了20億幀、8000萬參數,其中20億幀可以簡單等效於20億token,這個數字已經比肩2018年GPT-1的量級(GPT-1約1.17億參數),這是人形機器人運控領域有史以來最大規模的人類行為數據集。比此前最常用的公開數據集AMASS(約720萬幀)高出兩個數量級,是業內同類跟蹤模型訓練集的200倍以上。▎真機實測效果,顯著優於SONIC。真機實測中,在沒有任何預先編程的前提下,不僅能拿鋤頭,跳華爾茲,還能完成武術踢腿、籃球運球投籃等高動態動作,而且全是零樣本,無需針對任務微調。在四個未見舞蹈動作的跟蹤誤差對比中,AstraBrain-WBC 0.5在MPJPE、MPJVE等多項指標上,顯著優於SONIC、TWIST、Any2Track等當前最優方法;而當模型擴容到80.4M參數的AstraBrain-WBC 0.5,成功率躍升至92.58%,把三層MLP的76.89%遠遠甩在身後。20億幀,堪比2018年GPT-1的量級,Scaling Law在人形運動控制領域真實存在。但這只是結果。要理解AstraBrain-WBC 0.5為什麼能做到這些,得先看看它解決了什麼問題。在過去幾年,人形機器人運動控制領域雖然發展很快,但"敏捷"、"穩定"和"泛化"始終不可兼得。有些方法能讓人形機器人奔跑跳躍,完成舞蹈、武術動作,也有些方法讓人形機器人泛化能力強,能跟蹤更開放的動作輸入,但一遇到複雜舞蹈、快速接觸切換、或是"金雞獨立""葉問蹲"等平衡性動作,機器人全身大幅協調,就會變得僵硬,動作精度明顯下降。要敏捷,就會犧牲穩定性和泛化性;要泛化,動作質量就打折扣。AstraBrain-WBC 0.5正是衝著這個"不可能三角"去的。02AstraBrain-WBC 0.5解讀:把全身運動視為"動作語言"核心思想,可以概括為一句話:把人體全身運動看作一種"動作語言",用處理自然語言的方式去理解和生成它。https://arxiv.org/abs/2606.03985論文中提到了GPT之所以能在文本領域實現通用智能,關鍵在於以下三方面:▪ 海量且均衡的數據▪ 因果Transformer架構的自迴歸預測能力▪ 從大量"專家"中提煉出的通用表示(預訓練語料)AstraBrain-WBC 0.5團隊認為,這三點同樣適用於人形運動控制,於是先採集海量人類動作數據集,再用諧波運動嵌入方法讓模型吃下數據,再經過專家經驗的Transformer模型訓練,最後在部署方面控制住推理延遲。完成了運控大模型的閉環。我深扒了一下論文,具體來說,AstraBrain-WBC 0.5的整套方案分為三個緊密銜接的階段:數據基建、架構改造、雙階段訓練。▎第一、數據基建,解決"模型吃什麼"的問題人形機器人運控數據很稀缺,AstraBrain-WBC 0.5團隊沒有侷限於某個單一數據集,而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多個來源的動作數據,再加上超過一千小時的高質量內部採集數據,統一重定向到宇樹G1的29自由度關節空間。但光是"堆數據"不夠。不同動作的頻率、幅度、風格差異巨大,直接混在一起訓練,模型會"消化不良"。AstraBrain-WBC 0.5團隊引入了Harmonic Motion Embedding(HME,諧波運動嵌入)技術,基於動作的週期特徵進行聚類,把約20億幀原始數據切分成大約300個運動簇。這一步非常關鍵。它相當於給動作數據做了一次"詞性標註"和"句法分析",讓後續的訓練更有條理。沒有這一步,20億幀數據就是一鍋粥;有了這一步,它變成了一本結構清晰的詞典。▎第二、架構改造,解決"用什麼吃數據"的問題團隊徹底拋棄了淺層MLP,改用GPT風格的Causal Transformer(因果Transformer)。這個選擇不是跟風,而是有紮實的控制理論依據:在線動作跟蹤本質上是一個時序預測問題,機器人每一步的決策都依賴於過去的狀態和動作歷史。Causal Transformer的"因果注意力"機制,天然適合處理這種"只能看過去、不能偷看未來"的場景。相比MLP只能看當前幾幀的"短視",Transformer可以捕捉更長的時間上下文,理解動作的連貫性和節奏感。一個舞蹈動作失敗,往往不是因為當前這一步錯了,而是因為三步之前的重心沒調好。Transformer的長記憶能力,讓它能夠"覆盤"歷史,做出更連貫的決策。▎第三、雙階段訓練,解決"怎麼消化"的問題團隊沒有天真地指望一個Transformer直接硬啃20億幀數據。他們採用了"先分後總"的策略:第一階段,為300個運動簇分別訓練約300個PPO(近端策略優化)運動專家,讓每個專家把自己那一類動作學到極致;第二階段,用DAgger(數據集聚合)算法,把這300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中,相當於專科會診,再培養一個全科醫生。專家策略負責在各自領域達到性能上限,蒸餾過程則負責把分散的知識整合成通用能力。這三個階段環環相扣,缺一不可。沒有高質量的數據基建,Transformer就是無米之炊;沒有架構升級,數據再多也裝不進小容量的MLP;沒有雙階段訓練,大規模數據會導致訓練不穩定、收斂困難。這是一個系統工程,不是某個單點技術的突破。03架構創新:Transformer重構小腦,終結MLP時代接下來聊聊AstraBrain-WBC 0.5的創新性。我覺得論文中首先值得一提的,是架構創新。簡單來說,用Transformer替代MLP,是首次實現人形運控模型的規模化擴展。這是論文最直接、但也最容易被我們"理所當然化"的貢獻。這部分團隊做了非常紮實的對比實驗:在同樣的2M token訓練數據下,三層MLP的成功率是76.89%,8層TCN(時序卷積網絡)提升到81.48%,而參數量僅5.7M的AstraBrain-WBC 0.5-S就達到了83.26%。當數據量提升到20億token、模型參數擴展到80.4M時,成功率躍升至92.58%。論文中也給出了對比:當數據量達到最大的AstraBrain-WBC 0.5-L,在全部評測指標上幾乎都實現性能最優。這組數字說明了兩件事。第一,Transformer的容量天花板遠高於MLP和TCN,能夠持續從更多數據中"汲取營養";第二,在人形運動控制領域,Scaling Law是真實存在的。更值得注意的是,團隊證明了Transformer在保持高容量的同時,依然可以滿足實時控制的嚴苛要求。這裡面有個細節:團隊通過ONNX導出、TensorRT編譯、C++流式數據通道等工程優化,在單張RTX 4090顯卡上把端到端推理延遲壓到了1.5毫秒以下。作為對比,傳統方案TWIST在CPU ONNX上的延遲是2.79—3.32毫秒。這意味著,即便模型大了幾十倍,真機部署時的響應速度依然比很多傳統小模型更快。這一點打破了"大模型必然慢"的偏見,為後續更大規模的模型奠定了基礎。0420億幀超大規模人類動作數據集:首次驗證小腦大模型 Scaling low如果說架構創新是最容易被看見的,數據基建就是這篇論文中最容易被忽略的部分。我們都知道,人形動作數據如果分佈太窄,模型只會在窄分佈裡越來越熟。未來要接住各種動作,數據來源必須更雜。我看了下論文裡提到的20億幀、8000萬參數的分佈,這個參數量達到了“最大人類行為數據規模”,這體現出銀河通用團隊在數據積累層面的強大技術壁壘。他們統一不同數據源的骨骼偏差、過濾低質量動作片段、進行時序分段和數據增廣、通過HME聚類保證數據分佈均衡。在最終的數據集裡,我又發現了一個細節。看右側圖表這樣的配比,能看得出來,這個數據配比融入了各種數據來源,既保證了多樣性,又避免了某些數據源的過度主導,明顯是多次試驗驗證得到的。某種意義上,它證實了一件事:只要你有足夠的數據、足夠的算力、足夠好的架構,人形機器人的運動控制也能像自然語言一樣,通過規模化實現質變。05零樣本泛化關鍵:300個專家"會診"1個模型雙階段訓練是整套系統的核心,也是煉成通用能力的關鍵。在第一訓練階段,論文提到一個細節:AstraBrain-WBC 0.5團隊沒有把所有動作直接扔給一個模型硬學。它先用HME把動作分簇,再訓練一批motion experts。AstraBrain-WBC 0.5的處理很直接:先承認動作分佈不同,讓專家各自把一塊學穩,再把專家經驗蒸餾回一個大模型。訓練這300個PPO專家,消耗了15000 GPU小時中的75%,投入是巨大的,但也是必要的。第二階段是蒸餾。團隊用DAgger算法,讓AstraBrain-WBC 0.5在專家策略生成的軌跡上學習,逐步把300個專家的"集體智慧"壓縮到一個模型裡。為防止越學越偏,用算法收集學生模型的"犯錯數據"並交給專家重新標註,這就解決了"分佈偏移"。最終得到的AstraBrain-WBC 0.5,既保留了專家策略的高性能,又具備了單一模型的通用性和部署便利性。這是一種典型的"用工程複雜度換模型通用性"的思路,也是大模型時代常見的技術路線。其實當時看論文看到這裡,我想到一個現實問題:以後人形機器人底層運控如果真的走向基座化,算力賬本可能不會只出現在VLA和世界模型裡。身體這一層,也開始有自己的數據賬本、專家賬本和蒸餾賬本。06從"只會走"到"全身動":伯克利之後,誰把GPT範式推到了極致?其實AstraBrain-WBC 0.5的工作,並不是憑空出現的範式創新。不少人看到這裡,應該想到了2024年伯克利團隊的《Humanoid Locomotion as Next Token Prediction》論文,它的核心思路是用"預測下一個token"的自迴歸方式做人形機器人的行走控制。當時這篇論文在學術界引起了很大反響,因為它首次把GPT的範式引入機器人運動領域,證明了在單一行走任務上,自迴歸模型可以取得不錯的效果。而AstraBrain-WBC 0.5,則是在此基礎上往前邁出了一大步。伯克利的工作主要聚焦於行走(Locomotion),這是一個相對單一的任務域。行走雖然複雜,但本質上是一個週期性運動,狀態空間相對有限。而AstraBrain-WBC 0.5解決的是全身運動跟蹤,涵蓋走路、跑步、舞蹈、武術、搬運、倒地起身等極其豐富的動作類型。從"只會走"到"全身都會動",這中間的難度跨越不是線性的,而是指數級的。更重要的是,AstraBrain-WBC 0.5實現了零樣本泛化。從效果上看,AstraBrain-WBC 0.5在多個維度實現了突破:第一是高動態動作支持。 真機實測視頻中,機器人可以完成跳躍、快速轉身、武術踢腿等動作。很多人形動作失敗,看起來發生在某一幀,根源往往在前面幾步。節奏沒接上,重心提前偏了,腳落點稍微錯了一點,後面再想補就很難。Transformer真正有用的地方,是它給tracker更長的時間視野。第二是超低延遲響應。 端到端推理延遲低於1.5毫秒。在人形機器人控制中,延遲非常要命。每多一毫秒,機器人在受到擾動時的恢復窗口就小一分。第三是魯棒性。 論文展示了機器人在受到外部推力、地面摩擦變化等干擾下的表現。這不是"死記硬背"某個動作軌跡,而是真正理解。論文裡,團隊用四個未見舞蹈動作的真機跟蹤誤差橫向對比AstraBrain-WBC 0.5與SONIC、TWIST、Any2Track,AstraBrain-WBC 0.5-B在多項指標上優於GMT、TWIST、Any2Track。此外還有一個在線遙操作驗證的實驗:實時MoCap流持續重定向到G1關節空間,AstraBrain-WBC 0.5不額外微調,直接驅動機器人跟隨。這些都是非常直觀的突破。07銀河通用重構人形機器人商業版圖最後,拋開頂會論文的學術意義,我們再聊聊AstraBrain-WBC 0.5的產業價值。首先,AstraBrain-WBC 0.5作為一個預訓練的"運控基座",其他研究者可以直接零樣本跟蹤新的參考動作,大幅降低研究門檻。再加上開源了代碼和部分工具,這意味著全球的研究者都可以在此基礎上進行二次開發。放在娛樂場景,AstraBrain-WBC 0.5讓"一鍵生成複雜擬人化表演"成為可能。以後舞蹈編導可以給遠在千里之外的機器人實時復現,迪士尼或者劇組的機器人拿到遠程運控信號,就可以隨時開跳。對於應急救援等嚴肅場景,AstraBrain-WBC 0.5的泛化能力也讓機器人可以在未知環境中執行更復雜的身體任務。最後,必須要說的是,AstraBrain-WBC 0.5也是具身頭部公司銀河通用的"銀河星腦"的小腦部分。銀河星腦是全球首個集成"大腦-小腦-神經控制"於一體的全身全手端到端具身大模型,其中AstraBrain-WBC 0.5所擅長的,就是把高層指令轉化為具體的關節運動。回顧銀河通用的發展軌跡,這家公司成立於2023年5月,短短兩年多時間,已經完成了從零樣本抓取、零售場景、導航基座到AstraBrain(全身全手大模型)的技術佈局。AstraBrain-WBC 0.5作為其中的"小腦"模塊,不僅補齊了全身運動控制這塊關鍵拼圖,也為整個銀河星腦的泛化能力提供了堅實的身體底座。銀河通用帶領團隊的這項工作,在學術領域最大的意義或許在於:在人形機器人運控領域已經找到了一條可擴展、可復現的技術路徑,就像2018年的GPT-1的出現,雖然遠不及今天的GPT-4,但它卻奠定了一個路書。而在商業視角下,AstraBrain-WBC 0.5的價值還在於它正在重構人形機器人的商業模型。一個預訓練的通用運控基座,意味著銀河通用無需為每個新場景重新投入研發成本,舞蹈、巡檢、救援共用同一套"身體操作系統"。邊際成本隨部署規模遞減,毛利率曲線將顯著抬升。而零樣本泛化能力大幅縮短了客戶驗證週期,從"定製開發"變成"即插即用",客戶獲取速度有望複製軟件行業的規模化擴張路徑。(雷峰網)

Related

相關文章

智東西生成式AI

庫克攤牌了:漲價!

智東西 編譯 | 陳佳 編輯 | 雲鵬 智東西6月22日消息,據《華爾街日報》昨日報道,AI行業對存儲芯片的海量需求正引發一場波及全球的消費電子漲價潮。蘋果、微軟、任天堂、索尼等廠商近期密集上調產品售價,蘋果公司CEO蒂姆·庫克(Tim Cook)坦言公司已無力獨自消化上游成本上漲壓力,計劃在未來數月上調產品售價。 這場漲價的根源直指AI產業擴張。DRAM和NAND閃存既是手機、筆記本、遊戲主機等消費設備的基礎硬件,也是AI企業訓練和運行大模型的關鍵資源。AI行業的爆發式增長大量吞噬了同類芯片產能,導致全球存儲芯片供應陷入嚴重緊缺。 芯片廠商從中大幅獲益,全球三家存儲芯片巨頭——SK海力士、三星電子和美光科技,成為最大贏家。過去半年SK海力士與美光市值均飆漲約四倍,各自突破1萬億美元(約合人民幣6.77萬億元)。 而成本壓力層層向消費者端傳導,過去一年美光一款主流數據中心內存芯片合約價漲幅接近4倍。 據Investing 2026年6月20日報道,高盛下調了2026年和2027年全球智能手機出貨量預測,理由是存儲芯片價格持續上漲抑制市場需求。 在新設備售價持續走高的背景下,二手翻新設備市場正迎來新一輪增長窗口,多家翻新交易平臺在品質管控和售後保障方面持續加碼。 與此同時,分析師預測新建晶圓廠需要兩到三年才能投產,芯片短缺和漲價態勢還將持續數年,消費電子買家短期內難以等到降價拐點。 一、各品類消費電子密集漲價,成本壓力轉嫁給消費者 消費者已在各類產品上切身感受到漲價衝擊。微軟上週公佈新款Surface Pro筆記本起售價為1599美元(約合人民幣1.08萬元),較上一代產品上漲600美元(約合人民幣4062元)。 任天堂5月將Switch 2遊戲主機售價上調50美元(約合人民幣339元)至499美元(約合人民幣3378元),官方就此致歉稱“為本次調價給消費者帶來的影響致以誠摯

3 小時前
智東西生成式AI

剛剛,阿里HappyHorse1.1上線,我用它把國足送進世界盃

智東西 作者 | 陳駿達 編輯 | 心緣 智東西6月22日報道,今天,阿里巴巴發佈了其最新一代視頻生成模型HappyHorse 1.1(快樂小馬1.1)。阿里稱,相比HappyHorse 1.1,這代模型在動態表現力、主體一致性、指令遵循、視覺質感和音頻能力等維度有了一定提升。 HappyHorse 1.1的技術規格與HappyHorse 1.0保持一致,單次生成時長為3至15秒,支持720p和1080p分辨率和自由寬高比。 阿里官方曬出了幾個HappyHorse 1.1的生成結果。在舞蹈這類考驗模型動態表現力和動作連貫性的任務上,HappyHorse 1.1生成的動作流暢自然,沒有像過去許多視頻生成模型一樣出現慢動作、殘影等問題,人體特徵符合正常情況,長相也保持了一致。 在風格化內容方面,HappyHorse 1.1在下方案例中很好地保持了傳統中國畫的畫風,沒有出現風格偏移等問題。 模型發佈後,智東西第一時間對HappyHorse 1.1進行了實測,並將其表現與HappyHorse 1.0和近期發佈的Seedance 2.0 Mini進行了對比。從實測結果看來,HappyHorse 1.1較上一代模型的確實現了一定提升,尤其是畫面“油膩感”問題得到了較好的解決。不過,在部分邊緣場景、多參考主體的任務上,其生成結果的真實感、物理規律遵循還有優化空間。 目前,HappyHorse 1.1已經上線阿里雲百鍊平臺和HappyHorse官網。以文生視頻為例,其生成720p清晰度畫面的價格為每秒0.9元(優惠後0.54元),與HappyHorse 1.0保持一致;生成1080p清晰度畫面的價格為每秒1.2元(優惠後為0.72元),與HappyHorse 1.0相比下調了25%。 體驗鏈接:www.happyhorse.cn API接入:bailian.console.aliyun.c

4 小時前