星海圖新一代具身基礎模型G0.5發佈,全面提升零樣本泛化能力,讓機器人邊思考邊行動

2026年6月1日 12:33

重點摘要

過去,機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執行一串預設動作。現在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應該先拿起毛巾,再移動過去,最後放下。邊思考,邊行動。這一能力依託於我們最新的 VLA(視覺-語言-行動)模型架構設計:讓同一個模型、同一套權重,同時完成推理與行動,讓機器人擁有“行動中的思考能力”。言出法隨:零樣本泛化至新物體、新環境、新指令G0.5 在 R1 Lite 機器人上,零樣本(未經任何該場景的微調),僅憑自然語言指令直接驅動機器人完成操作任務。模型從未見過當前的環境佈局、物體類別和指令組合,卻能實時理解指令意圖、分解動作並輸出流暢的雙臂控制。這正是 G0.5 “言出法隨”的開箱即用能力——一個模型,一句話,直接幹活。從“記住任務”到“學會操作”過去,機器人學習一項新任務通常意味著:重新採集數據、重新微調模型、重新適配場景。它們可以出色地完成被訓練過的任務,卻很難泛化到新的物體、新的環境和新的指令。我們通過大規模、多任務預訓練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作,不再是單個任務中的固定片段,而是沉澱為模型可以複用的能力單元。在面對新的場景、空間佈局和從未見過的物體時,僅憑自然語言指令,G0.5 就能直接執行操作,機器人開始 “邊思考邊行動”(Think While Acting)。三大核心能力:讓具身基礎模型學會“邊想邊幹”1. 統一異構動作編解碼器:讓一種“動作語言”覆蓋所有機器人不同機器人的形態、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業機器人,每一種都有各自的動作維度。過去的做法,要麼每種機器人單獨搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要麼把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識,後者會讓 t

站內 AI 整理稿

過去,機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執行一串預設動作。現在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應該先拿起毛巾,再移動過去,最後放下。邊思考,邊行動。這一能力依託於我們最新的 VLA(視覺-語言-行動)模型架構設計:讓同一個模型、同一套權重,同時完成推理與行動,讓機器人擁有“行動中的思考能力”。言出法隨:零樣本泛化至新物體、新環境、新指令G0.5 在 R1 Lite 機器人上,零樣本(未經任何該場景的微調),僅憑自然語言指令直接驅動機器人完成操作任務。模型從未見過當前的環境佈局、物體類別和指令組合,卻能實時理解指令意圖、分解動作並輸出流暢的雙臂控制。這正是 G0.5 “言出法隨”的開箱即用能力——一個模型,一句話,直接幹活。從“記住任務”到“學會操作”過去,機器人學習一項新任務通常意味著:重新採集數據、重新微調模型、重新適配場景。它們可以出色地完成被訓練過的任務,卻很難泛化到新的物體、新的環境和新的指令。我們通過大規模、多任務預訓練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作,不再是單個任務中的固定片段,而是沉澱為模型可以複用的能力單元。在面對新的場景、空間佈局和從未見過的物體時,僅憑自然語言指令,G0.5 就能直接執行操作,機器人開始 “邊思考邊行動”(Think While Acting)。三大核心能力:讓具身基礎模型學會“邊想邊幹”1. 統一異構動作編解碼器:讓一種“動作語言”覆蓋所有機器人不同機器人的形態、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業機器人,每一種都有各自的動作維度。過去的做法,要麼每種機器人單獨搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要麼把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識,後者會讓 token 數量隨總自由度線性膨脹——哪怕當前這一步只是手指動一下,模型也得為所有關節生成 token,浪費嚴重,而且語義高度糾纏、遷移性差。我們認為,動作 token 本應像語言一樣既結構化又稀疏。為此我們設計了一套統一的異構動作編解碼器。得益於這套設計,G0.5 用一套動作詞表就能涵蓋從桌面雙臂到全身移動操作的各類本體,自迴歸解碼帶來的額外開銷也被控制在可接受範圍內——這正是我們能把 VLM 重新放回“動作生成者”位置、而不是退化為條件編碼器的關鍵前提。G0.5 Action tokenizer2. 原生動作思維鏈:讓機器人不僅“邊思考邊行動”,還聽得懂“怎麼做”統一動作詞表讓我們可以把 VLM 重新放回“動作生成者”的位置。這件事真正的回報,是 VLM 在預訓練中習得的生成式能力——鏈式思維、上下文學習、prompt 調製——可以原生作用於動作生成,而不必先穿過 VLM-as-Encoder 架構裡那個“條件編碼”的壓縮瓶頸。多數現有工作中,鏈式思維(CoT)只是訓練時的輔助任務,推理模塊和動作模塊被割裂在兩套參數、兩個目標裡——推理結果想影響動作,必須先被壓成一段隱狀態再餵給下游 expert,中間既有語義損失,延遲也不可控。我們認為應迴歸本源,將 CoT 與動作生成融合在同一個自迴歸流中:模型會先輸出子任務分解、目標物體框、2D 軌跡提示等推理結果,再輸出動作 token。這套設計帶來兩個可分別驗證的收益:▪長程任務的零樣本分解能力:在 BEHAVIOR-1K 這類需要將自然語言指令拆解成數十個子步驟的家居任務上,單個 G0.5 checkpoint 僅訓練一個 epoch 即超過訓練四個 epoch 的 π0.5 ,也超過由四個 checkpoint 組成的 Challenge 冠軍方案。在預訓練分佈外的家居任務上,模型同樣能零樣本完成子任務分解。▪語言對行為的實時塑造:因為 prompt 直接進入和動作 token 同一條 AR 流,自然語言可以在推理時連續調製動作分佈,無需重新訓練。作為一個代表性的定性示例,在“打開烤麵包機開關”任務上,由於開關行程較長,僅給“打開開關”指令時模型的按壓力度不夠;一旦在指令中追加“push harder”,模型會明顯加大下壓力度並最終觸發開關。G0.5 在 R1 Lite 上零樣本執行“把毛巾放進洗手池”:在同一自迴歸流中,模型先生成思考(子任務、目標物體框),再輸出動作 token,並從每一幀觀測閉環重規劃。3. 時空注意力模塊:為機器人注入上下文感知先驗真實的複雜家居任務不能僅依賴單幀畫面的“本能反應”。當視線被機械臂短暫遮擋,或任務意外失敗時,機器人必須依賴歷史上下文才能維持穩定的空間感知。我們為 G0.5 配備了輕量級時空注意力模塊,融合數秒的歷史視覺信息,使模型在局部視野丟失時依然能穩健執行。實驗表明,得益於預訓練階段習得的感知先驗,G0.5 在 BEHAVIOR-1K 中“移動箱子到儲物間”“裝車”“搬木柴”“整理臥室”等長程任務上穩定優於 π0.5。領跑七大評測場景,全面超越 SOTAG0.5 在 7 個獨立評測場景中全面領先,核心數據如下:真實世界微調評測:在 R1 Pro / R1 Lite 的六個任務-本體設置上,G0.5(深橙)在成功率與過程分上整體大幅領先 π0.5 與 GR00T-N1.7。DROID 零樣本評測:無任何該機器人微調,G0.5 在 10 個桌面操作任務上平均成功率 82.5%,逐任務均優於 π0.5-DROID 與 MolmoAct2-DROID。Pick-and-Place 基準:從零樣本到 50 小時後訓練,G0.5(深色)在“語言跟隨率”與“任務成功率”兩項指標上,各數據規模均優於 π0.5從這些結果中,我們可以看見:▪大規模預訓練使 G0.5 獲得了具身基礎模型的關鍵能力。在此基礎上,僅需輕量後訓練即可在 7個基準上超越 π0.5 並取得了SOTA的效果, 驗證了該預訓練範式的有效性。▪零樣本開箱即用:DROID(Franka)和 PP Bench(R1 Lite)兩項零樣本泛化實驗表明,G0.5 的預訓練智能可以直接遷移到任何同型號機器人平臺和一個全新的環境。▪單模型泛化與性能優勢:在 BEHAVIOR-1K 挑戰賽的 50 個長程移動操作家居任務評測中,僅憑單一模型權重,G0.5 只需後訓練1個 epoch(0.29)便顯著超越了多模型集成的冠軍方案與 π0.5,並在4個 epoch 下進一步提升至 0.31,展現出更高的性能上限,超過半數任務表現更優。▪預訓練表徵克服長程任務瓶頸:這直接驗證了基於結構化動作空間與視覺記憶的預訓練先驗,才是模型跨越長程移動操作鴻溝、實現高效泛化的核心所在。結語:從執行動作,到理解世界G0.5是星海圖具身基礎模型的重要升級:▪不再把 VLM 當編碼器,而是讓它重新成為行動者;▪不再割裂推理與動作,而是讓模型邊思考邊行動;▪不再只執行預設程序,而是讓模型聽得懂“怎麼做”、記得住“發生了什麼”。我們相信,通用具身智能需要一條可擴展的模型和數據路徑。接下來,我們將在更多機器人數據、更復雜的環境、更長的任務時序中繼續推進。後續模型開源後,G0.5 也將支持在多種本體上的“開箱即用”部署,助力開發者開展落地實踐。技術報告已完整公開:https://opengalaxea.github.io/G05/https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf

Related

相關文章

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

8 分鐘前

AI越強,越要“殺死”過去的自己

這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前
MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

9 小時前

Transformer之父離開谷歌,奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前

Dario訪談首曝:Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前

用結構替代數據,因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前