刷新權威榜單SOTA！ACE-Ego 解鎖“以人為中心”的規模化具身模型訓練新範式

2026年6月17日 06:30

重點摘要

站內 AI 整理稿

近日，大曉機器人聯合香港中文大學多媒體實驗室（CUHK MMLab）正式發佈全新“一腦多型”具身操作VLA模型 ACE-Ego，並向行業開源。作為“以人為中心”ACE 研發範式在具身模型預訓練的核心落地成果，ACE-Ego提出大規模第一視角人類視頻與多型機器人數據高效聯合預訓練的新範式，在兩大國際權威具身智能基準上雙雙領先，並在複雜零售場景中展現出強泛化落地能力，為具身操作模型的規模化演進開闢了全新路徑。在國際公認的人形機器人操作基準 RoboCasa GR1 TableTop 上，ACE-Ego 以72.8%的平均成功率刷新當前最高紀錄，奪得榜首，大幅超越英偉達 GR00T、PI π₀.₅、京東JoyAI-RA 等主流模型；在高難度雙臂操作基準 RoboTwin 2.0 的強域隨機化測試中，ACE-Ego 以90.62%的成功率展現出遠超行業平均水平的環境魯棒性。2025年12月，大曉機器人提出“以人為中心（Human-centric）” 的ACE具身研發範式，將人類與物理世界的互動規律作為核心研究起點，構建了一套從“環境式數據採集—開悟世界模型3.0—具身交互”的全鏈路技術體系。源於對 “以人為中心” ACE 範式的深度踐行，不同於行業傳統 “以機器為中心”、依賴大批量高成本真機遙操作數據的路線，ACE-Ego 將海量低成本的第一視角人類視頻轉化為可用於模型訓練的有效監督信號。通過統一相機空間動作表示、統一本體形態編碼、時間對齊動態分塊、可靠性自適應目標函數四大核心機制，它系統性破解了人與不同型號機器人數據在空間座標系、本體結構、時序頻率、標籤質量上的四重異構難題，實現使用大規模高質量人類第一視角視頻與數千小時多機型機器人數據的協同訓練。實驗結果證實了大規模第一視角人類視頻能夠有效提升VLA模型預訓練和下游適配能力：在 RoboCasa 基準上，引入第一視角人類視頻進行聯合預訓練，相比於僅使用機器人數據進行預訓練，模型成功率從 68.3% 提升至 72.8%，實現了4.5%的顯著性能跨越。充分證明了“以人為中心”的大規模數據預訓練對提升具身模型泛化能力的巨大價值。目前，ACE-Ego 已能穩定完成塑料袋打包、鞋子裝入鞋盒等長週期、強接觸的複雜零售操作，覆蓋商品整理、打包履約等典型線下零售環節，突破了此前模型僅能完成簡單桌面抓取的能力邊界，為具身智能走向產業規模化落地提供了高性價比的技術方案。刷新兩大國際具身智能基準，全面領跑通用操作模型ACE-Ego 在RoboCasa GR1 TableTop 與 RoboTwin 2.0 兩大國際權威具身智能基準上取得SOTA成績，顯著超越英偉達 GR00T、PI π₀.₅、京東JoyAI-RA、螞蟻靈波LingBot-VLA、高德ABot-M0、小鵬DIAL等多款主流通用機器人模型。在 RoboCasa GR1 TableTop 人形桌面操作基準上，ACE-Ego 實現72.8%的平均成功率，大幅刷新榜單紀錄。該基準基於 GR1 人形機器人平臺設置 24 項典型家庭任務，涵蓋18項抓取放置重排與6項鉸接物體交互，是衡量人形機器人通用操作能力的核心標尺。測試結果顯示，ACE-Ego 較第二名小鵬DIAL模型（70.2%）任務成功率提升 2.6%，較英偉達 GR00T-N1.6（47.6%）提升達25.2%，同時全面領先京東JoyAI-RA（63.2%）、高德ABot-M0（58.3%）、FLARE（55.0%）等主流模型。性能增益覆蓋抓取放置、鉸接操作全品類任務，其中盤子疊放、托盤移鍋等任務成功率突破98%，證明其能力提升來自框架底層優化，而非特定任務過擬合。在 RoboTwin 2.0 雙臂操作基準中，ACE-Ego 同樣穩居VLA類模型榜首，展現出極強的環境魯棒性。該基準包含50項覆蓋抓取、放置、工具使用、雙臂協同的複雜任務，設置乾淨場景（Easy）與強域隨機化場景（Hard）兩種模式，其中 Hard 模式隨機改變光照、紋理、物體位置等條件，高度模擬真實世界不確定性。ACE-Ego 在 Easy 模式下成功率達 91.12%，Hard 模式達 90.62%，超越騰訊混元Hy-VLA（90.9%/90.1%）、京東JoyAI-RA（90.48%/89.28%）、螞蟻靈波LingBot-VLA（88.56%/86.68%）、PI π₀.₅（82.74%/76.76%）、生數Motus（88.66%/87.02%）、高德ABot-M0 （86.06%/85.08%）等對比模型。從乾淨場景到強隨機化場景，ACE-Ego 性能僅衰減0.5個百分點，遠低於行業平均水平，意味著其習得技能具備極強的環境適應性，更貼近真實商業部署要求。零售場景全鏈路落地驗證，實操能力解鎖商業價值從鞋盒規整入盒、咖啡定量分裝，再到柔性塑料袋打包，ACE-Ego 在典型零售場景中展現出全棧式真實操作能力，覆蓋商品陳列、履約打包、貨品分揀等線下零售核心作業環節。機械臂精準識別鞋盒與雙鞋的空間位置，按照零售場景的標準陳列方位將鞋依次平穩放入盒內；隨後精準定位鞋盒翻蓋的鉸鏈轉軸與邊緣，沿自然合蓋軌跡平穩完成翻蓋扣合，全程無碰撞、無擠壓，展現出對鉸接類物體的幾何操作理解與精準空間定位能力。機械臂抓取咖啡勺後，從敞口咖啡罐中平穩舀取定量咖啡豆，抬臂、平移、對準杯口一氣呵成，精準控制傾倒角度與速度將咖啡豆全部注入杯中，全程無撒漏。整套長時序操作連貫流暢，體現模型對長程動作序列的規劃能力與末端執行的精細對準精度。機械臂抓取輕薄購物塑料袋的袋口，順勢撐開袋身形成穩定容納空間，將目標物品平穩放入袋中後收緊袋口完成打包。全程應對塑料袋柔軟易變形、無固定形態的特性，實現了柔性物體的穩定抓取與形態操控。四大核心機制破局異構融合，解鎖人機協同預訓練新範式雙榜登頂與下游任務高效適配的卓越表現，源於 ACE-Ego 依託“以人為中心”的研發範式，對具身智能行業痛點實現的重大技術突破。面對人-機數據在空間、結構、時間、訓練監督信號四個維度嚴重不匹配的行業挑戰，ACE-Ego 創新構建了“大規模人類第一人稱視頻 + 多具身機器人數據”的全鏈路融合方案。通過自研的四大核心機制，ACE-Ego 分別從空間、結構、時間以及訓練監督四個維度統一表示與對齊，徹底破解了人機數據不兼容的難題。這四大機制並行發力，成功支撐了大規模人機異構數據的同框訓練，將具身操作模型推入多源協同預訓練的新階段。機制一：第一視角統一動作空間表達，讓不同人與不同機型的動作 “說同一種語言”。ACE-Ego 以頭部相機座標系為統一基準，將多機型機器人末端執行器軌跡、不同人類視角視頻重建的手部運動全部投影到機器人 “第一視角” 下，讓動作指令與視覺觀測對齊至統一座標系，免去跨平臺複雜座標校準，新本體部署僅需替換一組相機外參。針對人類視頻，團隊搭建多階段處理管線，覆蓋原始篩選、3D 手部重建、參數化映射與多輪質量過濾等數據構建機制，最終輸出與機器人完全同構的動作向量，實現數據格式層面的無縫兼容。機制二：URDF（統一機器人描述格式）本體形態映射，讓模型知曉 “誰在做動作”。不同機器人的關節結構、物理尺寸差異巨大，人體運動模式與機器人更是截然不同。為此，ACE-Ego 創新性地將 URDF（統一機器人描述格式）映射為跨本體的統一中間層編碼。對於機器人，它通過解析 URDF 文件將運動學特徵編碼並輸入動作解碼器；對於人類數據，則通過學習專屬的“代理形態嵌入”來模擬人體結構。這種“形態條件”僅在動作解碼階段注入，不干擾視覺語言主幹網絡，不僅保留了主幹網絡強大的通用視覺理解能力，更帶來了極快的新機適配速度——在面對 ARX 雙臂機器人等全新未知機型時，僅需不到 200 條動作數據，即可在極短時間內完成適配部署。機制三：時間對齊動態分塊，讓不同“手速”數據步調一致。不同機器人平臺控制頻率從10Hz到30Hz不等，固定幀數的動作塊對應物理時長差異顯著，直接混訓會擾亂時序邏輯。ACE-Ego 打破按幀切分的傳統做法，以物理時長為標準劃分動作塊，確保所有數據源預測相同時長的未來動作窗口；搭配分桶採樣策略，按任務類型、時序階段、塊長組合成批，大幅降低填充開銷，穩定梯度更新，讓跨頻率數據的聯合訓練平穩落地。機制四：可靠性自適應目標函數，帶噪聲數據“按需採信”。人類視頻數據中的動作標籤由視覺算法重建獲得，動作標籤帶有一定重建噪聲，若與高精度傳感器數據同權訓練反而會拉低模型精度。ACE-Ego 設計了雙層訓練目標體系：機器人傳感器數據作為“準確”監督信號，全權重錨定核心控制精度；人類採集動作作為重要多樣性補充信號也參與訓練，實行三級加權機制 —— 通道級重點採信高可靠位置信號，數據集級按重建質量設置權重上限，幀級通過運動平滑度動態過濾異常片段。這套 “信息過濾器” 既充分釋放了大規模人類視頻場景的多樣性潛力與行為廣度，又牢牢守住機器人高精度數據的質量底線。四大機制環環相扣，打通了 “人類視頻規模化擴量 + 機器人數據保障精度” 的全新技術路徑，為具身操作模型的規模化訓練打開了成本與規模的雙重增長空間。大曉機器人將繼續深化“以人為中心”的 ACE 研發範式，將這一套高效的人機協同預訓練方法推廣至更廣闊的空間。在模型層面，ACE-Ego模型系列將進一步融合視覺－語言－動作（VLA）模型和具身世界模型（WAM），賦予機器人更強的物理世界想象力與預測能力；在應用層面，該範式也將從當前的複雜零售場景，加速拓展至工業產線、柔性製造等更多高精尖實體產業場景，以高性價比、高泛化性的技術路徑，全面加速具身智能的規模化商業落地。關於大曉機器人（ACE ROBOTICS）——讓機器人擁有聰明的“大腦”和有趣的“靈魂”大曉機器人（ACE ROBOTICS）是加速具身智能智慧躍遷的機器人公司，由商湯科技聯合創始人、執行董事王曉剛出任董事長，世界級AI科學家陶大程院士擔任首席科學家，公司匯聚全球稀缺的青年AI科學家及來自產業界的卓越專家，共同深耕具身智能領域，旨在通過突破性技術創新，對具身智能場景的深刻洞察，推動機器人自主理解和探索物理世界，加速具身智能的商業化場景落地。大曉機器人首創ACE研發範式，構建“環境式數據採集—開悟世界模型3.0—泛化具身模組”的全鏈路技術體系。大曉機器人以全時空多視角環境採集為引擎，國內首個開源且已實現商業應用的“開悟”世界模型3.0（Kairos 3.0）和具身基模型為技術基座，解決具身智能行業目前面臨的數據荒、常識差、泛化難、通用性不足等核心挑戰。大曉機器人同步重磅推出“具身超級大腦模組A1”，加速具身智能在安防、巡檢、服務等多元場景的規模化、商業化落地。大曉機器人不僅是技術的開拓者，更是生態的共建者。大曉機器人通過與頂尖的芯片廠商、硬件廠商、雲服務商及垂直場景夥伴的戰略合作，共同打通“模型—硬件—場景”的產業閉環，提供標準化與定製化結合的解決方案，共同成為具身智能領域極具潛力的中國創新力量。

原始來源：雷峰網 ↗

查看原始來源

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

13 分鐘前閱讀分析

MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

14 小時前閱讀分析

36氪模型更新

智譜新高，MiniMax承壓，“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高，MiniMax承壓，“大模型雙雄”命運殊途」。原始導語提到：大模型在被市場重新定價從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前閱讀分析

IT之家模型更新

華為昇騰 0 Day 支持智譜 GLM-5.2 模型，提供全面推理優化

華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術，顯著提升編程和長程任務的處理效率，現已支持 A3 系列產品部署。#AI 大模型# #國產算力#

23 小時前閱讀分析

AIBase模型更新

企業AI轉型再添利器：青雲科技算力雲接入 MiniMax-M3 模型

企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3，提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長，依託自研架構，助企業便捷部署AI業務。

1 天前7000閱讀分析

AIBase模型更新

阿里開源統一科學大模型 LOGOS，僅用五十六分之一參數超越微軟

阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式，在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數，即展現出極高效率，性能超越參數量達 8×7B 的微軟模型。

1 天前9300閱讀分析

相關文章