ICRA 2026 | 首個 36 自由度雙臂靈巧操作 VLA 模型,開源!
重點摘要
原文作者:公眾號“深藍具身智能”原文鏈接:https://mp.weixin.qq.com/s/yGE3tLQywqf4wvsOlj6WxA同時支持雙臂協同、雙靈巧手高自由度精細操作——端到端VLA模型過往主流VLA系統,要麼聚焦雙臂低自由度夾爪控制,要麼專攻單臂高自由度靈巧手操作,始終無法兼顧雙臂協同與精細手指動作的雙重需求。比如活塞插入需雙臂精準配合,擰瓶蓋、精細取物則依賴多指靈活調控,這類任務長期缺乏統一的VLA解決方案。近日,首個原生面向雙臂雙高自由度(36自由度)靈巧操作的開源VLA模型:Dexora,打破此前VLA的形態壁壘,為通用靈巧機器人的落地提供了全新範式。硬件與遙操作:虛實協同的靈巧數據底座高自由度靈巧操作的核心前提,是精準、可規模化的數據採集。Dexora摒棄單一遙操作方案,打造“外骨骼+VR”混合遙操作系統,同時驅動物理機器人與MuJoCo數字孿生,從根源解決數據採集的精度與規模難題。▲Dex 硬件與混合遙操作系統示意圖©【深藍具身智能】編譯硬件層面,Dexora搭載兩臺6自由度AIRBOT機械臂與一對12自由度XHAND靈巧手,單隻手12個關節獨立驅動,拇指與食指支持側擺動作。可實現扭轉、捏取等類人精細操作,整套系統總計36自由度,為複雜雙手協同任務提供硬件基礎。遙操作設計上,採用“大動作+小動作”分離策略:定製外骨骼背包捕捉機械臂整體運動(無漂移、低延遲),Apple Vision Pro實現無標記手指追蹤,兼顧手臂大範圍移動的穩定性與手指精細動作的靈活性。▲仿真 / 真實數據集物體與任務分佈示意圖©【深藍具身智能】編譯更關鍵的是虛實同步設計:遙操作指令同時下發物理機器人與數字孿生,兩者傳感器數據(4路RGB、36自由度關節狀態)20Hz同步記錄。既保障真實場景數據的真實性,又能在仿真中低成本擴展任務場景,形成“真實+仿真”互補的數據集。最終構建
原文作者:公眾號“深藍具身智能”原文鏈接:https://mp.weixin.qq.com/s/yGE3tLQywqf4wvsOlj6WxA同時支持雙臂協同、雙靈巧手高自由度精細操作——端到端VLA模型過往主流VLA系統,要麼聚焦雙臂低自由度夾爪控制,要麼專攻單臂高自由度靈巧手操作,始終無法兼顧雙臂協同與精細手指動作的雙重需求。比如活塞插入需雙臂精準配合,擰瓶蓋、精細取物則依賴多指靈活調控,這類任務長期缺乏統一的VLA解決方案。近日,首個原生面向雙臂雙高自由度(36自由度)靈巧操作的開源VLA模型:Dexora,打破此前VLA的形態壁壘,為通用靈巧機器人的落地提供了全新範式。硬件與遙操作:虛實協同的靈巧數據底座高自由度靈巧操作的核心前提,是精準、可規模化的數據採集。Dexora摒棄單一遙操作方案,打造“外骨骼+VR”混合遙操作系統,同時驅動物理機器人與MuJoCo數字孿生,從根源解決數據採集的精度與規模難題。▲Dex 硬件與混合遙操作系統示意圖©【深藍具身智能】編譯硬件層面,Dexora搭載兩臺6自由度AIRBOT機械臂與一對12自由度XHAND靈巧手,單隻手12個關節獨立驅動,拇指與食指支持側擺動作。可實現扭轉、捏取等類人精細操作,整套系統總計36自由度,為複雜雙手協同任務提供硬件基礎。遙操作設計上,採用“大動作+小動作”分離策略:定製外骨骼背包捕捉機械臂整體運動(無漂移、低延遲),Apple Vision Pro實現無標記手指追蹤,兼顧手臂大範圍移動的穩定性與手指精細動作的靈活性。▲仿真 / 真實數據集物體與任務分佈示意圖©【深藍具身智能】編譯更關鍵的是虛實同步設計:遙操作指令同時下發物理機器人與數字孿生,兩者傳感器數據(4路RGB、36自由度關節狀態)20Hz同步記錄。既保障真實場景數據的真實性,又能在仿真中低成本擴展任務場景,形成“真實+仿真”互補的數據集。最終構建的數據集包含10萬條仿真軌跡(650萬幀)、1萬條真實遙操作軌跡(292萬幀),覆蓋30類仿真物體、17類真實物體,兼顧基礎抓取與精細靈巧任務。模型架構:擴散Transformer+質量判別器雙核心Dexora基於數據質量感知的端到端VLA架構,通過擴散Transformer生成動作,搭配離線質量判別器過濾噪聲數據,解決遙操作數據質量參差不齊、高維動作訓練不穩定的行業痛點。▲Dexora 整體總覽圖(動機 / 數據 / 架構 / 性能 / 泛化)©【深藍具身智能】編譯擴散Transformer策略網絡採用解碼器-only擴散Transformer作為策略核心,輸入多視角RGB圖像、語言指令與當前關節狀態,輸出36自由度連續動作序列。模型採用T5編碼語言指令、SigLip編碼圖像特徵,交替注入Transformer塊,通過去噪預測生成動作,兼顧多模態融合能力與高維動作建模精度。數據質量判別器遙操作數據常因操作誤差、傳感器噪聲存在低質量軌跡,直接訓練會拉低模型性能。Dexora設計離線判別器,通過“運動平滑度+任務成功率”雙重標準篩選數據:預篩選:計算軌跡加速度、抖動值,保留運動平穩的樣本;後驗證:重放軌跡,保留無碰撞、任務成功的樣本。判別器以凍結的預訓練策略為基準,預測軌跡質量得分(0-1),訓練時將得分轉化為權重,高質量軌跡權重高、低質量軌跡權重低,公式簡化為:其中 為質量權重, 為預測噪聲, 為真實噪聲。這種設計讓模型聚焦有效數據,大幅提升高維靈巧動作的訓練穩定性。訓練流程:三階段漸進式優化Dexora採用“仿真預訓練+判別器訓練+真實微調”三階段訓練,平衡基礎能力與靈巧技能,實現從仿真到真實的平滑遷移。▲Dex 數據過濾、判別器訓練、質量感知訓練框架圖©【深藍具身智能】編譯第一階段,10萬仿真軌跡預訓練,讓模型掌握抓取、組裝等基礎操作,形成初始動作生成能力;第二階段,用篩選後的高質量真實數據訓練判別器,使其精準識別軌跡優劣;第三階段,用全部真實數據微調策略,通過質量權重引導,讓模型從基礎能力進階到擰瓶蓋、精細取物等靈巧技能。性能與泛化實驗結果顯示,Dexora在基礎任務、靈巧任務、跨形態泛化三大維度均實現突破,驗證了雙臂雙高自由度設計與質量感知訓練的有效性。▲基礎任務示例圖©【深藍具身智能】編譯▲基礎任務成功率對比表©【深藍具身智能】編譯基礎任務(抓取、組裝、關節操作):平均成功率達89.6%,12項任務中7項成功率超90%,雙臂協同任務(如雙手遞物、嵌套碗分離)優勢顯著,遠超GR00T N1(82.1%)、π0(50.4%)等基線。▲靈巧任務示例圖©【深藍具身智能】編譯▲靈巧任務成功率對比表©【深藍具身智能】編譯靈巧任務(擰瓶蓋、用鋼筆、切韭菜等):平均成功率66.7%,較最優基線GR00T N1(51.7%)提升15個百分點,尤其在擰瓶蓋、精細麵糰操作等需要雙手配合+多指調控的任務中,基線幾乎失效,Dexora仍能穩定完成。▲分佈外泛化性能圖©【深藍具身智能】編譯泛化能力:一是分佈外泛化,在未知背景、光照、物體、遮擋等場景下,成功率僅小幅下降,魯棒性強;二是跨形態遷移,36自由度模型可直接適配單臂夾爪、雙臂夾爪、單臂低自由度手,無需重新訓練,僅需適配動作維度,打破VLA的形態依賴。▲基礎任務成功率對比表©【深藍具身智能】編譯消融實驗證,質量判別器可降低動作抖動,提升任務穩定性,證明“真實數據+質量感知”是靈巧VLA的核心要素。▲質量判別器效果對比軌跡圖©【深藍具身智能】編譯靈巧VLA:價值與侷限並存Dexora是首個原生雙臂雙高自由度VLA,證明高自由度模型可向下兼容低自由度設備,為通用機器人提供“高維訓練、低維部署”新思路。虛實協同採集+質量感知訓練,解決靈巧數據稀缺、噪聲大的難題,為高維VLA數據建設提供參考。▲Dexora 與主流 VLA 的形態覆蓋對比圖©【深藍具身智能】編譯同時,存在的侷限在於:硬件依賴:36自由度系統成本高,難以快速普及,且無觸覺反饋,擰瓶蓋等接觸敏感任務成功率仍低。任務侷限:複雜長時序任務(如多步驟裝配)、動態環境適應能力不足。泛化邊界:跨材質、極端場景的穩定性有待提升。過往VLA要麼“能雙手不精細”,要麼“能精細不雙手”。Dexora首次將兩者統一,用開源模式降低門檻,為服務機器人、工業靈巧操作等場景提供可行方案。未來,若能融合觸覺反饋、強化長時序推理,Dexora有望進一步縮小與人類操作的差距,推動通用靈巧機器人從實驗室走向實際應用。Ref論文標題:Dexora: Open-source VLA for High-DoF Bimanual Dexterity論文作者:Zongzheng Zhang, Jingrui Pang, Zhuo Yang, Kun Li, Minwen Liao, Saining Zhang, Guoxuan Chi, Jinbang Guo, Huan-ang Gao, Modi Shi, Dongyun Ge, Yao Mu, Jiayuan Gu, Rui Chen, Hao Dong, Huazhe Xu, Li Yi, Yixin Zhu, Hang Zhao, Pengwei Wang, Shanghang Zhang, Guocai Yao, Jianyu Chen, Hongyang Li, Hao Zhao論文鏈接:https://arxiv.org/pdf/2605.18722項目鏈接:https://dexoravla.github.io/雷峰網
Related
相關文章

Token成本算盤打響,Seedance開始駛向“五環外”
這篇消息聚焦「Token成本算盤打響,Seedance開始駛向“五環外”」。原始導語提到:視頻AI的決勝場,不在模型本身。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題,Gmail 無法正常回復郵件
科技媒體 Android Authority 昨日(6 月 18 日)發佈博文,報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題,用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤,優先顯示 Help me write 功能。

DeepSeek 識圖模式正式上線 App 和網頁端
DeepSeek 多模態研究員 Xiaokang Chen 今日表示,DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試,目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”,網頁端沒有這項提示。

微信、豆包之後,消息稱阿里將推“千問輸入法”
千問團隊將推出名為“千問輸入法”的獨立 App,與 PC 端的千問語音輸入法有一定區別,AI 功能、鍵盤會更貼合手機端操作,填補千問在移動端 AI 輸入法賽道的空白,產品已開發完成,擇日上線各大應用商店。
Kimi Work 迎重大升級:推出“目標模式”並打通外部應用插件
月之暗面旗下 Kimi 電腦客戶端近日煥新升級,為 Kimi Work(Beta 版)引入兩項重磅新特性:目標模式實現連續自主工作 24 小時,插件中心正式對接多家主流辦公軟件,提升工作流效率。為加速用戶深度體驗,官方同步推出限時優惠,2026 年 6 月全月,使用 Work 模式的會員額度消耗直接打 5 折,帶來實惠。
網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運
網易雲音樂旗下“妙時”(含AI奇遇)AI情感陪伴應用發佈停運公告,將於7月14日0時全面停止服務。客服迴應屬正常業務調整,不影響其他產品。目前已停止新用戶註冊和充值,用戶可在8月14日前申請退還剩餘代幣和會員費,並導出AI戀人聊天記錄。