自變量發佈跨模態具身動作分詞器 X-Tokenizer,多模態對齊能力提升 13.5%,長程任務性能提升 8.25%
重點摘要
自變量機器人發佈跨模態具身動作分詞器 X-Tokenizer,將 VLA 中的動作離散化從單一的“壓縮-重建”問題,重新定義為“多模態推理與動作之間的語義接口學習”問題。動作分詞器決定了拆分出的動作 Token 是否具有語義,是否能加速預訓練模型的收斂,從而最終影響了 VLA 模型輸出連續動作的性能。這是自變量機器人的最新發現。
自變量機器人發佈跨模態具身動作分詞器 X-Tokenizer,將 VLA 中的動作離散化從單一的“壓縮-重建”問題,重新定義為“多模態推理與動作之間的語義接口學習”問題。動作分詞器決定了拆分出的動作 Token 是否具有語義,是否能加速預訓練模型的收斂,從而最終影響了 VLA 模型輸出連續動作的性能。這是自變量機器人的最新發現。具身智能的 VLA 模型(視覺-語言-動作模型)是將預訓練的 VLM 模型(視覺語言模型)與動作專家(Action Expert)連接起來,前者接收圖像和語言指令,輸出隱藏狀態;後者則將隱藏狀態轉化為機器人可以執行的連續動作指令。但兩者的表示方法存在不匹配:VLM 模型輸出離散表示,而機器人需要接收連續指令。在預訓練時,需要利用動作分詞器(Action Tokenizer)來將連續動作拆分壓縮為離散表示。對此,自變量機器人提出一種新的輕量級、跨模態具身動作分詞器 X-Tokenizer。它採用“編碼器-語義殘差量化(SRQ)-解碼器”架構,用 SRQ 替換了傳統的標準殘差向量量化(RVQ),在這一層分離出動作意圖,並在涵蓋 17 個機械臂系列的 240 萬條軌跡(包含 20 億動作幀)上進行了預訓練。不同於 FAST、VQ-BeT 等以最小化重建誤差為唯一目標的傳統分詞器,X-Tokenizer 在“編碼器-語義殘差量化(SRQ)-解碼器”輕量架構之上,對殘差量化施加監督:第一層通過掩碼動作建模(MAM)學習粗粒度動作意圖,形成離散動作語言;更深層級則保留細粒度幾何殘差。在此基礎上,進一步引入與預訓練 VLM 表徵空間的對比對齊、以及未來幀視覺-語言特徵預測兩類跨模態監督信號,使動作 Token 在預訓練階段即與視覺、語言語義共享同一表示空間。X-Tokenizer 在涵蓋 17 個機械臂系列、240 萬條軌跡上預訓練後凍結,作為一個可複用的表示模塊插入VLA 主幹。實驗顯示,相比 FAST,多模態對齊能力提升 13.5%,長程任務性能提升 8.25%,RoboTwin 2.0 得分達到 82.8。這一結果表明了我們的核心觀點,在 VLA 預訓練中,動作分詞器不應僅基於動作本身做壓縮,而應基於其所處的多模態上下文進行設計——它的真正角色,是動作模態與視覺-語言模態之間的語義橋樑。SRQ 捕獲動作意圖對齊語義,抗噪聲能力大幅提升X-Tokenizer 採用 Encoder → SRQ → Decoder 的輕量級架構。其創新性的核心方法在於語義殘差量化(SRQ),即在標準殘差向量量化(RVQ)上施加非對稱監督,讓第一層能捕獲到更多動作語義。具體來說,傳統的 RVQ 在重建動作時,所有層級看到相同的重建損失、趨向於均勻分配,拆分出的 Token 是純幾何的,沒有特定動作語義。SRQ 則將粗粒度的動作意圖和細粒度幾何修正拆分,將它們分配到不同的 RVQ 層級,讓第 1 層捕捉到更多動作語義,第 2-4 層保留更多重建細節。通過引入掩碼動作建模 (MAM)、Vision-Language Feature 對比對齊、下一幀Vision-Language Feature 預測三大語義監督信號,SRQ 網絡實現了出色的效果:當給動作注入噪聲時,通過 SRQ 拆分的動作 ID 幾乎保持不變,抗動作噪聲魯棒性(WER,越低越好)在 σ = 0.008 的噪聲下為 0.526,說明噪聲被第 2-4 層吸收,識別出的動作意圖保持不變;而 FAST 的動作 ID 序列長度發生改變,WER 高達 1.445,說明無法區分主要動作與噪聲,發生了語義反轉。簡單來說,X-Tokenizer 通過語義殘差量化(SRQ)實現了實現語義-幾何的分離,不僅使拆分出的動作 Token 具有明確的語義,並且能夠抗動作噪聲干擾。這些監督頭僅在預訓練時使用,在推理時移除,不會帶來額外性能開銷,而是將動作知識沉澱在 SRQ 網絡結構中。真機測試優於主流動作分詞器,長程任務成績提升8.25%自變量對使用 X-Tokenizer 動作分詞器的效果進行了實驗。其將一段 64 幀的動作塊壓縮成 16 個 slot,每個對應一小段動作序列。此外,VLM 特徵也被壓縮到 16 個時間步。然後計算出兩者的餘弦相似度矩陣:呈現在對角線上的餘弦相似度越高,說明同一個時間上,模型“看到”的視覺與“做出”的動作越匹配,動作模態與視覺模態越對齊。可以看到,Slot 熱力圖中段餘弦值峰值約為0.6,呈現出較高的相關性。此外多種機械臂的實驗中,對角線均為正值,並且形態相似的機械臂之間有很強的相關性。這說明 VLM 模型確實學到了動作與視覺的語義對應關係,並且對於形態相似的機械臂能夠共享知識。在 RoboTwin 2.0 基準評測上,使用WALL-OSS + X-Tokenizer ,測試成績超過在簡單和困難任務均超過業界主流模型 Pi 0、Pi 0.5 和 X-VLA。在困難任務中,WALL-OSS + X-Tokenizer 的分數更為領先,表明在視覺條件變化時,對齊動作與其他模態對完成任務更有用。在真機測試任務裡,X-Tokenizer 測試了7個桌面任務(5 個短期操作 + 2 個長程推理),並比較了四種動作分詞方法:原始的 WALL-OSS 模型(未加動作分詞器)
Related
相關文章

Claude Fable 5,名存實亡
assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。
對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕
月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。
算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?
告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。
獨家:阿里全面禁用Claude
智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。
超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了
快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。
RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道
本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道,支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF,並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料,並透過多模態嵌入與視覺功能進行靈活檢索。