自變量發佈跨模態具身動作分詞器 X-Tokenizer，多模態對齊能力提升 13.5%，長程任務性能提升 8.25%

2026年7月2日 10:32

重點摘要

站內 AI 整理稿

自變量機器人發佈跨模態具身動作分詞器 X-Tokenizer，將 VLA 中的動作離散化從單一的“壓縮-重建”問題，重新定義為“多模態推理與動作之間的語義接口學習”問題。動作分詞器決定了拆分出的動作 Token 是否具有語義，是否能加速預訓練模型的收斂，從而最終影響了 VLA 模型輸出連續動作的性能。這是自變量機器人的最新發現。具身智能的 VLA 模型（視覺-語言-動作模型）是將預訓練的 VLM 模型（視覺語言模型）與動作專家（Action Expert）連接起來，前者接收圖像和語言指令，輸出隱藏狀態；後者則將隱藏狀態轉化為機器人可以執行的連續動作指令。但兩者的表示方法存在不匹配：VLM 模型輸出離散表示，而機器人需要接收連續指令。在預訓練時，需要利用動作分詞器（Action Tokenizer）來將連續動作拆分壓縮為離散表示。對此，自變量機器人提出一種新的輕量級、跨模態具身動作分詞器 X-Tokenizer。它採用“編碼器-語義殘差量化（SRQ）-解碼器”架構，用 SRQ 替換了傳統的標準殘差向量量化（RVQ），在這一層分離出動作意圖，並在涵蓋 17 個機械臂系列的 240 萬條軌跡（包含 20 億動作幀）上進行了預訓練。不同於 FAST、VQ-BeT 等以最小化重建誤差為唯一目標的傳統分詞器，X-Tokenizer 在“編碼器-語義殘差量化（SRQ）-解碼器”輕量架構之上，對殘差量化施加監督：第一層通過掩碼動作建模（MAM）學習粗粒度動作意圖，形成離散動作語言；更深層級則保留細粒度幾何殘差。在此基礎上，進一步引入與預訓練 VLM 表徵空間的對比對齊、以及未來幀視覺-語言特徵預測兩類跨模態監督信號，使動作 Token 在預訓練階段即與視覺、語言語義共享同一表示空間。X-Tokenizer 在涵蓋 17 個機械臂系列、240 萬條軌跡上預訓練後凍結，作為一個可複用的表示模塊插入VLA 主幹。實驗顯示，相比 FAST，多模態對齊能力提升 13.5%，長程任務性能提升 8.25%，RoboTwin 2.0 得分達到 82.8。這一結果表明了我們的核心觀點，在 VLA 預訓練中，動作分詞器不應僅基於動作本身做壓縮，而應基於其所處的多模態上下文進行設計——它的真正角色，是動作模態與視覺-語言模態之間的語義橋樑。SRQ 捕獲動作意圖對齊語義，抗噪聲能力大幅提升X-Tokenizer 採用 Encoder → SRQ → Decoder 的輕量級架構。其創新性的核心方法在於語義殘差量化（SRQ），即在標準殘差向量量化（RVQ）上施加非對稱監督，讓第一層能捕獲到更多動作語義。具體來說，傳統的 RVQ 在重建動作時，所有層級看到相同的重建損失、趨向於均勻分配，拆分出的 Token 是純幾何的，沒有特定動作語義。SRQ 則將粗粒度的動作意圖和細粒度幾何修正拆分，將它們分配到不同的 RVQ 層級，讓第 1 層捕捉到更多動作語義，第 2-4 層保留更多重建細節。通過引入掩碼動作建模 (MAM）、Vision-Language Feature 對比對齊、下一幀Vision-Language Feature 預測三大語義監督信號，SRQ 網絡實現了出色的效果：當給動作注入噪聲時，通過 SRQ 拆分的動作 ID 幾乎保持不變，抗動作噪聲魯棒性（WER，越低越好）在 σ = 0.008 的噪聲下為 0.526，說明噪聲被第 2-4 層吸收，識別出的動作意圖保持不變；而 FAST 的動作 ID 序列長度發生改變，WER 高達 1.445，說明無法區分主要動作與噪聲，發生了語義反轉。簡單來說，X-Tokenizer 通過語義殘差量化（SRQ）實現了實現語義-幾何的分離，不僅使拆分出的動作 Token 具有明確的語義，並且能夠抗動作噪聲干擾。這些監督頭僅在預訓練時使用，在推理時移除，不會帶來額外性能開銷，而是將動作知識沉澱在 SRQ 網絡結構中。真機測試優於主流動作分詞器，長程任務成績提升8.25%自變量對使用 X-Tokenizer 動作分詞器的效果進行了實驗。其將一段 64 幀的動作塊壓縮成 16 個 slot，每個對應一小段動作序列。此外，VLM 特徵也被壓縮到 16 個時間步。然後計算出兩者的餘弦相似度矩陣：呈現在對角線上的餘弦相似度越高，說明同一個時間上，模型“看到”的視覺與“做出”的動作越匹配，動作模態與視覺模態越對齊。可以看到，Slot 熱力圖中段餘弦值峰值約為0.6，呈現出較高的相關性。此外多種機械臂的實驗中，對角線均為正值，並且形態相似的機械臂之間有很強的相關性。這說明 VLM 模型確實學到了動作與視覺的語義對應關係，並且對於形態相似的機械臂能夠共享知識。在 RoboTwin 2.0 基準評測上，使用WALL-OSS + X-Tokenizer ，測試成績超過在簡單和困難任務均超過業界主流模型 Pi 0、Pi 0.5 和 X-VLA。在困難任務中，WALL-OSS + X-Tokenizer 的分數更為領先，表明在視覺條件變化時，對齊動作與其他模態對完成任務更有用。在真機測試任務裡，X-Tokenizer 測試了7個桌面任務（5 個短期操作 + 2 個長程推理），並比較了四種動作分詞方法：原始的 WALL-OSS 模型（未加動作分詞器）

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

Claude Fable 5，名存實亡

assistant: 根據提供的內容，這似乎是一則關於AI模型服務的報導或評論。摘要如下：Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛閱讀分析

智東西生成式AI

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作，涵蓋基礎設施、平台服務、業務合作及垂直行業，藉此拓展全球市場。Kimi B端負責人黃震昕透露，公司提供業界最高人均算力，B端業務快速增長，並在Token效率、長程推理及Agent集群等方面取得技術突破，目標是與海外頂尖模型競爭。他預測，雖然算力成本上漲推升模型價格，但技術優化將持續提升性價比。

5 小時前閱讀分析

雷峰網生成式AI

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

告別盲目刷榜，28頁 PPT 帶你摸透 ICML 新風向。作者丨陳淑瑜編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇，幾近翻倍。然而，最終的接收率卻牢牢釘在 26.56%，與去年幾乎持平。這一數據傳遞出一個明確的信號：並非競爭變得盲目激烈，而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前閱讀分析

智東西生成式AI

獨家：阿里全面禁用Claude

智東西作者 | 李水青編輯 | 雲鵬智東西7月3日獨家獲悉，今日，阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品，包括Sonnet、Opus、Fable等多個系列模型，以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前閱讀分析

智東西生成式AI

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資，阿里、騰訊、百度均參與投資，快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次，2025年營收約11億元，年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵，並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前閱讀分析

MarkTechPost AI生成式AI

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道，支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF，並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料，並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前閱讀分析

相關文章

Claude Fable 5，名存實亡

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

獨家：阿里全面禁用Claude

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道