自變量發佈跨模態具身動作分詞器 X-Tokenizer，多模態對齊能力提升 13.5%，長程任務性能提升 8.25%

2026年7月2日 10:32

重點摘要

自變量機器人發佈跨模態具身動作分詞器 X-Tokenizer，將 VLA 中的動作離散化從單一的“壓縮-重建”問題，重新定義為“多模態推理與動作之間的語義接口學習”問題。動作分詞器決定了拆分出的動作 Token 是否具有語義，是否能加速預訓練模型的收斂，從而最終影響了 VLA 模型輸出連續動作的性能。這是自變量機器人的最新發現。

站內 AI 整理稿

這篇消息由雷峰網提供，主題聚焦於「自變量發佈跨模態具身動作分詞器 X-Tokenizer，多模態對齊能力提升 13.5%，長程任務性能提升 8.25%」。根據目前可取得的來源內容，重點可先整理為：自變量機器人發佈跨模態具身動作分詞器 X-Tokenizer，將 VLA 中的動作離散化從單一的“壓縮-重建”問題，重新定義為“多模態推理與動作之間的語義接口學習”問題。動作分詞器決定了拆分出的動作 Token 是否具有語義，是否能加速預訓練模型的收斂，從而最終影響了 VLA 模型輸出連續動作的性能。這是自變量機器人的最新發現。

本站本次修復採取保守處理：凡是曾混入模型思考過程、輸出指令、安全分類或英文前綴的整理稿，不再沿用該次 AI 生成正文，以免把推測或內部工作語句誤當成新聞內容。

因此，本文只保留來源已呈現的核心主題與可合理確認的脈絡，不額外加入未出現在原文中的具體數字、引述、公司關係或技術結論。若來源本身資訊有限，整理稿也會明確維持保守，不把標題擴寫成未經證實的敘事。

從 AI 產業觀察角度來看，這類消息仍可作為後續追蹤節點。讀者可以留意原始來源是否補充更完整的背景、官方公告、技術細節、測試條件、產品時程或市場反應。

後續若取得更完整且可驗證的原文內容，系統會重新依據來源正文整理重點、背景脈絡、可能影響與讀者可關注的後續方向。需要完整細節時，建議同時查看原始來源。

原始來源：雷峰網 ↗

查看原始來源

雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

一張中文測評圖把Claude Sonnet 5送上風口浪尖。作者丨高允毅編輯丨馬曉寧 Claude Sonnet 5才發佈了一天，網上已經吵翻天——幾乎全是差評。Anthropic把它定位為“迄今最具 Agent 能力的 Sonnet”，甚至直接說它在大量智能體任務上已經接近旗艦 Opus 4.8，價格只有Opus 的四折。聽起來，這就是來給開發者送溫暖的：更強的Agent、更便宜的API、更長的上下文、更穩的安全對齊。但劇情沒有按官方劇本走。發佈不到 24 小時，一張來自 GitHub 的跑分截圖開始在中文技術圈瘋傳。這個項目叫LLM Benchmark Dashboard，是個人私有題庫，主要在邏輯、數學、編程、人類直覺等高難度硬核推理問題上，測模型在深度思考、長思維鏈（Reasoning）模式下的表現。在這場考核中，被寄予厚望的 Sonnet 5 不僅沒能碾壓全場，反而暴露出一個致命弱點：極度拉胯的性價比。經過仔細對比，我們可以看到三個關鍵事實：第一，極限分數上 Sonnet 5 丟掉了絕對統治力。在這套硬核邏輯題裡，MiniMax-M3 跑出了 61.95 的高分拔得頭籌，而 Qwen3.7-Plus 也在極限分上與 Sonnet 5 死死打平。這意味著國產推理大模型在純邏輯的較量上，已經有能力和硅谷頂流平起平坐。第二，測試成本完全不在一個量級。這是對比中最刺眼的地方。Sonnet 5 跑完同一套測試花了 71.96 元，而 Qwen 只要 11.71 元，MiniMax 只要 11.64 元。Sonnet 5 的賬單是國產模型的 6 倍還多。如果真按這個比例大規模調用，企業的商業落地成本根本難以承受。第三，耗時最短，但在這裡可能並不是好事。 Sonnet 5 平均耗時僅 404 秒，遠快於 Qwen 的 1156 秒和 MiniMax 的 887 秒。這

3 小時前閱讀分析

雷峰網生成式AI

全球首份大語言模型安全防範能力測評報告在北京發佈

大語言模型正在成為公眾獲取、理解和使用科技知識的重要工具，但是，它們能辨善惡嗎？能否識別用戶意圖、理解具體語境、控制輸出粒度，並在有用性與安全性之間保持穩定邊界？7月2日於北京舉行的2026全球數字經濟大會雲智算安全論壇上，《全球大語言模型安全防範能力測評報告（2026）》正式發佈，該報告依據一套中國機構自主研發的科學測評方法體系，對全球主要大語言模型進行了一次統一標準的“體檢”，作出了回答。（雷峰網）這份由東壁科技數據有限責任公司（“東壁科技數據”）聯合上海財經大學數字經濟學院共同打造的研究成果，是全球首份大語言模型科技安全專項測評報告，也是首份大語言模型科技向善導向測評報告。報告以313條科技類高風險問題為測試集，覆蓋38個國內外大語言模型，重點考察模型能否在正常的科技學習、科研的防護需求與潛在違法犯罪濫用之間，保持穩定、安全且可解釋的邊界，並同步發佈多維度安全實力排名。測評顯示，多數模型具備基礎拒答能力，但在前綴注入、場景偽裝、情感偽裝，以及偽裝與示例誘導結合的複合攻擊下，部分模型的安全邊界明顯承壓。報告提出，科技安全治理不能僅以“拒答率”衡量，還應同時關注模型的意圖識別能力、信息披露尺度和“可靠且高風險”輸出。圖注：《全球大語言模型安全防範能力測評報告（2026）》正式發佈立足真實風險補齊行業測評短板上海財經大學數字經濟學院院長、報告牽頭編制人趙琳在論壇上對報告進行了解讀。他表示，科技知識在正常場景中可以服務於教學、研究、產業創新和公共安全，但當它被置於特定目的、特定語境和特定對象面前，就可能轉化為現實危害。從前沿模型安全框架看，國際上已經將生物化學、網絡安全、自動化代理等高風險能力納入重點評估範圍。當下，國內外圍繞大模型安全、倫理和風險管理已經形成多層級測評與治理格局，為大模型安全治理提供了重要基礎，但在科技類高風險場景下仍存在三方面缺口——通用內容安全測評較多

3 小時前閱讀分析

雷峰網生成式AI

影智XBOT發佈通用餐飲服務機器人矩陣與“一腦多形”具身智能體系

雷峰網獲悉，6月30日，影智XBOT“2026 XBOT通用餐飲具身機器人發佈會”在北京舉行，以產品、平臺、商業閉環、生態開放為關鍵節點，正式發佈自研具身操作系統XOS 3.0、AI Agent產品“愛寶店長”，以及三款覆蓋咖啡、冰淇淋、全場景服務的通用餐飲具身機器人新品。三者共同構成“一腦多形”的完整智能體系。XOS 3.

4 小時前閱讀分析

雷峰網生成式AI

Claude 和 Manus 還要人工搭框架？小米直接讓 Agent 自我進化

連 AI 的 “外殼” 都學會自我迭代了作者丨高允毅編輯丨馬曉寧連Harness都能自我迭代了！在AI圈，有一個基本共識，即Agent = Model + Harness。決定智能體表現的，從來不只是底層模型這顆 “腦子”，還有包裹在外的整套 “外殼”——Harness，它包含提示詞模板、工具調用規則、記憶管理、控制流、安全護欄等。

7 小時前閱讀分析

雷峰網生成式AI

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

作者｜吳思夢編輯｜岑峰引言： 2016年6月，紐約。David Silver站到了ICML的講臺上，用66頁幻燈片，從Q-Learning一路推到AlphaGo。他傳遞出一種信念：把深度網絡嫁接到強化學習上，通用智能的湧現就只是算力和工程問題。彼時距AlphaGo在首爾4∶1擊敗李世石僅三個月。十年後的2025年7月，溫哥華。

9 小時前閱讀分析

AIBase生成式AI

歷時18個月研發，葡萄牙國家級大模型“阿馬利婭”正式亮相

7月1日，葡萄牙發佈國家AI大語言模型“阿馬利婭”，以葡語為核心構建本土底座，驅動公共服務數字化，強化本國及歐洲技術主權。歷時18個月，將全面賦能教育、國防、文醫政等，確保迭代與自主AI基建。

11 小時前6400閱讀分析

相關文章

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

全球首份大語言模型安全防範能力測評報告在北京發佈

影智XBOT發佈通用餐飲服務機器人矩陣與“一腦多形”具身智能體系

Claude 和 Manus 還要人工搭框架？小米直接讓 Agent 自我進化

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

歷時18個月研發，葡萄牙國家級大模型“阿馬利婭”正式亮相