三連發！阿里發佈首個具身大模型Qwen-Robot系列

2026年6月16日 12:42

重點摘要

這篇消息聚焦「三連發！阿里發佈首個具身大模型Qwen-Robot系列」。原始導語提到：邊走、邊看、邊思考從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

**阿里巴巴發表Qwen-Robot系列，千問家族正式進軍具身智能**

2026年6月16日，阿里巴巴正式發表千問（Qwen）具身智能大模型Qwen-Robot系列，這是千問大模型家族首個完整的具身智能模型系列。該系列一次推出三款模型，分別為VLA操作模型Qwen-RobotManip、VLN移動模型Qwen-RobotNav，以及世界模型Qwen-RobotWorld。三個模型各自對應機器人的操作能力、導航移動能力與場景理解能力，既可獨立部署，也能協同運轉，為不同型態的機器人提供了一套可靈活組合的「通用底座」。

**從語言模型到物理世界：具身智能的關鍵跨越**

大語言模型擅長在數位世界中對話與生成內容，而具身智能則是將這套能力進一步延伸到真實的物理世界。當前全球具身智能產業正處於從「實驗室研發」邁向「真實場景商業化」的關鍵轉折點。機器人能否在陌生環境中聽懂人類自然語言指令、穩定執行任務，是跨越這道門檻的核心考驗。Qwen-Robot系列正是瞄準這個痛點，透過三類關鍵模型的設計與訓練，讓機器人能夠感知三維環境、理解物理規律，並在真實世界中自主完成複雜操作與精準移動。

**靈巧的手：Qwen-RobotManip突破VLA模型跨平台痛點**

VLA（Vision-Language-Action，視覺-語言-動作）模型是當前具身智能最核心的基礎模型之一，它將視覺感知、語言理解和動作決策融合在一起。然而傳統VLA模型的最大痛點在於遷移能力不足——換了機器人或換了場景，性能就會明顯下滑。Qwen-RobotManip從兩個核心問題切入：首先，它用一套80維的統一動作表徵，為不同硬體定義了一套通用的「肢體語言」，讓機器人學習基礎物理規律與動作邏輯，動作不再只是生硬的模仿。其次，它不再依賴繁瑣的絕對座標計算，而是直接基於攝影機畫面中的相對位置進行操作，面對環境變化時反應更快更準。搭載在不同硬體上時，Qwen-RobotManip只需少數幾步反饋就能自動適應。

在驗證成效方面，Qwen-RobotManip在超過38,000小時的語料上完成了預訓練。值得注意的是，不同於業界高度依賴私有自採數據的常規路徑，該模型全程僅基於開源數據訓練，便取得了優異成效。在橫跨30項真實世界任務、4個機器人平台的第三方真機評測RoboChallenge Table30 v1中，代號「Lira」和「Atlas」的兩個Qwen-RobotManip版本分別拿下前兩名，任務內容包括轉水龍頭、插網路線、雙臂倒薯條等多元操作。

**認路的腳與思考的大腦：Qwen-RobotNav與Qwen-RobotWorld**

如果說VLA模型讓機器人能動手，那麼VLN（Vision-Language Navigation，視覺語言導航）模型就是讓機器人能認路、會跑腿。Qwen-RobotNav基於Qwen-VL建構，將語言指令導航、目標搜索、自動駕駛等五大任務族整合到同一個框架中，遇到複雜任務時無需人工切換模型。傳統VLN模型常因記憶策略僵化而陷入「記太少會迷路、記太多會混亂」的困境，Qwen-RobotNav則創新推出任務自適應觀察機制，能根據任務靈活調整記憶策略。該模型同時被設計為通用接口，可被上層模型調用，是業界少數原生支援多種智慧體框架的VLN模型。例如，搭載該系統的宇樹Go2四足機器人，在收到「幫我找找不記得放在哪的行李箱」這類指令時，可以自主巡邏並同步進行視覺推理，最終順利完成尋物導航。

至於Qwen-RobotWorld世界模型，則基於對物理規律的理解，能夠推理並模擬出下一個時間點機器人的合理動作與狀態，讓機器人在現實世界中能夠按圖索驥般地行動。三個模型各司其職、相輔相成，共同建構出一套從感知、決策到執行的完整能力框架。

**戰略意涵與產業影響**

此次Qwen-Robot系列的發表，標誌著阿里巴巴的AI布局從文字、圖像與多模態能力，進一步延伸至機器人操作、移動與環境理解。回顧2025年10月，阿里巴巴已在通義千問團隊內成立「機器人與具身AI小組」，並陸續投資了宇樹科技、逐際動力、自變量機器人等多家機器人新創公司。從「廣撒網」式的生態投資轉向「深扎根」式的核心自研，阿里在具身智能賽道上的戰略意圖愈來愈清晰。

市場人士指出，具身智能被視為大模型落地實體世界的重要方向，阿里的布局有助於強化其在AI應用層與機器人產業鏈的戰略位置。Qwen-Robot系列有望支援工業機械臂、倉儲物流機器人、服務型機器人乃至未來人形機器人等多元應用場景，降低不同硬體平台導入具身智能模型的門檻。值得注意的是，就在一個月前的5月20日，阿里才剛發表千問旗艦模型Qwen3.7-Max，在Arena全球大模型盲測總榜中位列國產模型第一。從語言模型到具身模型的接連出擊，顯示阿里在AI領域的研發節奏正在加速。

**後續觀察重點**

Qwen-Robot系列目前已在企業客戶中展開測試。接下來值得關注的面向包括：第一，該系列模型是否會延續千問家族過往的開源策略——今年2月阿里達摩院才剛開源了具身智能大腦基礎模型RynnBrain全系列7個模型——若Qwen-Robot也跟進開源，將大幅降低整個產業的研發門檻；第二，三款模型在工業與服務場景中的實際落地案例與成效；第三，全球科技大廠在具身智能領域的競爭態勢將如何演變。對於關注AI與機器人產業的讀者而言，Qwen-Robot系列無疑是接下來值得持續追蹤的重要動向。

原始來源：量子位 ↗

查看原始來源