三連發!阿里發佈首個具身大模型Qwen-Robot系列

2026年6月16日 12:42
三連發!阿里發佈首個具身大模型Qwen-Robot系列

重點摘要

這篇消息聚焦「三連發!阿里發佈首個具身大模型Qwen-Robot系列」。原始導語提到:邊走、邊看、邊思考 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

**阿里巴巴發表Qwen-Robot系列,千問家族正式進軍具身智能**

2026年6月16日,阿里巴巴正式發表千問(Qwen)具身智能大模型Qwen-Robot系列,這是千問大模型家族首個完整的具身智能模型系列。該系列一次推出三款模型,分別為VLA操作模型Qwen-RobotManip、VLN移動模型Qwen-RobotNav,以及世界模型Qwen-RobotWorld。三個模型各自對應機器人的操作能力、導航移動能力與場景理解能力,既可獨立部署,也能協同運轉,為不同型態的機器人提供了一套可靈活組合的「通用底座」。

**從語言模型到物理世界:具身智能的關鍵跨越**

大語言模型擅長在數位世界中對話與生成內容,而具身智能則是將這套能力進一步延伸到真實的物理世界。當前全球具身智能產業正處於從「實驗室研發」邁向「真實場景商業化」的關鍵轉折點。機器人能否在陌生環境中聽懂人類自然語言指令、穩定執行任務,是跨越這道門檻的核心考驗。Qwen-Robot系列正是瞄準這個痛點,透過三類關鍵模型的設計與訓練,讓機器人能夠感知三維環境、理解物理規律,並在真實世界中自主完成複雜操作與精準移動。

**靈巧的手:Qwen-RobotManip突破VLA模型跨平台痛點**

VLA(Vision-Language-Action,視覺-語言-動作)模型是當前具身智能最核心的基礎模型之一,它將視覺感知、語言理解和動作決策融合在一起。然而傳統VLA模型的最大痛點在於遷移能力不足——換了機器人或換了場景,性能就會明顯下滑。Qwen-RobotManip從兩個核心問題切入:首先,它用一套80維的統一動作表徵,為不同硬體定義了一套通用的「肢體語言」,讓機器人學習基礎物理規律與動作邏輯,動作不再只是生硬的模仿。其次,它不再依賴繁瑣的絕對座標計算,而是直接基於攝影機畫面中的相對位置進行操作,面對環境變化時反應更快更準。搭載在不同硬體上時,Qwen-RobotManip只需少數幾步反饋就能自動適應。

在驗證成效方面,Qwen-RobotManip在超過38,000小時的語料上完成了預訓練。值得注意的是,不同於業界高度依賴私有自採數據的常規路徑,該模型全程僅基於開源數據訓練,便取得了優異成效。在橫跨30項真實世界任務、4個機器人平台的第三方真機評測RoboChallenge Table30 v1中,代號「Lira」和「Atlas」的兩個Qwen-RobotManip版本分別拿下前兩名,任務內容包括轉水龍頭、插網路線、雙臂倒薯條等多元操作。

**認路的腳與思考的大腦:Qwen-RobotNav與Qwen-RobotWorld**

如果說VLA模型讓機器人能動手,那麼VLN(Vision-Language Navigation,視覺語言導航)模型就是讓機器人能認路、會跑腿。Qwen-RobotNav基於Qwen-VL建構,將語言指令導航、目標搜索、自動駕駛等五大任務族整合到同一個框架中,遇到複雜任務時無需人工切換模型。傳統VLN模型常因記憶策略僵化而陷入「記太少會迷路、記太多會混亂」的困境,Qwen-RobotNav則創新推出任務自適應觀察機制,能根據任務靈活調整記憶策略。該模型同時被設計為通用接口,可被上層模型調用,是業界少數原生支援多種智慧體框架的VLN模型。例如,搭載該系統的宇樹Go2四足機器人,在收到「幫我找找不記得放在哪的行李箱」這類指令時,可以自主巡邏並同步進行視覺推理,最終順利完成尋物導航。

至於Qwen-RobotWorld世界模型,則基於對物理規律的理解,能夠推理並模擬出下一個時間點機器人的合理動作與狀態,讓機器人在現實世界中能夠按圖索驥般地行動。三個模型各司其職、相輔相成,共同建構出一套從感知、決策到執行的完整能力框架。

**戰略意涵與產業影響**

此次Qwen-Robot系列的發表,標誌著阿里巴巴的AI布局從文字、圖像與多模態能力,進一步延伸至機器人操作、移動與環境理解。回顧2025年10月,阿里巴巴已在通義千問團隊內成立「機器人與具身AI小組」,並陸續投資了宇樹科技、逐際動力、自變量機器人等多家機器人新創公司。從「廣撒網」式的生態投資轉向「深扎根」式的核心自研,阿里在具身智能賽道上的戰略意圖愈來愈清晰。

市場人士指出,具身智能被視為大模型落地實體世界的重要方向,阿里的布局有助於強化其在AI應用層與機器人產業鏈的戰略位置。Qwen-Robot系列有望支援工業機械臂、倉儲物流機器人、服務型機器人乃至未來人形機器人等多元應用場景,降低不同硬體平台導入具身智能模型的門檻。值得注意的是,就在一個月前的5月20日,阿里才剛發表千問旗艦模型Qwen3.7-Max,在Arena全球大模型盲測總榜中位列國產模型第一。從語言模型到具身模型的接連出擊,顯示阿里在AI領域的研發節奏正在加速。

**後續觀察重點**

Qwen-Robot系列目前已在企業客戶中展開測試。接下來值得關注的面向包括:第一,該系列模型是否會延續千問家族過往的開源策略——今年2月阿里達摩院才剛開源了具身智能大腦基礎模型RynnBrain全系列7個模型——若Qwen-Robot也跟進開源,將大幅降低整個產業的研發門檻;第二,三款模型在工業與服務場景中的實際落地案例與成效;第三,全球科技大廠在具身智能領域的競爭態勢將如何演變。對於關注AI與機器人產業的讀者而言,Qwen-Robot系列無疑是接下來值得持續追蹤的重要動向。

Related

相關文章

擎倉機器人30天極速部署歐萊雅產線,輕量化VLA範式突破

擎倉機器人成功部署歐萊雅全球戰略生產基地,不僅證明國產輕量化VLA具身智能產品完全能夠勝任國際高端製造的嚴苛標準,更標誌著中國企業率先實現輕量化VLA技術的規模化商業突破,成為中國具身智能產業從技術研發邁向規模化、全球化商用的重要里程碑。

15 小時前