硬氪專訪 | 智源研究院院長王仲遠:VLA不會死,但世界模型是未來

重點摘要
智源研究院院長王仲遠表示,VLA(視覺語言行動模型)不會消失,但世界模型才是未來發展的核心。他將世界模型與具身智能的關係比喻為「大腦」與「身體」,強調前者是驅動智能的關鍵。
### 硬氪專訪整理|王仲遠:VLA 不會死,但世界模型才是未來
在本週的硬氪專訪中,智源研究院院長王仲遠針對當前人工智慧領域兩大熱門技術路線——VLA(視覺-語言-行動模型)與世界模型——發表了看法。他明確指出,儘管近期學界與業界對 VLA 的質疑聲浪升高,但該技術並不會因此而消失;相對地,世界模型才是真正值得長期投入的方向。這番觀點為當前具身智慧(Embodied AI)的發展路徑提供了清晰的比較框架。
王仲遠強調,VLA 模型的核心在於將視覺、語言與行動三者直接對齊,讓機器人能根據文字指令或視覺輸入產生對應的動作。這條路線短期內已在工業場景、服務機器人等領域展現出實用價值,例如簡單的抓取、搬運任務。因此他認為 VLA 不會「死」,反而會持續在特定場景中扮演關鍵角色。不過,他也點出 VLA 的侷限:這類模型缺乏對物理世界因果關係的深層理解,僅能模仿既有的行動模式,無法真正應對未曾見過的複雜情境。
轉向世界模型,王仲遠將其定位為未來智慧系統的「大腦」。他比喻,世界模型與具身智慧的關係,本質上就是「大腦」與「身體」的關係。世界模型並非單純的輸入輸出映射,而是一個能夠在內部模擬物理規則、預測行動後果的動態表徵系統。例如,當機器人面對一個傾斜的桌面,世界模型可以預判物體滾動的路徑,從而規劃出更穩妥的抓取策略。這種因果推理能力,正是 VLA 目前最欠缺的。
從研究背景來看,智源研究院長期投入多模態與通用人工智慧,王仲遠的發言反映了學界對於「從感知到認知」轉型的共識。過去幾年,業界過度追捧端到端學習(如 VLA),卻忽略了學習內容的品質;世界模型則強調先建立對世界的內在理解,再將理解轉化為行動。他認為,唯有當機器人擁有類似人類的常識推理能力,才能真正實現通用具身智慧。
這番觀點可能對 AI 產業鏈產生深遠影響。短期內,開發 VLA 的企業與研究團隊仍需持續優化模型效率,但長期投資方向可能會逐步轉向世界模型的基礎研究,包括物理模擬引擎、因果推論架構等。對於機器人製造商而言,未來勝出的關鍵或許不再只是硬體精度,而是讓機器人「懂得」環境的智慧核心。
讀者可以關注以下幾個後續發展:首先是智源研究院是否會推出具體的世界模型開源專案或基準測試;其次是各家機器人新創公司是否開始將世界模型納入產品路線圖;最後是學術界對於「世界模型需要多大規模的訓練資料」這一爭論的後續討論。王仲遠的專訪為這個領域畫出了一條明確的分界線——VLA 是現在,世界模型才是真正值得期待的明日之星。
Related
相關文章

GPT發AI原創新成果了
這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI越強,越要“殺死”過去的自己
這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks
In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

Transformer之父離開谷歌,奧特曼等了他十年
這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Dario訪談首曝:Mythos被稱為“超級武器”
這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

用結構替代數據,因果世界模型如何重塑具身智能大腦
這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。