LeCun 10億押注的方向,全球領先視覺大模型團隊早已佈局

重點摘要
LeCun投入10億美元押注的隱空間世界模型領域,雖然技術難度極高,但全球領先的視覺大模型團隊早已展開相關佈局。這項技術被視為未來AI發展的關鍵方向,團隊決心克服挑戰持續推進。
## 從語言到物理世界:LeCun十億美元押注世界模型,深圳視啟未來早已提前卡位
AI教父、圖靈獎得主Yann LeCun,正在打一場跟整個矽谷唱反調的仗。2026年3月,他創辦的AMI Labs完成10.3億美元種子輪融資,創下歐洲史上最大種子輪紀錄。但這一次,他不做聊天機器人,不做文字生成,而是押注一條多數人還很陌生的技術路線——**世界模型**(World Models)。
LeCun認為,以大語言模型為核心的當前AI路線是一條「死胡同」。他多次公開直言,僅靠預測下一個詞、在像素層面生成畫面,無法讓AI真正理解物理世界的因果規律。在他看來,真正的智能必須能夠預測行動的後果、在抽象的表徵空間中學習世界的穩定結構,而這正是世界模型與聯合嵌入預測架構(JEPA)的核心價值。這套路線從2018年世界模型在學術界形成明確概念開始,經過V-JEPA、V-JEPA 2、LeWorldModel等一系列迭代,LeCun最近更發表論文從數學上證明世界模型可以在表示空間中學到真實世界的物理結構,為他多年來的主張補上關鍵的理論支撐。
### 隱空間世界模型:為什麼更難、卻非走不可?
就在LeCun從Meta出走、全力投入世界模型之際,來自深圳的團隊「視啟未來」早已提前落子。這支打造出全球第一視覺大模型Grounding DINO與DINO-X的團隊,在2026年5月的公開論壇上宣示:**「隱空間世界模型很難,但我們一定要做。」**
為什麼隱空間世界模型是一條更難的路?視啟未來創始人張磊點出了關鍵差別:主流世界模型大多預測「下一幀畫面長什麼樣」,但模型在像素層面學習,很容易被紋理、光照、背景等細節干擾,學到的往往是像素層級相關性,而不是真正的物理規律與因果關係。LeCun也曾直言「在輸入空間做預測是糟糕的」,而隱空間世界模型的出發點,正是要把高維、冗餘的視覺輸入壓縮成更抽象的狀態表徵,濾除與決策無關的像素細節,把學習重點放在世界狀態如何演化的本質規律上。
然而視啟未來也發現,現有隱空間方案還差了關鍵一步:大多數latent表徵雖然脫離了像素,卻不真正「理解物體」。如果模型不知道場景裡哪些是獨立物體、物體之間是什麼關係、哪些變化來自視角、哪些來自交互,要直接在隱空間中學習物理規律難度仍然非常高。張磊認為,**物理規律本質上作用在物體、結構和關係上**,因此他們的解法是把物體理解能力引入latent表徵學習——透過2D感知、3D表徵、分割和語義理解,讓latent表徵具備場景中物體構成、空間位置與語義屬性的基礎認知,再進一步學習動作驅動下的狀態轉移與物理演化。
除了視啟未來,2026年上半年的世界模型賽道呈現百花齊放的局面。臥安機器人於5月發布OneModel 1.7,以「隱式通路」直接在潛在空間中串聯世界模型與動作執行模組,在具身智能評測基準上平均成功率達到99%。同一週,自變量機器人團隊發布全球首個基於「事件級預測」的具身智能世界模型WALL-WM,將預測單位從時間幀切換為語義事件。此外,英偉達也在6月的台北GTC大會上發布Cosmos 3,全球首個完全開源的全模態物理AI世界模型。
### 當世界模型成為下一場AI大戰的決勝點
2026年,AI圈的關注焦點正從「下一個詞」逐漸轉向「下一個世界」。在世界模型這條賽道上,目前已分化出多個流派:以JEPA為核心、強調抽象預測與因果建模的AMI Labs;以空間智能為主軸、專注3D環境生成與重建的World Labs;以生成式視頻為路徑、打造可交互模擬環境的Google DeepMind Genie;以及以物理AI基礎設施為定位、提供完整工具的NVIDIA Cosmos等。
值得注意的是,世界模型不只關乎技術路線之爭,更直接對應巨大的潛在市場。英偉達估算,物理AI對應製造與物流產業的重塑空間約50萬億美元。隨著AI從數位世界加速走向物理世界,無論是機器人、自動駕駛、醫療手術還是工業自動化,智能體都必須具備「先想像再行動」的能力——這正是世界模型所承諾的核心價值。
讀者可持續關注以下幾個重點方向:LeCun的AMI Labs預計在一年內推出首個實際應用,具體場景為何值得留意;視啟未來在隱空間世界模型融合物體感知的探索是否取得突破;李飛飛World Labs與Google DeepMind等不同流派的世界模型在商業化路徑上如何分野;以及英偉達Cosmos聯盟的開源生態將如何降低物理AI的開發門檻。可以預見,世界模型將成為2026年與2027年AI領域最具話題性、也最具實質影響的關鍵賽道之一。
Related
相關文章

GPT發AI原創新成果了
這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI越強,越要“殺死”過去的自己
這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks
In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

Transformer之父離開谷歌,奧特曼等了他十年
這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Dario訪談首曝:Mythos被稱為“超級武器”
這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

用結構替代數據,因果世界模型如何重塑具身智能大腦
這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。