智東西生成式AI

李飛飛看不下去了!親自下場“闢謠”世界模型

2026年6月4日 08:53

重點摘要

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,今日,斯坦福大學教授、空間智能創業公司World Labs聯合創始人兼CEO李飛飛(Fei-Fei Li)與團隊發佈新文章《世界模型的功能分類》,系統拆解了當下被廣泛使用卻釋義混亂的“世界模型”。 文章指出,計算機視覺、機器人、強化學習和生成式AI各領域的人士都宣稱其在研發世界模型,但各方所指內涵截然不同。李飛飛試圖從強化學習經典的POMDP(部分可觀測馬爾可夫決策過程)框架出發,為這一概念建立清晰的功能分類體系。 李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規劃器(planner)三大功能類別,並重點論證了在三者中受關注度最低的仿真器,恰恰具備最深遠的產業價值與最棘手的技術難題。 她進一步提出,三類模型底層共用同一套世界知識,當前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統世界基礎模型。 ▲李飛飛發佈《世界模型的功能分類》文章推文(圖源:X) 李飛飛在文中提出了以下幾個核心觀點: 1、世界模型已成為AI領域最重要、也最被濫用的術語之一,各領域所指內涵截然不同,亟需精準定義。 2、世界模型的技術定義源自強化學習的POMDP框架,即智能體、動作、環境狀態、觀測信息構成的交互閉環,各類世界模型本質都是這套閉環的不同實現方向。 3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規律的環境狀態、規劃器輸出智能體的動作指令。 4、三類模型底層並不割裂,幾何、物理、動力學這套描述世界運行邏輯的基礎知識是三者共用的底層原理。 5、渲染器商業化最成熟但能力有上限,規劃器前景最受期待但尚處起步階段,仿真器關注度最低卻是銜接二者的橋樑與核心支柱。 6、仿真賽道集中了AI領域的諸多棘手難題,包括三維數據稀缺、仿真與現實的域差、生成式仿真的幾何隱

站內 AI 整理稿

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,今日,斯坦福大學教授、空間智能創業公司World Labs聯合創始人兼CEO李飛飛(Fei-Fei Li)與團隊發佈新文章《世界模型的功能分類》,系統拆解了當下被廣泛使用卻釋義混亂的“世界模型”。 文章指出,計算機視覺、機器人、強化學習和生成式AI各領域的人士都宣稱其在研發世界模型,但各方所指內涵截然不同。李飛飛試圖從強化學習經典的POMDP(部分可觀測馬爾可夫決策過程)框架出發,為這一概念建立清晰的功能分類體系。 李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規劃器(planner)三大功能類別,並重點論證了在三者中受關注度最低的仿真器,恰恰具備最深遠的產業價值與最棘手的技術難題。 她進一步提出,三類模型底層共用同一套世界知識,當前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統世界基礎模型。 ▲李飛飛發佈《世界模型的功能分類》文章推文(圖源:X) 李飛飛在文中提出了以下幾個核心觀點: 1、世界模型已成為AI領域最重要、也最被濫用的術語之一,各領域所指內涵截然不同,亟需精準定義。 2、世界模型的技術定義源自強化學習的POMDP框架,即智能體、動作、環境狀態、觀測信息構成的交互閉環,各類世界模型本質都是這套閉環的不同實現方向。 3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規律的環境狀態、規劃器輸出智能體的動作指令。 4、三類模型底層並不割裂,幾何、物理、動力學這套描述世界運行邏輯的基礎知識是三者共用的底層原理。 5、渲染器商業化最成熟但能力有上限,規劃器前景最受期待但尚處起步階段,仿真器關注度最低卻是銜接二者的橋樑與核心支柱。 6、仿真賽道集中了AI領域的諸多棘手難題,包括三維數據稀缺、仿真與現實的域差、生成式仿真的幾何隱患、多物理場仿真的高算力成本等。 7、當前最關鍵的發展趨勢是三類模型相互融合,技術演進的終極形態是能根據下游需求靈活切換輸出形式的大一統世界基礎模型。 8、在同一套模型架構中平衡各項需求,是當前世界模型領域最核心的攻關課題。 以下是對李飛飛《世界模型的功能分類》的全文編譯: 一、世界並非由文字構築而成 在此前的文章中,我們提出空間智能是AI的下一前沿方向,而世界模型是實現空間智能的必經之路。本篇,我與World Labs團隊將進一步深挖:當下大量被研發、冠以“世界模型”之名的各類產物中,究竟由哪些功能模塊構成了世界模型的核心能力,各個模塊又分別承擔何種作用? 大語言模型讓機器擁有了出眾的概念理解、詞彙運用與邏輯推理能力,但無論是現實物理世界還是虛擬世界,都依託另一套底層規律運行。語言模型學習文本的統計規律,世界模型則學習時空的統計規律:光線如何落在物體表面、不在相機拍攝視角下的花園是什麼模樣、物體受外力後如何運動並遵循物理定律。 這也讓“世界模型”成為當下AI領域最重要、同時最被濫用的術語之一。計算機視覺、機器人、強化學習、生成式AI各領域人士都宣稱在研發世界模型,但各方所指內涵截然不同。能生成絢麗卻違反物理規律的火焰的視頻模型、能即興生成遊戲的語言模型、能精準模擬燃燒過程的物理引擎,如今都被裝進“世界模型”這同一個筐裡。 古希臘學者始終無法統一世界的本源究竟是火、水還是不可分割的原子,根源在於“世界”從來沒有唯一定義,它只是研究者為了推演論證,對其所研究的完整客觀存在的代稱。如今AI領域在亟需精準定義的關鍵階段,承襲了這一難題。 二、分類體系底層的交互閉環 想要釐清概念亂象,可以從一張早於所有相關技術的經典原理圖入手。數十年來,包括Sutton和Barto編寫的經典教材在內的各類強化學習教科書,都在用這套圖示描述智能體與環境的交互邏輯。該框架的標準名稱為部分可觀測馬爾可夫決策過程,即POMDP,而“世界模型”最初的定義便誕生於這套理論體系。 智能體可以是人類、機器人或是軟件系統,它會執行動作;動作改變環境狀態。智能體無法直接觀測完整環境狀態,只能獲取觀測信息:射入視網膜的光子、傳感器傳回的讀數、視頻畫面中的像素。新的觀測結果指導智能體生成新動作,循環往復形成閉環。 “狀態”一詞需要拆解釋義,它在不同學科中定義不同。此處並非化學領域固液氣三態的概念,而是物理與機器人學定義的狀態:對某一時刻客觀環境的完整描述,囊括所有物體的位置、速度與各類屬性。環境狀態是客觀世界的底層全貌,理論上信息完整,但身處其中的智能體無法直接全盤獲知。觀測是智能體對客觀世界的局部感知,動作則是智能體基於感知做出的反饋行為。 從智能體、動作、環境狀態再到觀測信息、最終回饋智能體的這套閉環,奠定了現代“世界模型”的技術定義。事實上,“世界模型”這一說法本身歷史更為悠久。它最早可以追溯到1943年肯尼斯·克雷克(Kenneth Craik)提出人腦依靠構建現實的“微型模型”完成邏輯思考。上世紀80年代末至90年代初,克雷克的理念被引入神經網絡研究。這套閉環同樣能解釋當下五花八門的世界模型:如今各類冠以世界模型的產品,本質都是這套閉環的不同實現方向,各自只輸出閉環中的某一部分信息。 三、世界模型的三大功能分類 第一類世界模型是渲染器。渲染器以像素畫面的形式輸出可供人類觀看的觀測信息,核心評判標準是視覺還原度。能夠依據文本提示生成電影級航拍畫面的視頻模型屬於渲染器,Google的Genie 3、World Labs自研的RTFM這類根據用戶輸入實時生成畫面的交互式系統同樣歸為此類。這類模型並不具備對三維結構的顯性認知,它只生成人類肉眼所見畫面,而非客觀真實結構。航拍鏡頭裡的建築從上空看毫無破綻,但如果駕車穿行城下,建築結構就會出現崩壞。 第二類是仿真器。仿真器輸出環境狀態:在幾何、物理、動力學層面貼合客觀規律的環境表徵,可供人類與計算機程序運算、交互。渲染器只需要滿足視覺效果,仿真器則要恪守結構真實性:幾何結構經得起校驗、物理規則符合牛頓定律、物體動力學表現貼合現實規律。仿真器同時服務兩類使用者:建築師、設計師、影視與遊戲開發者等從業者需要遠超視覺逼真度的精準環境;強化學習智能體、機器人控制器、自動駕駛等程序則將仿真環境當作規模化訓練場地,用以測試現實中危險、成本高昂或是無法落地的場景。 第三類是規劃器。規劃器輸出動作指令:依託觀測信息與預設目標,給出智能體下一步的行動方案。從邏輯上看,它和渲染器互為逆過程。渲染器輸入動作、輸出觀測畫面;規劃器輸入觀測信息、輸出動作指令,補齊感知與動作的閉環鏈路。視覺-語言-動作(VLA)模型、基於模型的控制系統,以及新近興起的世界動作模型(World Action Models)都屬於規劃器方向,這類系統能夠為非結構化環境中的機器人制定行動策略。 當下落地量產的絕大多數世界模型產品都可以歸入這三類,在實際應用中這套劃分方式具備實用價值,但三類模型底層並非割裂。幾何、物理、動力學這套描述客觀世界運行邏輯的基礎知識,是三者共用的底層原理。理論上,能夠從任意視角渲染杯子的模型,也可以仿真杯子被推倒後的狀態、規劃機械手抓取杯子的動作。當下前沿研究正不斷打破三類模型的邊界。 ▲World Labs世界模型三大功能模塊拆解示意圖(圖源:World Labs) 四、仿真為何是核心支柱 在三類模型中,仿真器受到的大眾關注度最低,卻具備最深遠的產業價值,本文將就這種關注度與重要度失衡的現狀展開論述。 渲染器是商業化落地最成熟的品類,多款文生圖、文生視頻產品正快速滲透消費級與企業級市場。谷歌的Nano Banana模型將高質量圖像生成能力帶給了數以億計的潛在用戶。無論是技術本身,還是相應的市場需求,都已經得到了充分驗證。但渲染器以視覺逼真度為優化目標,不追求物理精準性,這成為它的能力上限:生成畫面觀感出眾,卻無法被用於建築設計、機器人訓練等需要嚴謹物理邏輯的場景。 規劃器發展前景最受期待,但技術尚處在起步階段,和高速發展的機器人學習領域深度綁定。近兩年來,機器人相關演示視頻效果亮眼,但客觀來看,絕大多數演示都侷限在條件嚴苛的實驗室環境中,操作物品種類有限、任務流程簡短,還無法滿足真實落地所需的環境複雜度、場景多變性與長時間穩定運行要求。從實驗室演示到能在廚房、倉庫、手術室穩定作業的商用機器人,中間仍存在巨大技術鴻溝。不過資本對規劃賽道投入巨大,一批資金充裕的創業公司爭相落地通用規劃系統,頭部基礎設施廠商也選擇在仿真技術棧之上搭建規劃能力。能夠自主規劃的機器人才具備實用價值,全行業都在爭先攻克這項技術。 仿真技術是銜接渲染與規劃的橋樑。如果說語言是世界的抽象概括、像素是世界的視覺投影,那麼幾何、物理與動力學規律就是世界本身。仿真器立足客觀規律搭建底層結構,渲染所需的外觀畫面、規劃所需的動作結果,都能從這套結構中衍生而來。 掌握仿真能力的模型,既可以把對世界的理解轉化為可供人類觀看的像素畫面,也能為實體智能體預判動作結果,而僅專攻渲染或規劃其中一項的模型,則無法兼備上述兩項能力。仿真的商業化市場空間十分龐大,僅英偉達的Omniverse,其面向工廠、倉儲、供應鏈、數字孿生的潛在市場規模就被公司預估超萬億美元。機器人訓練、自動駕駛測試、建築可視化、工程研發、藥物研發等領域,全都離不開仿真技術。 AI領域諸多棘手的待解難題也集中在仿真賽道。標註了幾何結構、材質屬性、物理參數的三維數據集,體量遠少於渲染模型訓練所用的互聯網視頻素材。仿真與現實間的域差問題始終難以根除。生成式仿真還新增一項隱患:AI生成的幾何模型看似正常,實則可能存在面相交、尺寸失真問題,進而導致物理運算結果違背常理。能夠同時實現剛體、柔體、流體、織物交互的大規模多物理場仿真,算力成本遠高於單一物理場景仿真。 World Labs推出的Marble是我們佈局仿真領域的首款產品。該產品接收文本、圖片、視頻、空間草圖等多模態提示詞,生成可交互探索的三維環境,同時輸出用於視覺瀏覽的高斯潑濺數據、可供物理引擎運算的碰撞網格。不過隨著渲染、仿真、規劃的邊界不斷消融,Marble只是全行業技術演進長週期的開端。 五、邊界消融的現狀與未來發展方向 行業的技術變革還在持續推進,當下最關鍵的發展趨勢是三類模型正在相互融合。業界逐漸達成共識:實現環境渲染、物理仿真、動作規劃所依託的底層世界知識高度同源。沿用前文杯子的例子:真正掌握杯子在桌面的幾何形態、材質、受力規律的模型,既能從任意角度渲染杯子畫面,也能仿真杯子被碰倒的全過程,還能規劃機械手抓取動作。三類應用只是同一套底層世界認知的三種落地形式。 ▲大一統世界模型架構圖(圖源:World Labs) 舉個例子,多家機器人實驗室近期已有越來越多研究證實:從理論層面,預訓練視頻渲染模型可作為環境與動作聯合預測的底層基座,用單一模型預判環境變化與對應動作,打通渲染器和規劃器的技術壁壘。World Labs的Marble已實現單模型同時輸出高斯潑濺畫面與碰撞網格,打破渲染器和仿真器的界限。全品類產品都在從被動生成輸出轉向交互式系統:渲染器開始支持根據動作指令生成畫面,仿真器產出的環境可調控、可修改,規劃器也從被動應激式決策升級為自主推演式決策。 技術演進的終極形態是大一統世界基礎模型:單一基座模型既能生成照片級渲染畫面、輸出符合物理規律的環境結構,又能生成動作序列,可根據下游需求靈活切換輸出形式。不過落地之路仍有重重挑戰:各類模型數據儲備不均衡,渲染模型坐擁海量互聯網視頻素材,仿真與規劃模型卻緊缺三維資源與機器人實操數據;優先優化視覺效果往往會損耗機器人、高精度仿真所需的物理精度。在同一套模型架構中平衡各項需求,是當前世界模型領域最核心的攻關課題,這也是World Labs迭代升級Marble的核心目標。 但行業發展方向已然明晰。從上世紀80年代末延續至今的行業核心猜想,正驅動著新一代科研攻關:只要構建足夠完備的世界模型,智能體就能夠感知、搭建環境並在其中自主行動。這份猜想的落地底氣源自三大技術路線的融合趨勢:原本各自獨立研發、且均已催生千億級產業的渲染、仿真、規劃賽道,正逐步融為一體。隨著三者邊界徹底消融,它們將重塑更深層的產業格局:機器智能與客觀物理世界的交互關係,推動空間智能完成漫長的產業進化。 語言讓機器擁有了描述世界的能力,而世界模型終將讓機器真正理解、構想客觀世界,並與之推演、交互。 來源:https://x.com/drfeifei/status/2062247238143996275

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前