物理AI的船票,藏在世界模型裡
重點摘要
物理AI的核心是“數據scaling和商業scaling,二者形成正向反饋”。而目前唯一同時實現這兩者的,正是自動駕駛。作者 | 黃華丹編輯 | 田 哲1943年,蘇格蘭心理學家肯尼斯·克雷克(Kenneth Craik)在他的著作《解釋的本質》中,提出了一個影響深遠的論斷——人類大腦在認知外部世界時,並非被動地接收信息,而是會主動構建一個“現實的內部小模型”。藉助這個“小模型”,我們可以在腦海中模擬不同行動的結果,從而在真實世界出手之前,先安全地推演一遍未來。這個洞見,後來被認知科學家發展為“心理模型”理論,再後來,它成為人工智能領域一個綿延半個多世紀的執念:能不能讓機器也擁有這樣一個“內部模型”?讓它們在執行任務之前,先在自己的“想象”中預演世界的變化?80多年後的今天,這個執念終於從哲學式的思辨和認知科學的假設,變成了AI領域最擁擠的一條賽道——世界模型(World Model)。英偉達將物理AI定義為繼生成式AI之後的下一波浪潮;特斯拉將自動駕駛、Robotaxi、人形機器人和世界模型統一在同一AI體系下;圖靈獎得主Yann LeCun離開Meta創辦AMI Labs,3月完成10.3億美元種子輪押注世界模型;李飛飛的World Labs融資10億美元;OpenAI重組建機器人團隊。幾乎所有的頭部車企和自動駕駛公司,也都在同一時間湧向了同一條技術軌道——從華為到蔚來,從小鵬到理想,從吉利到比亞迪,世界模型正以前所未有的速度從學術概念變成量產標配。科技巨頭和頂尖科學家們正在爭奪同一個制高點:讓AI真正理解物理世界的運行規律。PART 1物理AI為什麼需要自己的“基座模型”?我們先要釐清物理AI與數字AI的本質差異。ChatGPT的突破,本質上是讓機器掌握了語言符號的統計關聯——給定上文,預測下一個詞。這套機制壓縮了人類海量文本知識,使模型表現出常識、邏輯甚至幽默感。但
物理AI的核心是“數據scaling和商業scaling,二者形成正向反饋”。而目前唯一同時實現這兩者的,正是自動駕駛。作者 | 黃華丹編輯 | 田 哲1943年,蘇格蘭心理學家肯尼斯·克雷克(Kenneth Craik)在他的著作《解釋的本質》中,提出了一個影響深遠的論斷——人類大腦在認知外部世界時,並非被動地接收信息,而是會主動構建一個“現實的內部小模型”。藉助這個“小模型”,我們可以在腦海中模擬不同行動的結果,從而在真實世界出手之前,先安全地推演一遍未來。這個洞見,後來被認知科學家發展為“心理模型”理論,再後來,它成為人工智能領域一個綿延半個多世紀的執念:能不能讓機器也擁有這樣一個“內部模型”?讓它們在執行任務之前,先在自己的“想象”中預演世界的變化?80多年後的今天,這個執念終於從哲學式的思辨和認知科學的假設,變成了AI領域最擁擠的一條賽道——世界模型(World Model)。英偉達將物理AI定義為繼生成式AI之後的下一波浪潮;特斯拉將自動駕駛、Robotaxi、人形機器人和世界模型統一在同一AI體系下;圖靈獎得主Yann LeCun離開Meta創辦AMI Labs,3月完成10.3億美元種子輪押注世界模型;李飛飛的World Labs融資10億美元;OpenAI重組建機器人團隊。幾乎所有的頭部車企和自動駕駛公司,也都在同一時間湧向了同一條技術軌道——從華為到蔚來,從小鵬到理想,從吉利到比亞迪,世界模型正以前所未有的速度從學術概念變成量產標配。科技巨頭和頂尖科學家們正在爭奪同一個制高點:讓AI真正理解物理世界的運行規律。PART 1物理AI為什麼需要自己的“基座模型”?我們先要釐清物理AI與數字AI的本質差異。ChatGPT的突破,本質上是讓機器掌握了語言符號的統計關聯——給定上文,預測下一個詞。這套機制壓縮了人類海量文本知識,使模型表現出常識、邏輯甚至幽默感。但語言模型再強,也無法內化真實的物理因果。一個只讀過無數文檔的AI,知道“物體受重力會下落”這個句子,但它無法預判一個不規則物體在傾斜平面上滾動時的速度變化,也無法感知不同材質接觸面的摩擦力對運動軌跡的影響。所以,AI要進入物理世界,至少需要具備三種底層能力:理解三維空間結構、預測環境變化、在真實場景中執行可靠動作。這三種能力分別對應三條技術路徑:空間智能、世界模型和具身智能。李飛飛強調,AI下一階段必須理解三維空間。一個機器人要抓取桌面上的杯子,不僅要識別杯子,還要計算杯子與桌面、手臂、障礙物的相對位置和姿態。這是空間智能的核心。Yann LeCun則提出,智能體不能僅依賴即時感知,必須擁有內在的“世界模擬器”,能夠推演不同行動導致的未來狀態。換言之,在真實出手之前,先在“腦內”推演多種可能。具身智能則強調通過物理身體與環境交互,利用視覺、觸覺、力反饋等多模態信號,在試錯中學習真實世界的反饋機制。三條線路各有內在邏輯,但為什麼世界模型能夠被反覆討論?世界模型的核心是——把物理世界的運行規律壓縮進模型參數,讓AI具備對空間、運動、因果關係的“常識性”理解。如Momenta CEO曹旭東所言:“預測是智能進化的基石。大語言模型依託下一詞元預測能力壓縮數字世界常識;而世界模型則通過預測物理世界未來的狀態和交互邏輯,獲得理解物體的物理屬性、運動的因果關係、交互的潛在可能。”從這個意義上看,世界模型之於物理AI,就像GPT之於數字AI——它是底層的基座。因此,在2026年的L2+和L4級別的智駕行業裡,世界模型已從一個技術選項變成了幾乎所有頭部玩家的必答題。華為是最早旗幟鮮明押注世界模型路線的主流玩家之一。蔚來同樣在2024年發佈了“蔚來世界模型NWM”首個版本。2026年6月18日,蔚來向超70萬用戶推送世界模型全新版本。理想在CVPR 2026上有12篇論文入選,其中4篇聚焦世界模型,從深度估計、三維重建、交通規則認知到安全風險預判形成完整技術鏈路。比亞迪也將智駕模型切換至世界模型路線,推出“物理AI大模型”。從這些企業的動作中可以看到,一個共識已經形成——世界模型是通往高階自動駕駛乃至物理AI的必經之路。PART 2R7世界模型:三層架構如何讓AI“懂物理”?如上文所言,AI進入物理世界所需的三大支柱:空間感知、時序預測、行動控制,而自動駕駛恰好是三者交匯最為密集的現實場景。一輛車在開放道路行駛,除了識別障礙物,還要預判鄰車切入意圖、行人橫穿概率、路面附著係數變化。它需要空間理解、世界預測和實時決策,三者缺一不可。更關鍵的是,自動駕駛已經具備物理AI其他場景尚不具備的規模化基礎——每天數百萬輛量產車在真實道路產生海量交互數據,且存在明確的商業付費閉環。曹旭東的判斷是:自動駕駛是物理AI的序章,“因為它最先實現了規模化的數據閉環和商業閉環”。2026年4月,Momenta在北京車展發佈R7世界模型,並實現量產首發。這是國內首個將世界模型、強化學習和端到端架構深度融合並投入量產的方案。R7的核心是一套三層遞進架構。第一層:世界模型預訓練——構建物理常識基底Momenta基於超過120億公里的實車行駛里程,從中篩選出超1億段高價值“黃金數據”,涵蓋各類天氣、光照、道路結構和動態交互場景。這些數據經過清洗、標註和時空對齊,用於預訓練世界模型的基礎網絡。模型通過預測下一幀或未來多幀的傳感器狀態,逐步壓縮物理世界的時空演化規律。這一層的核心壁壘在於數據規模。搭載Momenta系統的量產車輛已超過90萬臺,累計交付超100款車型。120億公里的真實數據,是絕大多數競爭對手無法複製的數據底盤。第二層:世界模型仿真——低成本復現長尾場景系統利用生成式模型推演周圍環境的演變,對極端罕見的長尾場景(如路面散落物、前車急剎、非標障礙物等)進行閉環仿真測試。與傳統基於遊戲引擎的仿真不同,Momenta的仿真世界參數直接學習自真實數據,因此“明確知道仿真與真實世界之間的差距有多大、差在哪”,並以此作為模型迭代的量化基準。這種“數據驅動仿真”的效率比實車路測高出數個數量級,且能自動生成數以萬計的變體場景,覆蓋現實中難以窮舉的邊緣情況。第三層:在世界模型中做強化學習——自主探索最優策略在仿真環境中,系統通過設定安全、舒適、效率等多維獎勵函數,讓模型以自我博弈方式反覆試錯。經過數千萬次虛擬交互,模型逐漸習得比人類預置規則更優的駕駛策略,尤其是在複雜博弈場景(如無保護左轉、擁堵匯流)中表現出超越模仿學習的決策能力。過去,量產車是交付終點,Robotaxi是獨立業務,仿真和強化學習是研發工具。但在Momenta的體系裡,它們都圍繞同一個模型進化閉環運轉——量產車產生的真實場景進入世界模型預訓練,仿真環境生成極端案例用於強化學習,優化後的模型再部署回量產車和Robotaxi中驗證,形成“數據→模型→場景”的正向循環。Momenta的All-in-One Platform是這一邏輯的產品化體現:用統一的物理AI大模型、世界模型能力和數據閉環,將乘用車、Robotaxi、Robovan、Robotruck等不同場景的數據和經驗匯入同一技術底座。這種平臺化佈局不僅降低了邊際成本,也構建出多場景協同的商業生態。從2022年首個10萬臺量產耗時24個月,到如今最快不到40天完成10萬臺交付——“飛輪效應”正從概念轉化為可量化的效率提升。PART 3物理AI基模的競爭本質是規模效應的競爭技術只是故事的一面。物理AI基座模型的競爭,本質上是規模效應的競爭。6月23日,Momenta在港交所已通過港交所聆訊,正式進入IPO衝刺階段。市場份額方面,2025年3月至2026年2月,Momenta以65%的銷量市佔率位居中國第三方城市NOA供應商首位。城市NOA正處於爆發臨界點,預計到2030年城市 NOA 解決方案滲透率將從2025年的11%升至62%。研發投入上,2025年Momenta研發支出達18.69億元,佔營收77.5%,近三年累計研發投入46.6億元。截至2025年底,研發人員1157名,佔比近82%,超三分之二擁有碩士及以上學歷。現金儲備超100億元。這些數字表明,Momenta不僅在做技術投入,也已形成自我造血能力。在R7的技術飛輪之外,Momenta正在搭建自己的商業飛輪。Momenta的商業模式中,有一個關鍵的規模化邏輯:每一款車型定點,都是一條未來的收入管道;每一輛量產車的交付,都是一次收入的確認。Momenta已與全球24家整車廠建立合作關係,客戶覆蓋國內全部主流乘用車企,全球排名前10大車企中已有9家與其合作。累計定點車型數超過210款,已成功交付超100款量產車型,搭載Momenta系統的量產車輛規模已超90萬臺。在收入結構上,這種規模化效應同樣清晰可辨。Momenta的收入由兩部分構成:技術開發收入和許可收入。前者是“上車前”的收入——車企給出定點後,Momenta將智駕方案適配到具體車型,完成開發、測試和系統集成;後者是“上車後”的收入——車型正式量產後,Momenta按每輛搭載系統的車輛收取許可費。2023年,Momenta幾乎還靠技術開發支撐收入,到了2025年,許可收入飆升至9.68億元,三年增長42倍,佔比躍升至40.1%。這組數據的邏輯鏈條很清晰:前期技術開發是固定成本投入,一旦方案完成、車型進入量產,後續的許可收入邊際成本極低,每一輛新增量產車帶來的幾乎都是純利潤。定點車型越多,量產規模越大,許可收入的雪球就滾得越快。而許可收入佔比的提升,讓Momenta在保持高研發投入的同時,逐步逼近盈利拐點。這便是Momenta商業規模化閉環的核心:定點帶來量產,量產帶來收入,收入支撐研發,研發反哺模型,模型又幫助拿下更多定點。 120億公里的真實道路數據、超210款車型定點、65%的第三方城市NOA市佔率——這些數字不是孤立的,它們共同構成一個不斷加速的正向循環。這不僅是數據的規模化,更是商業的規模化。當數據和商業兩條曲線同時上揚,物理AI基座模型的飛輪才算真正轉了起來。總結來看,Momenta的選擇在這場路線之爭中顯得尤為清晰:它不依賴語言模型作為中介,而是讓AI直接學習物理世界的規律本身。在曹旭東看來,“世界模型讓AI從理解語言走向理解物理世界,這是通往更高級別自動駕駛的必經之路”。而Momenta的差異化在於:它不僅選擇了世界模型路線,而且已經實現了量產級落地。目前,全球排名前十的車企中已有9家與Momenta推進智駕技術落地,其方案已在亞洲、歐洲、大洋洲、拉美和北非的等超10個國家和地區實現部署。Momenta的股東陣容包含上汽、通用、奔馳、豐田、比亞迪、現代、奇瑞等7家全球車企——這些車企本身就是世界模型浪潮的重要推動者,而它們選擇與Momenta合作,本身也構成了一種行業背書。這些產業合作的意義不止於收入——每一輛搭載Momenta系統的量產車,都是世界模型的數據採集終端。在物理AI時代,數據規模本身就是最深的護城河。當然,物理AI遠未到塵埃落定的時刻。世界模型能否從學術概念轉化為真實世界的底層能力,自動駕駛能否成為物理AI最先跑通的訓練場,都還需要時間驗證。但Momenta正在證明一件事:在物理AI這場長跑中,它已佔據一個關鍵身位。這個身位的核心競爭壁壘,不在於某一項算法指標的領先,而在於一套已經跑通的數據和商業規模化閉環。120億公里實車數據、90多萬臺量產車、65%的第三方城市NOA市佔率、R7世界模型三層架構——這些要素共同構成了物理AI基座模型的雛形。物理AI的核心是“數據scaling和商業scaling,二者形成正向反饋”。而目前唯一同時實現這兩者的,是自動駕駛。對Momenta而言,真正的命題是:自動駕駛這條已具備規模化條件的路徑,能否訓練出物理AI時代的基座模型。答案還在路上。但至少,Momenta已經率先出發。雷峰網
Related
相關文章
蘋果 Xcode 26.6 正式發佈,編程助手迎來“谷歌 Gemini”強力外援
蘋果Xcode 26.6 正式發佈,編程助手新增 Google Gemini 支持,開發者可在 Anthropic Claude Agents 和 OpenAI Codex 之外多一個 AI 輔助選項。該版本集成 Swift 6.3.3,並同步更新 iOS、iPadOS、tvOS、watchOS、visionOS 及 macOS 26.5 全平臺 SDK。
國產大模型再進化:Kimi 瞄準全球頂尖梯隊,下一代 K3 蓄勢待發
月之暗面在亞馬遜雲科技峰會上公佈Kimi最新進展:海外付費用戶及API收入增長400%,覆蓋全球200多個國家和地區,業務涉足互聯網、金融、製造、教育、醫療等行業。公司強調將堅持研發優先戰略。
速賣通618戰報:品牌成交同比增長90%,多類目湧現百萬美金冠軍
您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 速賣通618戰報:品牌成交同比增長90%,多類目湧現百萬美金冠軍 本文作者: 徐咪 2026-06-26 14:08 導語:記者獲悉,2026年海外618大促,速賣通品牌成交同比90%增長,177個品牌環比三月大促實現3倍以上爆發,品牌成交滲透率逼近40%,進一步鞏固速賣通品牌出海全 記者獲悉,2026年海外618大促,速賣通品牌成交同比90%增長,177個品牌環比三月大促實現3倍以上爆發,品牌成交滲透率逼近40%,進一步鞏固速賣通品牌出海全新主場地位。此外,速賣通發佈“海外618超級品牌榜”,參與Brand+“超級品牌日”的十餘個品牌均在各自細分品類中拿下成交或增速第一,騎行輪組ELITEWHEELS、3D打印ANYCUBIC、泳池機器人SEAUTO、遊戲手柄GAMESIR等一批高科技含量、高附加值的新質品牌突出重圍,成為新晉百萬美金冠軍。 0人收藏 分享: 相關文章 阿里 海外 618 Gartner發佈企業級AI Coding報告,阿里雲入圍挑戰者 ... 這次是阿里!中國的大模型團隊快被 Anthropic 告完了 ... 阿里QoderWork推“峰谷Token”,夜間使用Qwen3.7低至 ... 阿里高管集體下田插秧,忙了一上午才種半畝?網友: ... 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 SoulAgent 即將亮相北京智源大會,探索個人智能體在知識服務場景中的應用 美團電話會:“小美”與騰訊“元寶”的合作將於近期上線 美團發佈AI瀏覽器Tabbit 1.0,可自動執行各類任務 騰訊雲護航全球16個國家及地區世界盃直播,A
豆包推出專業版,能成為你的「工作搭子」嗎?
你熟悉的豆包,變了。6月24日,豆包發佈基於最新豆包2.1系列大模型的豆包專業版。過去大家用 AI,常見姿勢是:問問題、寫文案、改稿子、做總結、生成圖片。AI 給一段答案,後面的複製、整理、排版、填表、做 PPT、搭網頁,還是自己來。豆包專業版想往前多走一步,讓 AI 從對話框裡走出來,進入真實複雜工作任務。專業版新增 Agent 驅動的辦公任務模式,它不是簡單把免費版的額度放大,也不只是把模型換成更強版本,而是想真正幫到職場人士。這一模式搭載豆包 2.1 Pro,可以將找資料、寫文檔、做報告等工作任務一網打盡。當然,免費用戶的日常使用不受影響,也可以在一定額度內體驗搭載豆包 2.1 turbo 的辦公任務模式。目前看來,豆包付費訂閱的檔位,也遠低於海外主流大模型,價格還算良心。換句話說,豆包並沒有把原來的免費體驗直接收窄,而是在免費能力之上,劃出一個更偏生產力、更偏高頻重度使用的專業層。專業版到底“專業”在哪裡過去一年,大模型產品的競爭,很大程度上圍繞“誰回答得更好”展開。模型能不能寫出更自然的文案,能不能更準確地總結網頁,能不能更好地理解圖片、寫代碼,是用戶最直觀的評價標準。但專業用戶在真實工作裡遇到的問題,往往不是“問一個問題,得到一段答案”這麼簡單。做一份行業調研,要搜索資料、篩選來源、組織結構、生成文檔,最好還能繼續改;做一個活動頁面,不能只給出代碼片段,還要能創建頁面、修改樣式、部署預覽,甚至連接後端數據庫。豆包專業版主打的辦公任務模式,正是試圖把這些分散步驟串起來。在辦公任務模式下,豆包支持理解工作目標、自主拆解任務,並調用本地電腦/瀏覽器操作、網站生成、Office/飛書集成、Skill 技能、定時任務等能力,幫助用戶完成軟件開發、數據分析、專業設計、流程自動化、金融分析等工作。這意味著產品形態發生了變化。普通對話模式裡,AI 更像一個“答題者”;辦公任務模
GAIR Paper 107|高校聯合騰訊發佈 GameCraft-Bench:AI已能端到端開發遊戲,Claude Opus 四成達到可玩水平
Coding Agent 的下一站,是動態交互系統的構建。 作者丨GameCraft-Bench Team 過去一年,代碼智能體(Coding Agent)發展迅速。從編寫簡單的單一腳本、修復局部 BUG,到跨文件完成長序開發任務,模型能力正在不斷提升。以“一句話生成遊戲”為代表,AI 正在大幅降低遊戲構建門檻。過去需要開發者熟練掌握引擎架構、手寫邏輯代碼的開發工作,現在可以通過自然語言快速生成原型,甚至生成可運行的遊戲項目。這也讓規模化由 AI 創造交互式體驗變得前所未有地現實。但問題是:這些從零自動生成的遊戲,真的“能玩”嗎?如果生成的代碼只是“看起來邏輯合理”,但在真實的引擎環境中根本跑不起來,或者視覺表現與玩家交互一塌糊塗,那麼在這些只看靜態代碼的基準裡刷出高分的 Agent,就很難真正勝任現實中的遊戲開發場景。香港中文大學(深圳)、深圳河套學院等高校聯合騰訊的最新研究 GameCraft-Bench 正是要解決這個問題:如何構建一個基於真實遊戲引擎、產物完整可運行、且能通過真實玩家多模態交互來驗證的 AI 遊戲生成評測基準。論文鏈接:https://arxiv.org/abs/2606.17861項目主頁:https://tongxuluo.github.io/gamecraft-bench-website評估代碼:https://github.com/tongxuluo/gamecraft-bench01為什麼不直接用現有的評測基準?過去已經提出了一些與遊戲生成相關的評估基準,那我們為什麼還要重新確立一個新的評估基準 GameCraft-Bench 呢?核心原因是:現有的基準很難全面、真實地衡量端到端的可玩性。表. GameCraft-Bench與已有的遊戲生成評估基準的對比。1. 真實引擎的整合難度被低估。 像 OpenGame-Bench 主要針對 Web
