物理AI的船票，藏在世界模型裡

2026年6月24日 14:05

重點摘要

站內 AI 整理稿

物理AI的核心是“數據scaling和商業scaling，二者形成正向反饋”。而目前唯一同時實現這兩者的，正是自動駕駛。作者 | 黃華丹編輯 | 田哲1943年，蘇格蘭心理學家肯尼斯·克雷克（Kenneth Craik）在他的著作《解釋的本質》中，提出了一個影響深遠的論斷——人類大腦在認知外部世界時，並非被動地接收信息，而是會主動構建一個“現實的內部小模型”。藉助這個“小模型”，我們可以在腦海中模擬不同行動的結果，從而在真實世界出手之前，先安全地推演一遍未來。這個洞見，後來被認知科學家發展為“心理模型”理論，再後來，它成為人工智能領域一個綿延半個多世紀的執念：能不能讓機器也擁有這樣一個“內部模型”？讓它們在執行任務之前，先在自己的“想象”中預演世界的變化？80多年後的今天，這個執念終於從哲學式的思辨和認知科學的假設，變成了AI領域最擁擠的一條賽道——世界模型（World Model）。英偉達將物理AI定義為繼生成式AI之後的下一波浪潮；特斯拉將自動駕駛、Robotaxi、人形機器人和世界模型統一在同一AI體系下；圖靈獎得主Yann LeCun離開Meta創辦AMI Labs，3月完成10.3億美元種子輪押注世界模型；李飛飛的World Labs融資10億美元；OpenAI重組建機器人團隊。幾乎所有的頭部車企和自動駕駛公司，也都在同一時間湧向了同一條技術軌道——從華為到蔚來，從小鵬到理想，從吉利到比亞迪，世界模型正以前所未有的速度從學術概念變成量產標配。科技巨頭和頂尖科學家們正在爭奪同一個制高點：讓AI真正理解物理世界的運行規律。PART 1物理AI為什麼需要自己的“基座模型”？我們先要釐清物理AI與數字AI的本質差異。ChatGPT的突破，本質上是讓機器掌握了語言符號的統計關聯——給定上文，預測下一個詞。這套機制壓縮了人類海量文本知識，使模型表現出常識、邏輯甚至幽默感。但語言模型再強，也無法內化真實的物理因果。一個只讀過無數文檔的AI，知道“物體受重力會下落”這個句子，但它無法預判一個不規則物體在傾斜平面上滾動時的速度變化，也無法感知不同材質接觸面的摩擦力對運動軌跡的影響。所以，AI要進入物理世界，至少需要具備三種底層能力：理解三維空間結構、預測環境變化、在真實場景中執行可靠動作。這三種能力分別對應三條技術路徑：空間智能、世界模型和具身智能。李飛飛強調，AI下一階段必須理解三維空間。一個機器人要抓取桌面上的杯子，不僅要識別杯子，還要計算杯子與桌面、手臂、障礙物的相對位置和姿態。這是空間智能的核心。Yann LeCun則提出，智能體不能僅依賴即時感知，必須擁有內在的“世界模擬器”，能夠推演不同行動導致的未來狀態。換言之，在真實出手之前，先在“腦內”推演多種可能。具身智能則強調通過物理身體與環境交互，利用視覺、觸覺、力反饋等多模態信號，在試錯中學習真實世界的反饋機制。三條線路各有內在邏輯，但為什麼世界模型能夠被反覆討論？世界模型的核心是——把物理世界的運行規律壓縮進模型參數，讓AI具備對空間、運動、因果關係的“常識性”理解。如Momenta CEO曹旭東所言：“預測是智能進化的基石。大語言模型依託下一詞元預測能力壓縮數字世界常識；而世界模型則通過預測物理世界未來的狀態和交互邏輯，獲得理解物體的物理屬性、運動的因果關係、交互的潛在可能。”從這個意義上看，世界模型之於物理AI，就像GPT之於數字AI——它是底層的基座。因此，在2026年的L2+和L4級別的智駕行業裡，世界模型已從一個技術選項變成了幾乎所有頭部玩家的必答題。華為是最早旗幟鮮明押注世界模型路線的主流玩家之一。蔚來同樣在2024年發佈了“蔚來世界模型NWM”首個版本。2026年6月18日，蔚來向超70萬用戶推送世界模型全新版本。理想在CVPR 2026上有12篇論文入選，其中4篇聚焦世界模型，從深度估計、三維重建、交通規則認知到安全風險預判形成完整技術鏈路。比亞迪也將智駕模型切換至世界模型路線，推出“物理AI大模型”。從這些企業的動作中可以看到，一個共識已經形成——世界模型是通往高階自動駕駛乃至物理AI的必經之路。PART 2R7世界模型：三層架構如何讓AI“懂物理”？如上文所言，AI進入物理世界所需的三大支柱：空間感知、時序預測、行動控制，而自動駕駛恰好是三者交匯最為密集的現實場景。一輛車在開放道路行駛，除了識別障礙物，還要預判鄰車切入意圖、行人橫穿概率、路面附著係數變化。它需要空間理解、世界預測和實時決策，三者缺一不可。更關鍵的是，自動駕駛已經具備物理AI其他場景尚不具備的規模化基礎——每天數百萬輛量產車在真實道路產生海量交互數據，且存在明確的商業付費閉環。曹旭東的判斷是：自動駕駛是物理AI的序章，“因為它最先實現了規模化的數據閉環和商業閉環”。2026年4月，Momenta在北京車展發佈R7世界模型，並實現量產首發。這是國內首個將世界模型、強化學習和端到端架構深度融合並投入量產的方案。R7的核心是一套三層遞進架構。第一層：世界模型預訓練——構建物理常識基底Momenta基於超過120億公里的實車行駛里程，從中篩選出超1億段高價值“黃金數據”，涵蓋各類天氣、光照、道路結構和動態交互場景。這些數據經過清洗、標註和時空對齊，用於預訓練世界模型的基礎網絡。模型通過預測下一幀或未來多幀的傳感器狀態，逐步壓縮物理世界的時空演化規律。這一層的核心壁壘在於數據規模。搭載Momenta系統的量產車輛已超過90萬臺，累計交付超100款車型。120億公里的真實數據，是絕大多數競爭對手無法複製的數據底盤。第二層：世界模型仿真——低成本復現長尾場景系統利用生成式模型推演周圍環境的演變，對極端罕見的長尾場景（如路面散落物、前車急剎、非標障礙物等）進行閉環仿真測試。與傳統基於遊戲引擎的仿真不同，Momenta的仿真世界參數直接學習自真實數據，因此“明確知道仿真與真實世界之間的差距有多大、差在哪”，並以此作為模型迭代的量化基準。這種“數據驅動仿真”的效率比實車路測高出數個數量級，且能自動生成數以萬計的變體場景，覆蓋現實中難以窮舉的邊緣情況。第三層：在世界模型中做強化學習——自主探索最優策略在仿真環境中，系統通過設定安全、舒適、效率等多維獎勵函數，讓模型以自我博弈方式反覆試錯。經過數千萬次虛擬交互，模型逐漸習得比人類預置規則更優的駕駛策略，尤其是在複雜博弈場景（如無保護左轉、擁堵匯流）中表現出超越模仿學習的決策能力。過去，量產車是交付終點，Robotaxi是獨立業務，仿真和強化學習是研發工具。但在Momenta的體系裡，它們都圍繞同一個模型進化閉環運轉——量產車產生的真實場景進入世界模型預訓練，仿真環境生成極端案例用於強化學習，優化後的模型再部署回量產車和Robotaxi中驗證，形成“數據→模型→場景”的正向循環。Momenta的All-in-One Platform是這一邏輯的產品化體現：用統一的物理AI大模型、世界模型能力和數據閉環，將乘用車、Robotaxi、Robovan、Robotruck等不同場景的數據和經驗匯入同一技術底座。這種平臺化佈局不僅降低了邊際成本，也構建出多場景協同的商業生態。從2022年首個10萬臺量產耗時24個月，到如今最快不到40天完成10萬臺交付——“飛輪效應”正從概念轉化為可量化的效率提升。PART 3物理AI基模的競爭本質是規模效應的競爭技術只是故事的一面。物理AI基座模型的競爭，本質上是規模效應的競爭。6月23日，Momenta在港交所已通過港交所聆訊，正式進入IPO衝刺階段。市場份額方面，2025年3月至2026年2月，Momenta以65%的銷量市佔率位居中國第三方城市NOA供應商首位。城市NOA正處於爆發臨界點，預計到2030年城市 NOA 解決方案滲透率將從2025年的11%升至62%。研發投入上，2025年Momenta研發支出達18.69億元，佔營收77.5%，近三年累計研發投入46.6億元。截至2025年底，研發人員1157名，佔比近82%，超三分之二擁有碩士及以上學歷。現金儲備超100億元。這些數字表明，Momenta不僅在做技術投入，也已形成自我造血能力。在R7的技術飛輪之外，Momenta正在搭建自己的商業飛輪。Momenta的商業模式中，有一個關鍵的規模化邏輯：每一款車型定點，都是一條未來的收入管道；每一輛量產車的交付，都是一次收入的確認。Momenta已與全球24家整車廠建立合作關係，客戶覆蓋國內全部主流乘用車企，全球排名前10大車企中已有9家與其合作。累計定點車型數超過210款，已成功交付超100款量產車型，搭載Momenta系統的量產車輛規模已超90萬臺。在收入結構上，這種規模化效應同樣清晰可辨。Momenta的收入由兩部分構成：技術開發收入和許可收入。前者是“上車前”的收入——車企給出定點後，Momenta將智駕方案適配到具體車型，完成開發、測試和系統集成；後者是“上車後”的收入——車型正式量產後，Momenta按每輛搭載系統的車輛收取許可費。2023年，Momenta幾乎還靠技術開發支撐收入，到了2025年，許可收入飆升至9.68億元，三年增長42倍，佔比躍升至40.1%。這組數據的邏輯鏈條很清晰：前期技術開發是固定成本投入，一旦方案完成、車型進入量產，後續的許可收入邊際成本極低，每一輛新增量產車帶來的幾乎都是純利潤。定點車型越多，量產規模越大，許可收入的雪球就滾得越快。而許可收入佔比的提升，讓Momenta在保持高研發投入的同時，逐步逼近盈利拐點。這便是Momenta商業規模化閉環的核心：定點帶來量產，量產帶來收入，收入支撐研發，研發反哺模型，模型又幫助拿下更多定點。 120億公里的真實道路數據、超210款車型定點、65%的第三方城市NOA市佔率——這些數字不是孤立的，它們共同構成一個不斷加速的正向循環。這不僅是數據的規模化，更是商業的規模化。當數據和商業兩條曲線同時上揚，物理AI基座模型的飛輪才算真正轉了起來。總結來看，Momenta的選擇在這場路線之爭中顯得尤為清晰：它不依賴語言模型作為中介，而是讓AI直接學習物理世界的規律本身。在曹旭東看來，“世界模型讓AI從理解語言走向理解物理世界，這是通往更高級別自動駕駛的必經之路”。而Momenta的差異化在於：它不僅選擇了世界模型路線，而且已經實現了量產級落地。目前，全球排名前十的車企中已有9家與Momenta推進智駕技術落地，其方案已在亞洲、歐洲、大洋洲、拉美和北非的等超10個國家和地區實現部署。Momenta的股東陣容包含上汽、通用、奔馳、豐田、比亞迪、現代、奇瑞等7家全球車企——這些車企本身就是世界模型浪潮的重要推動者，而它們選擇與Momenta合作，本身也構成了一種行業背書。這些產業合作的意義不止於收入——每一輛搭載Momenta系統的量產車，都是世界模型的數據採集終端。在物理AI時代，數據規模本身就是最深的護城河。當然，物理AI遠未到塵埃落定的時刻。世界模型能否從學術概念轉化為真實世界的底層能力，自動駕駛能否成為物理AI最先跑通的訓練場，都還需要時間驗證。但Momenta正在證明一件事：在物理AI這場長跑中，它已佔據一個關鍵身位。這個身位的核心競爭壁壘，不在於某一項算法指標的領先，而在於一套已經跑通的數據和商業規模化閉環。120億公里實車數據、90多萬臺量產車、65%的第三方城市NOA市佔率、R7世界模型三層架構——這些要素共同構成了物理AI基座模型的雛形。物理AI的核心是“數據scaling和商業scaling，二者形成正向反饋”。而目前唯一同時實現這兩者的，是自動駕駛。對Momenta而言，真正的命題是：自動駕駛這條已具備規模化條件的路徑，能否訓練出物理AI時代的基座模型。答案還在路上。但至少，Momenta已經率先出發。雷峰網

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

GPT設計GPT

這篇消息聚焦「GPT設計GPT」。原始導語提到：如果說英偉達賣鏟子，那麼OpenAI想擁有礦山。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

AIBase生成式AI

蘋果 Xcode 26.6 正式發佈，編程助手迎來“谷歌 Gemini”強力外援

蘋果Xcode 26.6 正式發佈，編程助手新增 Google Gemini 支持，開發者可在 Anthropic Claude Agents 和 OpenAI Codex 之外多一個 AI 輔助選項。該版本集成 Swift 6.3.3，並同步更新 iOS、iPadOS、tvOS、watchOS、visionOS 及 macOS 26.5 全平臺 SDK。

1 小時前8200閱讀分析

AIBase生成式AI

國產大模型再進化：Kimi 瞄準全球頂尖梯隊，下一代 K3 蓄勢待發

月之暗面在亞馬遜雲科技峰會上公佈Kimi最新進展：海外付費用戶及API收入增長400%，覆蓋全球200多個國家和地區，業務涉足互聯網、金融、製造、教育、醫療等行業。公司強調將堅持研發優先戰略。

1 小時前5900閱讀分析

雷峰網生成式AI

速賣通618戰報：品牌成交同比增長90%，多類目湧現百萬美金冠軍

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器此為臨時鏈接，僅用於文章預覽，將在時失效業界正文發私信給徐咪發送 0 速賣通618戰報：品牌成交同比增長90%，多類目湧現百萬美金冠軍本文作者：徐咪 2026-06-26 14:08 導語：記者獲悉，2026年海外618大促，速賣通品牌成交同比90%增長，177個品牌環比三月大促實現3倍以上爆發，品牌成交滲透率逼近40%，進一步鞏固速賣通品牌出海全記者獲悉，2026年海外618大促，速賣通品牌成交同比90%增長，177個品牌環比三月大促實現3倍以上爆發，品牌成交滲透率逼近40%，進一步鞏固速賣通品牌出海全新主場地位。此外，速賣通發佈“海外618超級品牌榜”，參與Brand+“超級品牌日”的十餘個品牌均在各自細分品類中拿下成交或增速第一，騎行輪組ELITEWHEELS、3D打印ANYCUBIC、泳池機器人SEAUTO、遊戲手柄GAMESIR等一批高科技含量、高附加值的新質品牌突出重圍，成為新晉百萬美金冠軍。 0人收藏分享：相關文章阿里海外 618 Gartner發佈企業級AI Coding報告，阿里雲入圍挑戰者 ... 這次是阿里！中國的大模型團隊快被 Anthropic 告完了 ... 阿里QoderWork推“峰谷Token”，夜間使用Qwen3.7低至 ... 阿里高管集體下田插秧，忙了一上午才種半畝？網友： ... 徐咪編輯發私信當月熱門文章藍信發佈2026全棧AI新品，打造100%國產化政企智能辦公新範式 SoulAgent 即將亮相北京智源大會，探索個人智能體在知識服務場景中的應用美團電話會：“小美”與騰訊“元寶”的合作將於近期上線美團發佈AI瀏覽器Tabbit 1.0，可自動執行各類任務騰訊雲護航全球16個國家及地區世界盃直播，A

2 小時前閱讀分析

雷峰網生成式AI

豆包推出專業版，能成為你的「工作搭子」嗎？

你熟悉的豆包，變了。6月24日，豆包發佈基於最新豆包2.1系列大模型的豆包專業版。過去大家用 AI，常見姿勢是：問問題、寫文案、改稿子、做總結、生成圖片。AI 給一段答案，後面的複製、整理、排版、填表、做 PPT、搭網頁，還是自己來。豆包專業版想往前多走一步，讓 AI 從對話框裡走出來，進入真實複雜工作任務。專業版新增 Agent 驅動的辦公任務模式，它不是簡單把免費版的額度放大，也不只是把模型換成更強版本，而是想真正幫到職場人士。這一模式搭載豆包 2.1 Pro，可以將找資料、寫文檔、做報告等工作任務一網打盡。當然，免費用戶的日常使用不受影響，也可以在一定額度內體驗搭載豆包 2.1 turbo 的辦公任務模式。目前看來，豆包付費訂閱的檔位，也遠低於海外主流大模型，價格還算良心。換句話說，豆包並沒有把原來的免費體驗直接收窄，而是在免費能力之上，劃出一個更偏生產力、更偏高頻重度使用的專業層。專業版到底“專業”在哪裡過去一年，大模型產品的競爭，很大程度上圍繞“誰回答得更好”展開。模型能不能寫出更自然的文案，能不能更準確地總結網頁，能不能更好地理解圖片、寫代碼，是用戶最直觀的評價標準。但專業用戶在真實工作裡遇到的問題，往往不是“問一個問題，得到一段答案”這麼簡單。做一份行業調研，要搜索資料、篩選來源、組織結構、生成文檔，最好還能繼續改；做一個活動頁面，不能只給出代碼片段，還要能創建頁面、修改樣式、部署預覽，甚至連接後端數據庫。豆包專業版主打的辦公任務模式，正是試圖把這些分散步驟串起來。在辦公任務模式下，豆包支持理解工作目標、自主拆解任務，並調用本地電腦/瀏覽器操作、網站生成、Office/飛書集成、Skill 技能、定時任務等能力，幫助用戶完成軟件開發、數據分析、專業設計、流程自動化、金融分析等工作。這意味著產品形態發生了變化。普通對話模式裡，AI 更像一個“答題者”；辦公任務模

4 小時前閱讀分析

雷峰網生成式AI

GAIR Paper 107｜高校聯合騰訊發佈 GameCraft-Bench：AI已能端到端開發遊戲，Claude Opus 四成達到可玩水平

Coding Agent 的下一站，是動態交互系統的構建。作者丨GameCraft-Bench Team 過去一年，代碼智能體（Coding Agent）發展迅速。從編寫簡單的單一腳本、修復局部 BUG，到跨文件完成長序開發任務，模型能力正在不斷提升。以“一句話生成遊戲”為代表，AI 正在大幅降低遊戲構建門檻。過去需要開發者熟練掌握引擎架構、手寫邏輯代碼的開發工作，現在可以通過自然語言快速生成原型，甚至生成可運行的遊戲項目。這也讓規模化由 AI 創造交互式體驗變得前所未有地現實。但問題是：這些從零自動生成的遊戲，真的“能玩”嗎？如果生成的代碼只是“看起來邏輯合理”，但在真實的引擎環境中根本跑不起來，或者視覺表現與玩家交互一塌糊塗，那麼在這些只看靜態代碼的基準裡刷出高分的 Agent，就很難真正勝任現實中的遊戲開發場景。香港中文大學（深圳）、深圳河套學院等高校聯合騰訊的最新研究 GameCraft-Bench 正是要解決這個問題：如何構建一個基於真實遊戲引擎、產物完整可運行、且能通過真實玩家多模態交互來驗證的 AI 遊戲生成評測基準。論文鏈接：https://arxiv.org/abs/2606.17861項目主頁：https://tongxuluo.github.io/gamecraft-bench-website評估代碼：https://github.com/tongxuluo/gamecraft-bench01為什麼不直接用現有的評測基準？過去已經提出了一些與遊戲生成相關的評估基準，那我們為什麼還要重新確立一個新的評估基準 GameCraft-Bench 呢？核心原因是：現有的基準很難全面、真實地衡量端到端的可玩性。表. GameCraft-Bench與已有的遊戲生成評估基準的對比。1. 真實引擎的整合難度被低估。像 OpenGame-Bench 主要針對 Web

5 小時前閱讀分析