黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

2026年7月1日 10:10

重點摘要

站內 AI 整理稿

智東西作者 | 王涵編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日，拉斯維加斯CES展會，英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。在他看來，AI的演進可以分為四個階段：Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆，AI才真正走出屏幕。他同時指出，要讓機器人理解物理世界，不能僅靠單一模型，而是需要建立一整套智能系統。黃仁勳描繪了未來願景，但一個問題擺在了所有人面前——物理世界的AI，到底需要什麼樣的技術能力？ AI真正走向物理世界，機器人、無人機、安防攝像頭、可穿戴設備這些場景，需要的不是回答問題，而是持續工作。物理AI最重要的，也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示：“之前整個業內對通用視覺智能的關注度偏低，大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的，而且可能是更加現實、更加直接的核心技術，會更廣泛地應用到所有物理AI場景。” 通用視覺智能（General Vision Intelligence），即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動，且這一切必須在端側完成。近日發佈的VLX端側流式多模態模型系列，正是這一路徑的最新實踐。這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑，VLX系列面向物理世界中持續湧入的視頻流，實現毫秒級實時感知，並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。一、三個模型、三層能力、一條鏈路什麼是通用視覺智能（General Vision Intelligence）？ Om AI聯匯的定義是三項核心能力：持續感知（無需人工觸發）、空間智能（精準定位目標）、行動輸出（直接驅動設備）。VLX系列的Flow、Seek、Go按個模型剛好對應這三項能力： VLX-Flow是持續感知層：傳統視頻AI普遍採用離散式處理邏輯，通過截取畫面完成單次問答交互，觀測存在明顯間斷。而VLX-Flow採用流式視頻輸入架構，圖像數據流不間斷送入模型，實現持續觀測與時序記憶留存。VLX-Flow的實時性聚焦底層感知，無需人工下發指令觸發，可自主不間斷運行。 VLX-Seek是精準定位層：市面上通用視覺大模型僅能實現畫面內容文本描述，只能告知畫面存在物體，卻無法輸出精準空間位置，難以回答目標座標、數量等實操性問題。VLX-Seek更換底層技術思路，採用區域指代機制，直接輸出毫米級精準空間錨點。 VLX-Go是行動輸出：傳統視覺模型解析畫面後僅能生成文字化操作指令，無法直接驅動硬件執行。VLX-Go更進一步，能夠輸出設備可直接調用的導航航點，支撐機器人自主完成移動動作，實現低延時實時反饋。視頻流持續進入，Flow負責“看懂”，Seek負責“找對”，Go負責“動起來”。三塊拼圖拼在一起，才構成完整的物理世界AI。在基準測試中，VLX用三組數據印證了一個趨勢：參數規模與物理世界的實際表現，正在脫鉤。 Seek-3B在目標檢測基準MSCOCO val2017、複雜語義基準RefCOCO、開放詞彙檢測基準ODinW13以及目標計數基準PixMo Count，均大幅超越Gemini 3.1 Pro和GPT-5等旗艦大模型，用3B小參數做到了旗艦精度。在機器人導航與跟蹤任務中，Go（0.6B）以極小的參數量實現了85.42%的高成功率，超越參數大其13倍的Qwen-RobotNav-8B；同時以94.08%的跟蹤率顯著領先所有對比模型，證明其在動態目標跟隨方面具備極強的視覺-運動協同能力，更加有力證明了針對端側物理場景進行專用架構設計的有效性。在延遲方面，端側推理僅需0.1秒，而云端推理通常超過5秒，這50倍的差距直接決定了系統“可用”與“不可用”的邊界。結果證明，當模型必須跑在端側、必須實時響應、必須自主決策時，“大”反而成了包袱。VLX的真正價值，是用更小的模型在端側芯片上跑出更好的結果，證明了“為場景設計模型”這條路，比“把通用模型塞進場景”更高效。二、給物理世界造一套“視覺中樞” 這樣亮眼的測試成績，根源於架構層面的差異。傳統模型處理視覺信息的方式是“截幀-上傳-提問-回答”，即拍一張照片或上傳一段視頻，問一句，答一句。這種模式本質上是離散的、被動的。目前多數模型的解決方案依賴長上下文來處理視頻輸入，本質仍是“離線看一遍”。 Om AI聯匯提出的流式多模態，相當於給設備裝上一套持續運轉的“視覺中樞”。攝像頭採集的視頻流像水一樣流入模型，模型持續接收、理解、記憶，形成一個不間斷的感知流。用戶或開發者通過提示詞自由定義輸出目標，這套中樞可以按需輸出文本描述、空間錨點或行動軌跡。在技術路徑上，VLX的流式能力則面向實時交互場景設計，系統可以自主持續觀察、精準鎖定、即刻行動。二者應用場景不同，架構設計也隨之分化。行業通用做法是先訓練大參數模型，再通過量化、蒸餾等方式壓縮至端側，Om AI聯匯採取了一條不同的技術路徑。據該公司技術團隊介紹，VLX從設計起點即圍繞端側算力約束展開架構設計。Flow採用Linear Attention機制替代標準Attention，保證視頻流持續輸入時顯存不溢出；Seek以區域指代替代座標生成，在提升精度的同時降低計算量；Go採用短時航點預測，以快速響應周圍環境的快速變化。三、不再紙上談兵，Om AI聯匯定義物理AI新範式此前，物理AI的落地一直卡在一個尷尬的位置：Demo驚豔，但量產乏力。VLX從頭就是為了落地而設計的，並也已經大規模落地：具身智能領域：行業長期面臨的一個痛點是：不同機器人平臺的系統架構、傳感器方案、執行機構高度異構，算法從A機器人遷移到B機器人往往需要大量適配工作。VLX大腦具備跨平臺能力，已全面支持雲深處、宇樹等頭部企業的端側設備，開發者在不同機器人平臺上的適配週期大幅縮短。無人機領域：傳統無人機巡檢依賴飛手人工操作或拍完視頻回傳後臺審核，耗時耗力。搭載VLX的無人機具備了自主視覺導航和精準目標鎖定能力，可自主識別違章、自主避障、自主規劃航線。巡檢效率提升數倍，響應時間從小時級縮短至秒級。可穿戴設備領域：中國有超過1700萬視障人士，但市面上的輔助工具大多停留在語音播報或簡單障礙物提醒，無法解決“我在哪、周圍有什麼、怎麼走過去”的連貫需求。Om AI聯匯Homer平臺旗下好馬APP已服務近10萬視障用戶，通過AI助視眼鏡幫助用戶安全避障、出行導航、空間尋物。安防攝像頭領域：客戶無需更換現有硬件，只需在邊緣側或輕量化網關中接入VLX，即可讓攝像頭升級為可24小時自主研判的AI哨兵。原有硬件資產得到保護，避免了推倒重來的高額成本。 AI PC領域：PC上的端側AI長期停留在文字對話和簡單圖像生成層面，缺乏真正的視覺理解與空間交互能力。VLX已完成與蘋果、聯想、惠普、英偉達四大頭部品牌的端側適配，為PC設備註入了實時視覺理解能力。國產芯片方面：端側AI的算力部署長期依賴英偉達等海外高端芯片，國產芯片受限於算力與生態，難以承載大參數模型。VLX針對算力約束做了專門優化，已在華為昇騰、地瓜、RK3588等國產平臺完成適配。 VLX的行業價值，在於驗證了一條不同於數字AI的架構路徑。當行業仍在比拼誰把雲端模型壓縮得更小時，VLX選擇從端側算力約束出發設計模型。測試數據顯示這條路無需等待算力迭代即可落地，部署成本大幅壓縮，實時響應能力提升數十倍，國產芯片即可流暢運行。與此同時，這套流式多模態路線已覆蓋具身智能、無人機、可穿戴、安防、AI PC等多個場景，物理AI從“Demo展示”到“量產交付”的拐點正在顯現。而VLX系列模型向開發者開放體驗平臺，則進一步降低了端側智能應用的研發門檻，為產業鏈協同創新提供了更大的想象空間。結語：用流式架構為物理世界重新設計AI 回到一開始的那個問題：物理世界，究竟需要怎樣的AI？ Om AI聯匯用VLX系列模型給出了答案：用流式架構為物理世界重新設計AI。這背後，是Om AI聯匯多年的長線佈局與持續深耕。從2016年切入生成式對話技術，到2021年押注多模態賽道，再到2022年拿下國內首張多模態大模型測評證書，團隊始終走在行業趨勢之前，持續沉澱底層技術能力。放眼整個物理AI賽道，行業從不缺願景、概念與演示Demo。真正稀缺的，是能夠適配真實場景、穩定運行、可規模化落地的成熟系統。更重要的是，它需要被百萬級設備驗證過。 VLX為物理AI的端側化路徑，提供了一個可參考的樣本。

原始來源：智東西 ↗

查看原始來源

36氪生成式AI

谷歌貼身對標字節：最新輕量版 Nano Banana 2 四秒出圖，單張僅 0.034 美元，還能直出視頻

谷歌最新發布輕量版 Nano Banana 2，能在四秒內生成圖片，單張成本僅 0.034 美元，價格低於字節跳動的競品。該模型在出圖品質與延遲上實現雙重反超，並具備直接生成影片的功能。

剛剛閱讀分析

智東西生成式AI

時隔4個月，谷歌Nano Banana再發新模型

這篇消息聚焦「時隔4個月，谷歌Nano Banana再發新模型」。原始導語提到：4秒生成1K圖片，僅需0.23元。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

全天候科技生成式AI

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

美團開源了萬億參數的大模型 LongCat-2.0，該模型採用五萬張國產算力卡進行全流程訓練。此模型特別強調 Agentic Coding 能力，即具備自主編碼與任務執行的特性。

剛剛閱讀分析

IT之家生成式AI

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

OpenAI 最新報告顯示，ChatGPT 全球採用率持續擴大，非英語用戶佔比已超過一半。用戶地域分佈更廣，非洲和亞洲增速最快，35 歲以上用戶群體也在擴大。工作用途中，視覺設計任務增長最快。#ChatGPT##AI#

剛剛閱讀分析

AIBase生成式AI

ChatGPT全球用戶激增：非英語用戶佔比過半，全面跨越早期圈層

OpenAI報告顯示，ChatGPT全球用戶持續多元增長，年齡、性別、地域分佈更廣。非英語使用量顯著提升，超半數活躍用戶以其他語言為主，其中西班牙語、葡萄（牙語）等語言增長突出。

1 小時前4300閱讀分析

雷峰網生成式AI

獨家丨世界模型企業知天下完成天使輪融資，要做「中國版World Labs」

通向世界模型之路：生成式3DGS基模。作者丨向欣編輯丨高景輝 AI科技評論獨家獲悉，空間智能與世界模型初創公司知天下（蘇州）人工智能科技有限公司（以下簡稱“知天下”）近日已完成天使輪融資。本輪由上海眾合創投獨家投資，探針資本擔任財務顧問，資金將主要用於擴充團隊研發生成式高斯基模、開拓高斯潑濺中國內容社群的海外影響力。知天下是一家專注於高斯潑濺（3D Gaussian Splatting，簡稱3DGS）三維重建與生成技術的AI企業，於 2024 年初推出 3DGS 免費重建與發佈服務，其平臺已匯聚數萬名 3DGS 用戶，形成技術交流與內容創作社區，同時積累了高質量多視角照片數據集，近期平臺3DGS創作日均數據已超越英國SuperSplat，僅次於美國World Labs。依託已積累的PB級真實三維世界影像數據，知天下正在研發規模持續增長的生成式高斯基礎模型，用於實現三維空間推理和補全，推進AI從文本理解向三維物理世界理解的方向演進，為空間智能提供底層基礎設施。3DGS是近年來海外科技公司重點投入的技術方向之一。NVIDIA已將其集成至Omniverse及Isaac Sim平臺，李飛飛創辦的World Labs也將其作為核心數據結構。其原理是將場景表示為大量可優化的三維高斯橢球體集合，可兼顧照片級渲染質量、高效的實時渲染、以及深度學習可微特性，近年已成為具身智能、AR/VR、數字孿生和自動駕駛仿真的通用空間表示標準。創始團隊方面，知天下創始人宋寬博士，擁有北京大學兩個學士學位，馬裡蘭大學博士學位，曾獲北京中關村及蘇州等地人才項目支持。2023年，他確立3DGS與多模態、生成式AI協同發展的技術路線，並主導構建了國內最大規模的3DGS技術社區。公司首席科學家魏澤強，2019年以來持續在宋寬博士團隊工作，2025年博士畢業於北京郵電大學人工智能學院。在多視角深度學習方向曾帶領

2 小時前閱讀分析

相關文章

谷歌貼身對標字節：最新輕量版 Nano Banana 2 四秒出圖，單張僅 0.034 美元，還能直出視頻

時隔4個月，谷歌Nano Banana再發新模型

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

ChatGPT全球用戶激增：非英語用戶佔比過半，全面跨越早期圈層

獨家丨世界模型企業知天下完成天使輪融資，要做「中國版World Labs」