智東西生成式AI

黃仁勳的物理AI ChatGPT時刻,正被這家中國公司的“流式多模態”接棒

2026年7月1日 10:10

重點摘要

智東西 作者 | 王涵 編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日,拉斯維加斯CES展會,英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。 在他看來,AI的演進可以分為四個階段:Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆,AI才真正走出屏幕。他同時指出,要讓機器人理解物理世界,不能僅靠單一模型,而是需要建立一整套智能系統。 黃仁勳描繪了未來願景,但一個問題擺在了所有人面前——物理世界的AI,到底需要什麼樣的技術能力? AI真正走向物理世界,機器人、無人機、安防攝像頭、可穿戴設備這些場景,需要的不是回答問題,而是持續工作。物理AI最重要的,也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示:“之前整個業內對通用視覺智能的關注度偏低,大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的,而且可能是更加現實、更加直接的核心技術,會更廣泛地應用到所有物理AI場景。” 通用視覺智能(General Vision Intelligence),即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動,且這一切必須在端側完成。 近日發佈的VLX端側流式多模態模型系列,正是這一路徑的最新實踐。 這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑,VLX系列面向物理世界中持續湧入的視頻流,實現毫秒級實時感知,並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。 一、三個模型、三層能力、一條鏈路 什麼是通用視覺智能(General Vision Intelligence)? Om AI聯匯的定義是三項核心能力:持續感知(無需人工觸發)、空

站內 AI 整理稿

智東西 作者 | 王涵 編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日,拉斯維加斯CES展會,英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。 在他看來,AI的演進可以分為四個階段:Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆,AI才真正走出屏幕。他同時指出,要讓機器人理解物理世界,不能僅靠單一模型,而是需要建立一整套智能系統。 黃仁勳描繪了未來願景,但一個問題擺在了所有人面前——物理世界的AI,到底需要什麼樣的技術能力? AI真正走向物理世界,機器人、無人機、安防攝像頭、可穿戴設備這些場景,需要的不是回答問題,而是持續工作。物理AI最重要的,也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示:“之前整個業內對通用視覺智能的關注度偏低,大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的,而且可能是更加現實、更加直接的核心技術,會更廣泛地應用到所有物理AI場景。” 通用視覺智能(General Vision Intelligence),即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動,且這一切必須在端側完成。 近日發佈的VLX端側流式多模態模型系列,正是這一路徑的最新實踐。 這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑,VLX系列面向物理世界中持續湧入的視頻流,實現毫秒級實時感知,並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。 一、三個模型、三層能力、一條鏈路 什麼是通用視覺智能(General Vision Intelligence)? Om AI聯匯的定義是三項核心能力:持續感知(無需人工觸發)、空間智能(精準定位目標)、行動輸出(直接驅動設備)。VLX系列的Flow、Seek、Go按個模型剛好對應這三項能力: VLX-Flow是持續感知層: 傳統視頻AI普遍採用離散式處理邏輯,通過截取畫面完成單次問答交互,觀測存在明顯間斷。而VLX-Flow採用流式視頻輸入架構,圖像數據流不間斷送入模型,實現持續觀測與時序記憶留存。VLX-Flow的實時性聚焦底層感知,無需人工下發指令觸發,可自主不間斷運行。 VLX-Seek是精準定位層: 市面上通用視覺大模型僅能實現畫面內容文本描述,只能告知畫面存在物體,卻無法輸出精準空間位置,難以回答目標座標、數量等實操性問題。VLX-Seek更換底層技術思路,採用區域指代機制,直接輸出毫米級精準空間錨點。 VLX-Go是行動輸出: 傳統視覺模型解析畫面後僅能生成文字化操作指令,無法直接驅動硬件執行。VLX-Go更進一步,能夠輸出設備可直接調用的導航航點,支撐機器人自主完成移動動作,實現低延時實時反饋。 視頻流持續進入,Flow負責“看懂”,Seek負責“找對”,Go負責“動起來”。三塊拼圖拼在一起,才構成完整的物理世界AI。 在基準測試中,VLX用三組數據印證了一個趨勢:參數規模與物理世界的實際表現,正在脫鉤。 Seek-3B在目標檢測基準MSCOCO val2017、複雜語義基準RefCOCO、開放詞彙檢測基準ODinW13以及目標計數基準PixMo Count,均大幅超越Gemini 3.1 Pro和GPT-5等旗艦大模型,用3B小參數做到了旗艦精度。 在機器人導航與跟蹤任務中,Go(0.6B)以極小的參數量實現了85.42%的高成功率,超越參數大其13倍的Qwen-RobotNav-8B;同時以94.08%的跟蹤率顯著領先所有對比模型,證明其在動態目標跟隨方面具備極強的視覺-運動協同能力,更加有力證明了針對端側物理場景進行專用架構設計的有效性。 在延遲方面,端側推理僅需0.1秒,而云端推理通常超過5秒,這50倍的差距直接決定了系統“可用”與“不可用”的邊界。 結果證明,當模型必須跑在端側、必須實時響應、必須自主決策時,“大”反而成了包袱。VLX的真正價值,是用更小的模型在端側芯片上跑出更好的結果,證明了“為場景設計模型”這條路,比“把通用模型塞進場景”更高效。 二、給物理世界造一套“視覺中樞” 這樣亮眼的測試成績,根源於架構層面的差異。 傳統模型處理視覺信息的方式是“截幀-上傳-提問-回答”,即拍一張照片或上傳一段視頻,問一句,答一句。這種模式本質上是離散的、被動的。目前多數模型的解決方案依賴長上下文來處理視頻輸入,本質仍是“離線看一遍”。 Om AI聯匯提出的流式多模態,相當於給設備裝上一套持續運轉的“視覺中樞”。攝像頭採集的視頻流像水一樣流入模型,模型持續接收、理解、記憶,形成一個不間斷的感知流。用戶或開發者通過提示詞自由定義輸出目標,這套中樞可以按需輸出文本描述、空間錨點或行動軌跡。 在技術路徑上,VLX的流式能力則面向實時交互場景設計,系統可以自主持續觀察、精準鎖定、即刻行動。二者應用場景不同,架構設計也隨之分化。 行業通用做法是先訓練大參數模型,再通過量化、蒸餾等方式壓縮至端側,Om AI聯匯採取了一條不同的技術路徑。 據該公司技術團隊介紹,VLX從設計起點即圍繞端側算力約束展開架構設計。Flow採用Linear Attention機制替代標準Attention,保證視頻流持續輸入時顯存不溢出;Seek以區域指代替代座標生成,在提升精度的同時降低計算量;Go採用短時航點預測,以快速響應周圍環境的快速變化。 三、不再紙上談兵,Om AI聯匯定義物理AI新範式 此前,物理AI的落地一直卡在一個尷尬的位置:Demo驚豔,但量產乏力。VLX從頭就是為了落地而設計的,並也已經大規模落地: 具身智能領域:行業長期面臨的一個痛點是:不同機器人平臺的系統架構、傳感器方案、執行機構高度異構,算法從A機器人遷移到B機器人往往需要大量適配工作。VLX大腦具備跨平臺能力,已全面支持雲深處、宇樹等頭部企業的端側設備,開發者在不同機器人平臺上的適配週期大幅縮短。 無人機領域:傳統無人機巡檢依賴飛手人工操作或拍完視頻回傳後臺審核,耗時耗力。搭載VLX的無人機具備了自主視覺導航和精準目標鎖定能力,可自主識別違章、自主避障、自主規劃航線。巡檢效率提升數倍,響應時間從小時級縮短至秒級。 可穿戴設備領域:中國有超過1700萬視障人士,但市面上的輔助工具大多停留在語音播報或簡單障礙物提醒,無法解決“我在哪、周圍有什麼、怎麼走過去”的連貫需求。Om AI聯匯Homer平臺旗下好馬APP已服務近10萬視障用戶,通過AI助視眼鏡幫助用戶安全避障、出行導航、空間尋物。 安防攝像頭領域:客戶無需更換現有硬件,只需在邊緣側或輕量化網關中接入VLX,即可讓攝像頭升級為可24小時自主研判的AI哨兵。原有硬件資產得到保護,避免了推倒重來的高額成本。 AI PC領域:PC上的端側AI長期停留在文字對話和簡單圖像生成層面,缺乏真正的視覺理解與空間交互能力。VLX已完成與蘋果、聯想、惠普、英偉達四大頭部品牌的端側適配,為PC設備註入了實時視覺理解能力。 國產芯片方面:端側AI的算力部署長期依賴英偉達等海外高端芯片,國產芯片受限於算力與生態,難以承載大參數模型。VLX針對算力約束做了專門優化,已在華為昇騰、地瓜、RK3588等國產平臺完成適配。 VLX的行業價值,在於驗證了一條不同於數字AI的架構路徑。 當行業仍在比拼誰把雲端模型壓縮得更小時,VLX選擇從端側算力約束出發設計模型。測試數據顯示這條路無需等待算力迭代即可落地,部署成本大幅壓縮,實時響應能力提升數十倍,國產芯片即可流暢運行。 與此同時,這套流式多模態路線已覆蓋具身智能、無人機、可穿戴、安防、AI PC等多個場景,物理AI從“Demo展示”到“量產交付”的拐點正在顯現。而VLX系列模型向開發者開放體驗平臺,則進一步降低了端側智能應用的研發門檻,為產業鏈協同創新提供了更大的想象空間。 結語:用流式架構為物理世界重新設計AI 回到一開始的那個問題:物理世界,究竟需要怎樣的AI? Om AI聯匯用VLX系列模型給出了答案:用流式架構為物理世界重新設計AI。 這背後,是Om AI聯匯多年的長線佈局與持續深耕。從2016年切入生成式對話技術,到2021年押注多模態賽道,再到2022年拿下國內首張多模態大模型測評證書,團隊始終走在行業趨勢之前,持續沉澱底層技術能力。 放眼整個物理AI賽道,行業從不缺願景、概念與演示Demo。真正稀缺的,是能夠適配真實場景、穩定運行、可規模化落地的成熟系統。更重要的是,它需要被百萬級設備驗證過。 VLX為物理AI的端側化路徑,提供了一個可參考的樣本。

Related

相關文章

智東西生成式AI

時隔4個月,谷歌Nano Banana再發新模型

這篇消息聚焦「時隔4個月,谷歌Nano Banana再發新模型」。原始導語提到:4秒生成1K圖片,僅需0.23元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
雷峰網生成式AI

獨家丨世界模型企業知天下完成天使輪融資,要做「中國版World Labs」

通向世界模型之路:生成式3DGS基模。 作者丨向 欣 編輯丨高景輝 AI科技評論獨家獲悉,空間智能與世界模型初創公司知天下(蘇州)人工智能科技有限公司(以下簡稱“知天下”)近日已完成天使輪融資。本輪由上海眾合創投獨家投資,探針資本擔任財務顧問,資金將主要用於擴充團隊研發生成式高斯基模、開拓高斯潑濺中國內容社群的海外影響力。知天下是一家專注於高斯潑濺(3D Gaussian Splatting,簡稱3DGS)三維重建與生成技術的AI企業,於 2024 年初推出 3DGS 免費重建與發佈服務,其平臺已匯聚數萬名 3DGS 用戶,形成技術交流與內容創作社區,同時積累了高質量多視角照片數據集,近期平臺3DGS創作日均數據已超越英國SuperSplat,僅次於美國World Labs。依託已積累的PB級真實三維世界影像數據,知天下正在研發規模持續增長的生成式高斯基礎模型,用於實現三維空間推理和補全,推進AI從文本理解向三維物理世界理解的方向演進,為空間智能提供底層基礎設施。3DGS是近年來海外科技公司重點投入的技術方向之一。NVIDIA已將其集成至Omniverse及Isaac Sim平臺,李飛飛創辦的World Labs也將其作為核心數據結構。其原理是將場景表示為大量可優化的三維高斯橢球體集合,可兼顧照片級渲染質量、高效的實時渲染、以及深度學習可微特性,近年已成為具身智能、AR/VR、數字孿生和自動駕駛仿真的通用空間表示標準。創始團隊方面,知天下創始人宋寬博士,擁有北京大學兩個學士學位,馬裡蘭大學博士學位,曾獲北京中關村及蘇州等地人才項目支持。2023年,他確立3DGS與多模態、生成式AI協同發展的技術路線,並主導構建了國內最大規模的3DGS技術社區。公司首席科學家魏澤強,2019年以來持續在宋寬博士團隊工作,2025年博士畢業於北京郵電大學人工智能學院。在多視角深度學習方向曾帶領

2 小時前