黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

2026年7月1日 10:10

重點摘要

黃仁勳在CES 2026宣布物理AI的ChatGPT時刻到來，強調AI需走出屏幕理解物理世界。中國公司Om AI聯匯推出VLX系列端側流式多模態模型，實現持續感知、精準定位與行動輸出的閉環，並在機器人、無人機等場景落地。該模型以較小參數在端側達到優異性能，大幅優於傳統大模型方案。

站內 AI 整理稿

根據智東西的報導，黃仁勳在2026年CES展會上宣告物理AI的ChatGPT時刻正式到來，這標誌著人工智慧從感知、生成到代理階段，最終邁向理解物理世界的新紀元。他強調，AI若要走出螢幕，必須能夠理解質量、摩擦、慣性等物理定律，並建立一整套智能系統來驅動機器人、無人機等終端。然而，這一願景的核心挑戰在於：物理世界需要的非被動問答，而是主動執行與持續感知的能力。這正是中國公司Om AI聯匯推出的「流式多模態」模型系列試圖接棒的關鍵技術路徑。 Om AI聯匯的VLX系列模型，以通用視覺智能為基礎，定義了三項核心能力：持續感知、空間精準定位與直接行動輸出。這與傳統模型「採集-上傳-離線處理」的模式截然不同。VLX採用流式視頻輸入架構，讓模型能像人一樣不間斷觀察環境，無需人工干預即可自主運行。這種設計不僅實現了毫秒級實時感知，更首次在端側打通從感知到決策的完整閉環，為物理AI的規模化落地提供了現實可行的技術基礎。 VLX系列包含三個子模型：VLX-Flow負責持續感知，提供不間斷的時序記憶；VLX-Seek透過區域指代機制，輸出毫米級精準空間錨點；VLX-Go則直接生成導航航點，驅動設備執行行動。三者在同一鏈路中協作，讓模型從「看懂」畫面進階到「找對」目標，再到「動起來」完成任務。在基準測試中，Seek-3B以極小的參數規模，在目標檢測與複雜語義理解上超越Gemini與GPT-5等大模型，證明專為場景設計的模型遠比壓縮通用模型更有效。技術架構上，VLX從設計起點便針對端側算力約束進行優化。Flow使用Linear Attention機制避免顯存溢出，Seek以區域指代取代座標生成降低計算量，Go則透過短時航點預測快速響應環境變化。這種不同於行業「先大後縮」的路徑，讓模型無需依賴雲端強算力，僅需國產芯片即可流暢運行，延遲從雲端的5秒降至端側的0.1秒，實現了50倍的性能差距，直接決定了系統能否在真實場景中「可用」。這套流式多模態路線已在多個領域大規模落地。在具身智能領域，VLX已支援雲深處、宇樹等機器人平台，大幅縮短跨平台適應週期；無人機巡檢則從依賴飛手人工操作轉為自主視覺導航與避障，響應時間從小時級縮短至秒級。此外，可穿戴設備服務近10萬視障用戶，安防攝像頭無需更換硬體即可升級為24小時AI哨兵，AI PC也因適配蘋果、聯想等品牌而具備實時視覺理解能力。 Om AI聯匯的技術路線，驗證了一條不同於數字AI的架構邏輯：當模型必須跑在端側、必須實時響應、必須自主決策時，「大」反而成為包袱。VLX以小型參數實現旗艦級精度，並透過針對國產芯片的優化，避免對海外高端硬體的依賴。這不僅降低部署成本，更讓物理AI從Demo展示邁向量產交付，為產業鏈協同創新提供更低的研發門檻與更大的想像空間。總結來說，黃仁勳揭示了物理AI的願景，而Om AI聯匯以VLX系列給出了具體答案：用流式架構為物理世界重新設計AI。從2016年深耕生成式對話，到2022年拿下國內首張多模態大模型測評證書，該團隊持續積累底層技術，最終推出適配真實場景、可穩定運行的成熟系統。當行業仍聚焦於雲端模型競賽時，VLX已展現出在端側運行、百萬級設備驗證後的實用價值，為物理AI的普及樹立了可參考的範本。

原始來源：智東西 ↗

查看原始來源

36氪生成式AI

Claude Fable 5，名存實亡

assistant: 根據提供的內容，這似乎是一則關於AI模型服務的報導或評論。摘要如下：Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛閱讀分析

智東西生成式AI

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作，涵蓋基礎設施、平台服務、業務合作及垂直行業，藉此拓展全球市場。Kimi B端負責人黃震昕透露，公司提供業界最高人均算力，B端業務快速增長，並在Token效率、長程推理及Agent集群等方面取得技術突破，目標是與海外頂尖模型競爭。他預測，雖然算力成本上漲推升模型價格，但技術優化將持續提升性價比。

5 小時前閱讀分析

雷峰網生成式AI

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

告別盲目刷榜，28頁 PPT 帶你摸透 ICML 新風向。作者丨陳淑瑜編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇，幾近翻倍。然而，最終的接收率卻牢牢釘在 26.56%，與去年幾乎持平。這一數據傳遞出一個明確的信號：並非競爭變得盲目激烈，而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前閱讀分析

智東西生成式AI

獨家：阿里全面禁用Claude

智東西作者 | 李水青編輯 | 雲鵬智東西7月3日獨家獲悉，今日，阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品，包括Sonnet、Opus、Fable等多個系列模型，以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前閱讀分析

智東西生成式AI

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資，阿里、騰訊、百度均參與投資，快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次，2025年營收約11億元，年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵，並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前閱讀分析

MarkTechPost AI生成式AI

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道，支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF，並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料，並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前閱讀分析

相關文章

Claude Fable 5，名存實亡

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

獨家：阿里全面禁用Claude

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道