智東西生成式AI

黃仁勳的物理AI ChatGPT時刻,正被這家中國公司的“流式多模態”接棒

2026年7月1日 10:10

重點摘要

黃仁勳在CES 2026宣布物理AI的ChatGPT時刻到來,強調AI需走出屏幕理解物理世界。中國公司Om AI聯匯推出VLX系列端側流式多模態模型,實現持續感知、精準定位與行動輸出的閉環,並在機器人、無人機等場景落地。該模型以較小參數在端側達到優異性能,大幅優於傳統大模型方案。

站內 AI 整理稿

根據智東西的報導,黃仁勳在2026年CES展會上宣告物理AI的ChatGPT時刻正式到來,這標誌著人工智慧從感知、生成到代理階段,最終邁向理解物理世界的新紀元。他強調,AI若要走出螢幕,必須能夠理解質量、摩擦、慣性等物理定律,並建立一整套智能系統來驅動機器人、無人機等終端。然而,這一願景的核心挑戰在於:物理世界需要的非被動問答,而是主動執行與持續感知的能力。這正是中國公司Om AI聯匯推出的「流式多模態」模型系列試圖接棒的關鍵技術路徑。 Om AI聯匯的VLX系列模型,以通用視覺智能為基礎,定義了三項核心能力:持續感知、空間精準定位與直接行動輸出。這與傳統模型「採集-上傳-離線處理」的模式截然不同。VLX採用流式視頻輸入架構,讓模型能像人一樣不間斷觀察環境,無需人工干預即可自主運行。這種設計不僅實現了毫秒級實時感知,更首次在端側打通從感知到決策的完整閉環,為物理AI的規模化落地提供了現實可行的技術基礎。 VLX系列包含三個子模型:VLX-Flow負責持續感知,提供不間斷的時序記憶;VLX-Seek透過區域指代機制,輸出毫米級精準空間錨點;VLX-Go則直接生成導航航點,驅動設備執行行動。三者在同一鏈路中協作,讓模型從「看懂」畫面進階到「找對」目標,再到「動起來」完成任務。在基準測試中,Seek-3B以極小的參數規模,在目標檢測與複雜語義理解上超越Gemini與GPT-5等大模型,證明專為場景設計的模型遠比壓縮通用模型更有效。 技術架構上,VLX從設計起點便針對端側算力約束進行優化。Flow使用Linear Attention機制避免顯存溢出,Seek以區域指代取代座標生成降低計算量,Go則透過短時航點預測快速響應環境變化。這種不同於行業「先大後縮」的路徑,讓模型無需依賴雲端強算力,僅需國產芯片即可流暢運行,延遲從雲端的5秒降至端側的0.1秒,實現了50倍的性能差距,直接決定了系統能否在真實場景中「可用」。 這套流式多模態路線已在多個領域大規模落地。在具身智能領域,VLX已支援雲深處、宇樹等機器人平台,大幅縮短跨平台適應週期;無人機巡檢則從依賴飛手人工操作轉為自主視覺導航與避障,響應時間從小時級縮短至秒級。此外,可穿戴設備服務近10萬視障用戶,安防攝像頭無需更換硬體即可升級為24小時AI哨兵,AI PC也因適配蘋果、聯想等品牌而具備實時視覺理解能力。 Om AI聯匯的技術路線,驗證了一條不同於數字AI的架構邏輯:當模型必須跑在端側、必須實時響應、必須自主決策時,「大」反而成為包袱。VLX以小型參數實現旗艦級精度,並透過針對國產芯片的優化,避免對海外高端硬體的依賴。這不僅降低部署成本,更讓物理AI從Demo展示邁向量產交付,為產業鏈協同創新提供更低的研發門檻與更大的想像空間。 總結來說,黃仁勳揭示了物理AI的願景,而Om AI聯匯以VLX系列給出了具體答案:用流式架構為物理世界重新設計AI。從2016年深耕生成式對話,到2022年拿下國內首張多模態大模型測評證書,該團隊持續積累底層技術,最終推出適配真實場景、可穩定運行的成熟系統。當行業仍聚焦於雲端模型競賽時,VLX已展現出在端側運行、百萬級設備驗證後的實用價值,為物理AI的普及樹立了可參考的範本。

Related

相關文章

Claude Fable 5,名存實亡

assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛
智東西生成式AI

對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。

5 小時前
雷峰網生成式AI

算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?

告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前
智東西生成式AI

獨家:阿里全面禁用Claude

智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前
智東西生成式AI

超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前
MarkTechPost AI生成式AI

RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道,支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF,並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料,並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前