CVPR 2026現場直擊：CV與機器人的物理結界被徹底打破

2026年6月5日 10:47

重點摘要

站內 AI 整理稿

6月4日，當維也納多瑙河畔的 ICRA 2026 進入正會的最後一天，大洋彼岸的美國丹佛科羅拉多會議中心（Colorado Convention Center）已經人聲鼎沸。許多我們前幾天還在維也納見到的熟悉面孔，各大頂尖高校的學者和硬科技企業的高管，此刻都正拖著行李箱，馬不停蹄地出現在丹佛的街頭。這種罕見的“全球雙城趕場”現象背後，是計算機視覺（CVPR）與機器人（ICRA）兩大頂會賽道正在發生的史詩級大融合。今年的 CVPR 在丹佛當地時間 6月3日至4日率先開啟 Workshop 環節，正會及重磅頒獎典禮則在 6月5日正式拉開帷幕，雷峰網已提前抵達第一現場，為您帶來這份滾燙的展前觀察。011.6萬篇投稿的“諸神之戰”：從感知世界，到理解物理最新官方數據顯示，本屆 CVPR 2026 的論文投稿量達到了驚人的 16,092 篇，較上一年激增 24%，而最終錄用量在 4,090 篇左右，錄用率依舊維持在殘酷的 25.42% 上下。翻看今年的論文列表與 Workshop 議程，如果說前兩年的 CVPR 還在捲圖像生成和 2D 檢測，那麼今年丹佛的核心敘事已經徹底轉向了“多模態基礎模型”與“具身智能”。在擠滿人的分會場裡，這種趨勢尤為明顯。無論是探討如何將視覺-語言-動作（VLA）模型部署到自動駕駛和機器人上的 WDFM-EAI（具身智能基礎模型部署）Workshop，還是引入了真實機器人操控挑戰賽（ManipArena Competition）的具身智能專場，都在傳遞一個極其明確的信號：計算機視覺已經走出了“畫框識別”的屏幕舒適區，全面向具有物理法則的真實三維世界進軍。視覺系統不再僅僅滿足於“看（Sense）”，而是開始作為中樞大腦主導“行動（Act）”。中國高校的論文產出量也折射出這股浪潮的烈度。最新統計顯示，CVPR 2026 高校論文接收 Top 10 中，中國高校佔據八席：上海交通大學以 46 篇高居榜首，浙江大學 40 篇緊隨其後，中國科學技術大學 38 篇位列第三，中山大學以 36 篇超越北大、清華衝入前四，堪稱本屆最大黑馬。更為驚人的是西湖大學。僅 4 位學者合力產出 22 篇，以“閃電戰”模式躋身第十，人均效率冠絕全場。02CVPR的中國軍團：大廠坐鎮，新銳出海，重塑生態話語權在去年的頂會上，中國學者的論文數量就已佔據半壁江山。而在今年的丹佛，這種中國力量同樣體現在產業端和生態鏈的每一個環節。今年在丹佛布展的中國公司，覆蓋了互聯網、大模型、機器人、智能駕駛四大領域：字節跳動、阿里巴巴、螞蟻集團、騰訊、美團、元戎啟行、百度、MiniMax、宇樹科技、光輪智能、自變量。我們現場還看到了官方的贊助商名單，堪稱一份中國 AI 實力的“巡禮圖”：終極贊助商與白金陣營：騰訊強勢拿下最高級別的 Ultimate Sponsor；在白金贊助商中，阿里雲、螞蟻集團、字節跳動悉數在列，體現了中國科技巨頭在算力與大模型上的統治力。更引人注目的是，國內大模型獨角獸 MiniMax 也躋身白金行列，展示了中國多模態大模型企業強勁的出海與科研反哺實力。黃金與白銀陣營：如果說大廠代表了底氣，那麼具身智能等垂直賽道的初創公司則代表了銳氣。在這個區間，我們看到了令人驚喜的本土生態網：Sudo（蘇度科技）：由知名學者蘇昊教授創辦的具身智能明星公司，高調亮相丹佛，帶來其在強化學習與物理仿真領域的最新降維打擊。此前雷峰網編輯在ICRA 2026展會現場報道，蘇度科技機器人已能夠準確抓取不同材質和形態的物體，泛化性極高。Linkerbot：總部位於北京的中國明星機器人創企，專注於高自由度靈巧手及具身智能硬件研發。Nexdata（數據堂國際品牌）：在數據為王的今天，他們直接端出了行業最緊缺的 VLM 數據集及靈巧手物理遙操作數據，精準卡位“數據基建”。HPC AI COM（潞晨科技）：尤洋教授團隊帶來的 Colossal-AI 系統，正在為全球開源大模型與視頻生成（如 Open-Sora）提供底層彈藥。百度（Baidu）與美團（Meituan）也出現在黃金贊助商陣營，進一步壯大了中國軍團的陣容。從提供算力和基礎架構（阿里雲、潞晨），到多模態基座大模型（MiniMax、字節），再到數據集（Nexdata）和具身智能本體硬件（蘇度、Linkerbot），中國企業在 CVPR 2026 的舞臺上，已經完全撕掉了過去“底層代工”的標籤，構建起了一條堅不可摧的“軟硬一體全棧 AI 產業鏈”。03Workshop 密集開火：中國企業從“參會”走向“設局”如果說贊助商名單是實力的名片，那麼 Workshop 才是真正爭奪話語權的主戰場。在 CVPR 2026 為期三天的 Workshop 環節中，超過 80 場專題研討會密集開火，其中中國企業與機構不再只是“到場聽講”，而是越來越多地以組織者身份親自“設局”，把議題方向和評審標準攥在自己手裡。WDFM-EAI：特斯拉與小鵬“純視覺雙雄”同臺6月3日，本屆 CVPR 產業濃度最高的對話在 WDFM-EAI（具身智能基礎模型部署）Workshop 悄然上演。特斯拉 Autopilot 及 AI 負責人 Ashok Elluswamy 與小鵬汽車通用智能中心負責人劉先明，以及 Waymo 研究副總裁 Dragomir Anguelov、英偉達感知與機器人研究副總裁 Jan Kautz，罕見同臺。劉先明是現場唯一受邀的中國車企代表。這也是小鵬第三次登上 CVPR 演講臺。Ashok 的演講題目為《Building Foundational Models for Robotics at Tesla》，系統披露了 Tesla 在具身智能方向的技術積累：FSD 上下文長度從約 10 秒猛增至約 30 秒（提升 3 倍）；FSD 模型完整輸入/輸出架構首次公開亮相。現場還播放了一段 Tesla Robotaxi 瞬間避讓摔落騎行者的真實視頻，引發全場熱議，清晰傳遞出 Tesla 的戰略意圖：將自動駕駛作為更廣泛機器人與具身 AI 平臺的一部分，與 Optimus 人形機器人項目深度協同。劉先明則給出了小鵬對“模塊化堆疊 vs 端到端世界模型”之爭的明確答案：“VLA 與世界模型並非相互競爭的技術路線，而是物理世界基座模型的兩大支柱。”VLA 學的是“人類駕駛員會怎麼做”，世界模型學的是“物理世界接下來會發生什麼”，二者融合才是正解。他進一步透露，小鵬第二代 VLA 已量產落地，推送首月用戶輔助駕駛里程佔比首次突破 50%，並判斷“只有能做基座模型的公司，才有可能真的做到 L4”。OpenDriveLab：從自動駕駛到具身智能，上海 AI Lab 系連辦四屆如果說 WDFM-EAI 是產業對話場，那麼 OpenDriveLab（上海 AI Lab/商湯系）主辦的 EmbodiedAIinLife Workshop 則是學術話語權的硬核爭奪。這已經是該團隊連續第四年在 CVPR 主辦 Workshop：從 2023 年的“端到端自動駕駛”，到 2024 年的“具身智能與自動駕駛”，到 2025 年的“基礎模型與自主系統”，再到今年的“從實驗室到生活：野外具身智能”，研究視野從特定任務逐步拓展到通用具身智能。今年的嘉賓陣容堪稱全明星：蘇昊教授（蘇度科技創始人、CVPR 2025 程序主席）演講《物理理解的幻覺》；哈佛助理教授 Yilun Du 談世界模型與具身智能；UC Berkeley 的 Jiahui Lei 講從 4D 視覺到機器人；UPenn 助理教授Jiatao Gu發問“具身智能需要關心 3D 嗎？”更值得注意的是，Workshop 尾聲特別設置了嘉賓與組織者辯論環節，火藥味可見一斑。GigaBrain Challenge：真機賽道成中國團隊主場，小米斬獲雙料冠軍如果說 Workshop 演講描繪了具身智能的理論藍圖，那麼賽場上的真機對決則用硬指標給出了最直白的回答：概念能不能落地，數據說了算。由極佳視界（GigaAI）牽頭，聯合港大、北大、上海交大、地平線機器人、智元機器人（AGIBOT）等共同組織的 GigaBrain Challenge 2026，是本屆 CVPR 競賽維度最豐富的 Workshop 之一。它同時開設了四個賽道：仿真 VLA 評測（RoboTwin）、世界模型評估器（GigaWorld）、真機機器人操控（RoboChallenge）和物理爪持演示（PhysClaw），從仿真到真機、從評估到部署，構成了一條完整的具身智能能力驗證鏈路。這個 Workshop 也成了中國團隊的主場：小米拿下 RoboChallenge 真機賽道冠軍（40.89% 成功率，唯一破 40%成功率），電子科技大學拿下 RoboTwin 仿真賽道冠軍，清華大學拿下世界模型賽道冠軍，清華深研院拿下 PhysClaw 演示賽道冠軍。中國團隊在四個賽道中包攬全部冠軍，這在 CVPR 歷史上極為罕見。值得一提的是，小米機器人團隊同時斬獲本屆 CVPR 2026 與 ICRA 2026 兩項冠軍，成為丹佛與維也納雙城最耀眼的“中國賽果”。RoboChallenge Track共設置 30 個超難度真實任務，涵蓋雙臂靈巧操作、柔性物體操控、工具因果推理與跨平臺魯棒性，需進行 10 次連續無干擾測試，且要求提交統一多任務模型。在這對泛化性要求極高的賽事中，小米參賽模型“my16”殺出重圍，它採用“S1/S2 雙系統 + 長短期記憶 + 跨本體預訓練”的整體架構，融合了大模型的認知深度、控制器的執行精度與記憶系統的長程穩定性。最終，my16以 40.89% 的整體成功率顯著領先，是本屆賽事唯一突破 40% 成功率門檻的模型，綜合排名位列總榜第一。04現場直擊：F 展廳首秀與巴黎響應為了讓參會者更直觀地感受技術如何轉化為現實應用，CVPR 2026 歷史上首次在 F 展廳推出“AI Demonstrations”環節。近 30 場來自各大科技公司和研究團隊的現場演示，將實驗室裡的前沿論文變成可交互、可運行的真實系統。不少參會者戲稱：“這才是 CVPR 的正確打開方式——不看 poster，看真機。”而在丹佛主會場之外，一股“平行浪潮”同樣值得關注。大量無法赴美的歐洲學者，在巴黎自發組織了 CVPR@Paris 2026 平行活動，其講者名單含金量極高，包括多位 CV 領域頂尖學者，近年來在多模態與視覺大模型領域頻出爆款的香港大學李弘揚教授（Hongyang Li）在ICRA、CVPR兩大頂會趕場的同時，也受邀成為 CVPR@Paris 2026 的嘉賓，即將登臺分享。這一方面折射出 CVPR 的全球影響力已溢出丹佛會場，另一方面也暗示著：計算機視覺這場“諸神之戰”，早已不再侷限於某一個地理座標。CVPR正會將在當地時間6月5日開始，屆時開幕式上也將會頒佈一系列獎項，雷峰網將會持續關注。05鎖定雷峰網專區，獨家搶先透視從 ICRA 的維也納，到 CVPR 的丹佛，技術的浪潮正在前所未有地加速。純視覺如何抹平 Sim-to-Real 的虛實差異？視覺大模型如何學會理解 3D 空間結構與反常識的物理碰撞？VLA 與世界模型的融合終局在哪裡？為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整乾貨，雷峰網已全面上線【CVPR 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方的第一手會議動態。掃描下方二維碼，或點擊「閱讀原文」關注專區。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前閱讀分析

相關文章