深度估計準確率衝上0.9,Meta提出VLM³,論證視覺模型天生會學3D,以Qwen3-VL-4B為基礎實現多任務的統一建模

重點摘要
這篇消息聚焦「深度估計準確率衝上0.9,Meta提出VLM³,論證視覺模型天生會學3D,以Qwen3-VL-4B為基礎實現多任務的統一建模」。原始導語提到:在多項任務中媲美甚至超越專家視覺模型 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
## Meta 與普林斯頓聯手推出 VLM³:僅用文本與文字座標,讓標準視覺語言模型「天生就會學 3D」
在電腦視覺領域,三維空間感知一直被視為極具挑戰的研究方向。從二維影像中還原真實世界的深度資訊、幾何結構與空間關係,向來需要為特定任務量身打造的專家模型——不論是特殊的網路架構、複雜的損失函數,還是大量繁瑣的資料增強。然而,Meta 與普林斯頓大學近期提出的 VLM³(VLM Cubed)框架,正在改寫這項認知。
研究團隊的核心論點相當大膽:**標準的視覺語言模型本質上就是優秀的三維學習者,不需要為 3D 任務做任何架構或損失函數上的改造**。這項研究已發表於預印本平台 arXiv,並同步公開 GitHub 程式碼實作,立刻引起 AI 社群的廣泛討論。
VLM³ 最引人注目的成果,是將視覺語言模型的深度估計準確率大幅推進,δ₁ 平均精度從前一代 DepthLM 的 0.84 一舉提升至 **0.90**,與專業深度估計模型 UnidepthV2 並駕齊驅。更令人驚豔的是,在相機位姿估計任務上,VLM³ 將 AUC₃₀° 指標從接近隨機水準的 **5% 大幅提升至 94%**,超越了 VGGT,並達到與 DA3-Giant 相當的水準。此外,在像素匹配任務上,VLM³ 也將端點誤差降低了一個數量級,超越了 DKM 和 RoMa 等經典專家模型。
## 三大核心設計:焦距統一化、文本像素參照與資料混合
VLM³ 之所以能用如此簡潔的方式實現強大的三維感知能力,關鍵來自三個核心設計。首先是 **「焦距統一化」** ,研究團隊將輸入影像的焦距重新縮放為固定數值(例如 1,000 像素),藉此解決不同相機內參帶來的歧義問題,無需為模型添加任何額外的編碼器模組。
第二個設計是 **「基於文本的像素參照」** 。傳統 3D 模型需要複雜的視覺提示或標記渲染,但 VLM³ 直接在文本中使用標準化的像素範圍來描述物體或像素位置,例如以 [0, 2000) 表示水平與垂直軸的座標範圍。這種方式完全不改變模型架構,也讓模型在擴展上變得極具彈性。
第三個關鍵則是 **「資料混合與規模擴張」** 。研究團隊構建了一套涵蓋單視圖與多視圖場景的混合資料體系,涵蓋公制深度估計、物體級三維理解以及像素匹配與相機位姿估計三大任務。在深度估計任務中,資料來源包含 Argoverse2、Waymo、NuScenes、ScanNet++ 等主流三維場景資料庫,還額外引入了 1,000 萬張自建室外街景影像,**將訓練規模從 1,600 萬張擴張至 2,600 萬張**,最終模型共使用約 3,200 萬張影像進行訓練。
## 四大任務統一建模:從深度估計到物體級三維理解
VLM³ 最顯著的突破之一,是透過統一的資料組織方式與訓練範式,同時完成物體級三維理解、公制深度估計、像素匹配以及相機位姿求解 **四類任務**,並在多項任務中媲美甚至超越專家視覺模型。
在物體級三維理解方面,VLM³-4B 在 SpatialRGPT 評測基準上,以更精簡的架構超越了參數規模更大的 SpatialRGPT-8B,無需使用額外的編碼器。在像素匹配與相機位姿估計上,研究團隊將基線模型的端點誤差降低了一個數量級,同時顯著提升了位姿估計的準確率。這種「一魚多吃」的統一建模能力,意味著一個基礎模型就能同時勝任過去需要多個專業模型才能完成的三維感知任務,大幅降低了開發與部署的複雜度。
## 以 Qwen3-VL-4B 為基礎:阿里巴巴的視覺語言模型成關鍵基石
值得注意的是,VLM³ 是以阿里巴巴 Qwen 團隊推出的 **Qwen3-VL-4B** 作為基底模型進行開發。Qwen3-VL 是 Qwen 系列迄今效能最強的視覺語言模型,家族涵蓋從 2B、4B、8B 到 32B 的稠密模型以及混合專家模型版本,其中 4B 版本在參數規模與效能之間取得了良好的平衡。
Qwen3-VL 的核心優勢之一在於其高達 **256K token 的原生上下文視窗**,能夠無縫交織處理文字、圖片與影片輸入,同時在視覺理解與空間推理能力上進行了系統性升級。以 Qwen3-VL-4B 為基礎的 VLM³,證明了一個參數規模僅 40 億的標準視覺語言模型,無需任何架構改造或損失函數調整,就能在複雜的三維感知任務上與更大規模的專家模型競爭,甚至表現更為出色。
## 打破「專家模型迷思」:視覺語言模型的新典範即將來臨?
VLM³ 的出現,向學術界與產業界提出了深刻的挑戰與反思。過去三維視覺領域的主流認知是:**大型模型、任務專屬架構、複雜損失函數以及繁重資料增強,都是實現高精度三維感知的必要條件**。但 VLM³ 的研究團隊透過大規模實驗證明了這些要素其實並非必要,一個標準的視覺語言模型加上統一的輸出域(文字)與資料規模擴張,就能勝任過去需要多種專門管線才能完成的任務。
這項研究團隊由 Meta 與普林斯頓大學的學者組成,包括 Zhipeng Cai、Zhuang Liu、Yunyang Xiong、Zechun Liu、Vikas Chandra 與 Yangyang Shi。團隊在論文中明確指出:「相信 VLM³ 為簡潔且可擴展的三維學習開創了新典範」。這個觀點如果獲得更多驗證,未來三維視覺領域的研發方向可能會出現重大轉向——從「為每個任務設計專門模型」轉向「用統一基礎模型解決所有問題」。
## 對產業的影響與讀者可關注的後續發展
從應用的角度來看,VLM³ 的技術路線如果順利落地,對 **自駕車、機器人導航、擴增實境與三維重建** 等領域的影響將相當深遠。過去這些領域需要同時部署多個專業模型來分別處理深度估計、位姿求解與物體辨識,不僅系統複雜度高,開發與維護成本也相當可觀。VLM³ 證明了單一標準視覺語言模型就能同時完成這些任務,有望大幅簡化系統架構,降低部署門檻。
對於關注這項技術的讀者,以下是幾個可以持續追蹤的後續方向:
- **VLM³ 在多種場景下的泛化能力驗證**:研究團隊使用的訓練資料涵蓋室內外多種場景,但實際部署面臨的長尾場景與邊角案例仍是檢驗模型穩健性的關鍵。
- **模型規模與效能的進一步擴展**:目前 VLM³ 是以 Qwen3-VL-4B 為基礎,未來若採用 Qwen3-VL-8B、32B 甚至 235B 的 MoE 版本,效能是否有進一步的提升空間,值得關注。
- **開源社群的回饋與迭代**:Meta 已將 VLM³ 的官方實作開源在 GitHub 上,未來隨著更多開發者參與測試與改進,模型的實用性與應用場景將會持續擴大。
- **同領域競爭技術的發展**:近期 DepthVLM、SenseNova-U1 等統一多模態模型也相繼提出類似概念,VLM³ 能否在後續的評測基準中持續保持領先,將是檢驗「統一基礎模型」路線是否可行的關鍵指標。
Related
相關文章

ABot-Earth0.5登頂Hugging Face論文三榜第一,獲國際圖形學權威陳寶權好評
這篇消息聚焦「ABot-Earth0.5登頂Hugging Face論文三榜第一,獲國際圖形學權威陳寶權好評」。原始導語提到:能夠直接導入Unity、Unreal Engine等主流引擎進行交互開發 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AMD:RX 7000 顯卡上基於 INT8 的 FSR 超分辨率 4.1 質量齊平 FP8 版本
AMD 宣布 RX 7000 系列顯卡採用 INT8 指令集的 FSR 超解析度 4.1 版本,畫質可與 FP8 版本並駕齊驅。至於 RDNA 2 架構的 RX 6000 系列,因需仰賴傳統流處理器運算,技術支援推出時間將會延後。

劍橋大學等提出面向對地觀測任務的像素級基礎模型,在多項任務中精度達SOTA
這篇消息聚焦「劍橋大學等提出面向對地觀測任務的像素級基礎模型,在多項任務中精度達SOTA」。原始導語提到:在低標註與稀疏數據下展現優勢 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
亞馬遜深耕視覺搜索:AI 重塑網購導航與拼貼式購物體驗
亞馬遜近期升級其購物應用,強化視覺搜索和智能交互能力,幫助消費者在海量商品中高效鎖定目標。這得益於對視覺識別技術的持續投入,2024年推出的Amazon Lens功能允許用戶通過圖片搜索,並結合文本進一步精準篩選商品。

廢片也能變大片,北大開源首個「美學照片重構」模型
北京大學提出「美學照片重構」任務,並開源相關數據集與 AesFormer 模型,讓一般廢片也能轉變為具美感的圖片。此模型專注於提升照片的視覺吸引力,為影像處理領域帶來創新。

全球首個:高德發佈 3D 原生城市世界模型 ABot-Earth0.5,單圖 10 分鐘重建 3D 城市
該模型已建成覆蓋 190 多個國家的全球最廣 3D 地圖,輸出素材可直接導入主流遊戲引擎。其製圖成本僅為傳統 1%,效率提升約千倍,有望為具身智能、低空經濟及應急救援提供基礎支撐。#高德地圖# #3D 建模#