CVPR 2026 模型適應性研究盤點：從保留舊知識，到適應真實世界

2026年6月12日 06:25

重點摘要

站內 AI 整理稿

穩定性，正在成為大模型落地的關鍵命題。作者丨鄭佳美編輯丨馬曉寧當 AI 模型從“單次完成任務”走向真實世界部署時，真正的挑戰不再只是參數規模和單點性能，而是模型能否在變化中保持穩定。它要在持續出現的新類別中不遺忘舊知識，要從大規模真實數據中獲得更強的泛化能力，要在多客戶端、數據分佈不斷變化的環境下繼續學習，也要把圖像、視頻和 3D 等不同視覺經驗組織成統一理解。這種變化也體現在 CVPR 2026 的相關研究趨勢中。越來越多工作不再只追求某個單一任務上的性能提升，而是更關注模型在長期學習、真實數據、分佈變化和多模態協同中的穩定性與適應能力。換句話說，模型不僅要“會做”，還要能在複雜環境中持續做得好。這一趨勢背後，反映的是大模型研究正在從“能力擴張”進入“能力管理”階段。模型不僅要學得多，還要知道哪些舊知識值得保留，哪些經驗可以遷移，哪些特徵需要對齊，哪些模態能夠互相補充。無論是持續學習、數字人建模、聯邦學習，還是統一大視覺模型，研究者真正關心的都是同一個問題：如何讓 AI 在複雜、動態、不完整的現實環境中，依然保持可泛化、可適應、可協同和可持續進化的能力。01從樣本回放到跨視覺協同《Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning》關注的是基於預訓練模型的類增量學習問題，相關研究來自北京郵電大學信息與通信工程學院和教育部信息網絡工程研究中心。論文主要研究如何讓模型在不斷學習新類別的同時，儘量保留舊類別知識，減少災難性遺忘。類增量學習的難點在於，模型會按任務順序不斷接觸新類別，但測試時通常不知道樣本來自哪個任務。隨著任務數量增加，不同任務的特徵空間可能發生重疊，新任務學習容易覆蓋舊任務知識，導致模型對舊類別識別能力下降。近年來，基於預訓練模型的類增量學習方法通常會凍結主幹網絡，只訓練輕量級的 prompt 或 adapter 模塊，以降低訓練成本並保持基礎表示能力。但論文指出，現有方法往往缺少明確的任務交互機制：prompt 選擇容易受相似度噪聲影響，adapter 又常常把不同任務看成彼此獨立的子空間，難以判斷新樣本應該借用哪些舊任務知識。針對這一問題，論文提出了 QKD，也就是 Quantum-Gated Task-interaction Knowledge Distillation。它的核心思路是用量子門控機制來建模樣本與不同任務之間的相關性，再根據這種相關性指導知識蒸餾和推理時的 adapter 融合。簡單來說，模型不僅要學習新任務，還要判斷哪些舊任務和當前樣本更相關，從而有選擇地吸收舊知識，減少無關任務帶來的干擾。方法上，論文先為每個任務構建 task embedding，並通過參數化量子電路把樣本特徵和任務表示映射到更高維的 Hilbert 空間中，用量子門控輸出樣本到各任務的相關性權重。隨後，這些權重會被用於 task-interaction knowledge distillation，讓當前 adapter 從更相關的歷史 adapter 中學習特徵信息，而不是平均吸收所有舊任務知識。在推理階段，論文繼續複用這些量子門控得到的相關性權重，用來進行自適應 adapter 融合。這樣訓練和測試使用的是同一套任務相關性估計機制，可以減少訓練階段知識遷移和測試階段任務路由之間的不一致問題。實驗方面，論文在 CIFAR-100、CUB-200、ImageNet-A、ImageNet-R 和 VTAB 等多個無樣本回放類增量學習基準上進行了驗證。雷峰網結果顯示，QKD 能夠提升最終準確率和平均增量準確率，並且在多種設置下達到領先或有競爭力的表現。消融實驗也表明，用量子門控替代普通餘弦相似度或神經網絡控制器後，模型能更好地捕捉複雜任務關係。這篇論文的亮點在於，它把量子門控機制引入到類增量學習中的任務路由和知識蒸餾過程。相比簡單地保存舊知識或獨立訓練不同任務 adapter，QKD 更關注任務之間的相關性建模，讓模型在學習新類別時有選擇地遷移舊任務知識。總體來看，這項工作為預訓練模型時代的持續學習提供了一種新的思路：模型不僅要避免遺忘，還要學會判斷“哪些舊知識值得被當前任務繼承”。論文地址：https://arxiv.org/pdf/2604.11112v1如果說這項工作關注的是模型在不斷學習新任務時如何保留舊知識，那麼《Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining》則把視角轉向了大規模預訓練在 3D 數字人建模中的作用。雷峰網它同樣關心模型如何從大規模數據中獲得更強的泛化能力，只不過應用對象從分類任務轉向了可驅動的高質量數字人。論文主要研究如何在真實世界輸入下，快速生成既能保持身份特徵、又能進行精細表情和全身動作驅動的 3D 數字人。這項任務的核心難點在於，高保真和強泛化之間長期存在矛盾。基於多視角影棚數據的方法通常能生成細節豐富、表情和動作控制精確的數字人，但採集成本高，也很難泛化到普通用戶隨手拍攝的真實世界視頻。而基於大規模野外數據訓練的方法雖然泛化範圍更廣，但由於 3D 信息不完整，生成結果往往容易出現模糊、結構變形或細節不足的問題。論文地址：https://arxiv.org/pdf/2604.02320v2針對這一問題，論文提出了 Large-Scale Codec Avatars，也就是 LCA 框架。它借鑑大語言模型和視覺基礎模型中的“預訓練 + 後訓練”思路，先在 100 萬個真實世界單目人物視頻上進行大規模預訓練，學習人體外觀和幾何的通用先驗；再用高質量多視角影棚數據進行後訓練，提升模型的可驅動性、3D 完整性和視覺保真度。方法上，LCA 會從全身圖像和麵部特寫中提取圖像 token，同時從模板人體網格中提取幾何 token。模型通過圖像注意力、幾何注意力和多模態注意力融合不同來源的信息，再由 3D Gaussian 解碼器生成數字人的幾何和外觀屬性。解碼器分為 canonical 分支和 pose-dependent 分支，前者負責靜態身份與外觀，後者負責表情、眼神、手部姿態和服裝形變等動態變化。論文還展示了 LCA 的擴展能力。通過較小改動，它可以支持寬鬆服裝變形和重新打光等功能，並且在沒有直接監督的情況下，對眼鏡、帽子、不同髮型、不同服裝甚至風格化角色都有較好的泛化能力。實驗結果顯示，LCA 在多視角和單視角輸入下都優於已有 3D 數字人方法，在面部細節、手指動作、身體姿態和身份保持方面表現更穩定。這篇論文的亮點在於，它把 3D 數字人建模從“小規模高質量採集”推進到“大規模預訓練驅動”的新範式。LCA 不只是提高了某個數字人模型的效果，而是證明了大規模預訓練同樣可以幫助 3D avatar 同時獲得泛化能力和高保真表現。總體來看，這項工作讓數字人更接近真實應用場景：用戶只需要少量普通圖像或視頻，就有可能快速生成一個可實時驅動、可保持身份、可表達細膩表情和動作的高質量 3D 數字人。從持續學習到數字人預訓練，前面兩項工作都在討論模型如何在複雜數據和真實應用條件下保持穩定能力。接下來，《From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity》進一步把問題放到聯邦學習場景中，關注多個客戶端、數據不斷變化、歷史樣本有限時，模型該如何更穩健地持續學習。論文主要研究的是：在多個客戶端不斷學習新任務的過程中，如何更有效地利用有限的歷史樣本，減少模型對舊知識的遺忘，同時緩解不同客戶端數據分佈持續變化帶來的影響。這項任務的難點在於，聯邦學習中的客戶端通常不能共享原始數據，而且每個客戶端看到的數據類別和分佈並不一致。隨著新任務不斷到來，模型很容易被新類別影響，逐漸忘記過去學過的舊類別。以往的樣本回放方法大多關注“應該保存哪些代表性樣本”，但論文指出，僅僅選出樣本還不夠，更關鍵的是如何在訓練和推理階段更好地使用這些樣本。論文地址：https://arxiv.org/pdf/2604.08617v1針對這一問題，論文提出了 FEAT，也就是聯邦幾何感知校正方法。它的核心思路是從特徵空間的幾何結構入手，緩解客戶端之間的數據異質性和類別不平衡問題。簡單來說，模型不僅要記住過去任務中的樣本，還要讓不同客戶端、不同任務學到的特徵結構儘量保持一致，避免少數類特徵被多數類“拉偏”。方法上，FEAT 包含兩個關鍵模塊。第一個是 Geometric Structure Alignment，用固定共享的 ETF 原型作為參考結構，對齊特徵之間的角度關係，從而讓不同客戶端和不同任務中的類別特徵保持更穩定的幾何分佈。第二個是 Energy-based Geometric Correction，它在推理階段移除與當前任務無關的方向成分，減少模型對多數類的偏向，提高對少數類和舊類別的識別能力。實驗中，論文在 CIFAR10、CIFAR100 和 TinyImageNet-Subset 等數據集上進行驗證，並設置了不同客戶端數量、任務劃分和異質性程度。結果顯示，FEAT 能夠在多種設置下提升 Top-1 Accuracy，並且可以與 Re-Fed+、FedCBDR 等已有樣本回放方法結合使用，在保持較低通信開銷的同時進一步提升性能。這篇論文的亮點在於，它沒有繼續把重點放在“如何挑選回放樣本”上，而是進一步思考“選出來的樣本該如何被更有效地使用”。通過幾何結構對齊和推理階段校正，FEAT 讓聯邦持續學習在面對動態異質性和類別不平衡時更加穩定。總體來看，這項工作為資源受限、多客戶端、任務持續變化的實際聯邦學習場景提供了一種更精細、更穩健的樣本回放增強方案。如果說 FEAT 關注的是多客戶端、多任務環境下的持續學習穩定性，那麼《Modeling Cross-vision Synergy for Unified Large Vision Model》則進一步討論大視覺模型如何在更廣泛的視覺模態之間建立協同關係，它面對的問題不再只是“如何保留舊知識”，而是如何讓圖像、視頻和 3D 這幾種視覺經驗真正互相補充。相關研究來自新加坡國立大學和南洋理工大學。論文主要研究如何讓一個大視覺模型同時處理圖像、視頻和 3D 數據，並且不是簡單地把不同模態放進同一個框架裡，而是讓它們之間真正形成互補和協同。這項任務的背景在於，圖像、視頻和 3D 場景雖然形式不同，但本質上都來自視覺世界。圖像更擅長提供顏色、紋理、佈局等靜態信息，視頻包含運動和時間變化，3D 數據則能提供空間結構、距離和幾何關係。以往的統一視覺模型大多追求“功能整合”，也就是讓一個模型能接收多種視覺輸入，但不同模態之間缺少深入交互，模型很難把視頻中的時間先驗、3D 中的空間先驗和圖像中的視覺細節真正結合起來。論文地址：https://arxiv.org/pdf/2603.03564v1針對這一問題，論文提出了 PolyV 框架，目標是實現跨視覺協同。它採用稀疏 MoE 架構，並通過動態路由器協調不同專家模塊，讓每個專家學習特定模態的先驗知識，同時又能在圖像、視頻和 3D 之間進行雙向交互和相互補充。也就是說，模型不是把不同模態的特徵簡單拼接起來，而是讓不同模態中的知識在推理過程中互相影響、互相增強。訓練上，論文設計了協同感知訓練流程。第一階段是模態特定預訓練，讓模型分別學習圖像、視頻和 3D 數據中的基礎能力；第二階段是跨視覺協同訓練，包括粗粒度和細粒度兩個層面。粗粒度訓練通過知識蒸餾引入視頻基礎模型和 3D 基礎模型中的時間、空間先驗；細粒度訓練則進一步對齊不同模態中的對象屬性、空間關係和事件一致性，使模型能在更細的層面上建立跨模態對應關係。論文還引入了 synergy token，讓模型在生成最終回答之前先形成一種中間的“協同表示”。這種設計相當於讓模型先綜合來自不同視覺模態的補充信息，再進行回答，從而提升它在空間推理、時間推理和跨模態理解任務中的表現。實驗中，PolyV 在圖像、視頻和 3D 理解相關的 10 個代表性基準上進行了驗證，包括 MMStar、3DSRBench、MMSI-Bench、VideoMME、VSI-Bench、CVBench、ScanQA、SQA3D 和 Open-EQA 等任務。結果顯示，PolyV 在多個任務上都優於已有模型，並且相比其基礎模型 Qwen2.5-VL-7B，平均提升約 10%。這篇論文的亮點在於，它把統一視覺模型從“能處理多種輸入”推進到“能讓多種視覺模態彼此協同”。過去的模型可能只是分別理解圖像、視頻或 3D，而 PolyV 試圖讓模型利用視頻中的運動知識增強圖像推理，用 3D 中的幾何知識增強空間理解，再通過 MoE 和協同訓練機制實現更靈活的視覺推理。總體來看，這項工作強調的是下一代大視覺模型的一個重要方向：模型不僅要看得多，還要能把不同視覺經驗組織起來，形成更接近人類視覺系統的綜合理解能力。去哪看 CVPR 核心【演講/論文】詳解？為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整乾貨，雷峰網已全面上線【CVPR 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。掃描下方二維碼，或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析