CVPR 2026 圖像編輯趨勢梳理：從參考一張圖，到融合整個視覺世界

2026年5月29日 07:13

重點摘要

站內 AI 整理稿

複雜視覺關係成為生成模型的新考題。作者丨鄭佳美編輯丨馬曉寧圖像生成行業正在從“生成能力競爭”進入“可控能力競爭”。過去，模型的核心價值主要體現在能否生成高質量、高清晰度、風格豐富的單張圖像；而隨著文生圖、圖生圖和指令式編輯能力逐漸成熟，新的瓶頸開始顯現：模型能否理解多張圖片之間的關係，能否在不同視角和場景中保持同一對象的一致性，能否把多個參考來源自然融合到同一畫面中，能否在數據缺失或退化時恢復可信細節，以及能否讓用戶精確控制每一次編輯的幅度。這種變化也反映在 CVPR 2026 的相關研究中。越來越多工作開始從單張圖像生成，轉向多圖關係建模、跨圖像一致性保持、複雜場景組合、連續可控編輯和高質量視覺數據恢復。這說明圖像生成和編輯的重點已經不只是“能不能生成”，而是模型能否在複雜約束下穩定理解對象、結構、關係和用戶意圖。更深層來看，視覺生成模型正在從單次輸出工具走向複雜視覺系統。它需要同時處理身份保持、結構對齊、語義融合、細節恢復和人機交互等問題。也正因為如此，當前研究的重點正在從單張圖像質量，轉向多圖一致性、組合泛化能力、底層數據表示以及精細化控制能力。誰能更好地把這些能力統一起來，誰就更接近下一階段真正可用、可信、可控的視覺生成模型。01當圖像模型不再只會「生成一張圖」《GroupEditing: Edit Multiple Images in One Go》關注的是“多圖一致編輯”問題，相關研究來自香港科技大學、清華大學、上海交通大學和悉尼科技大學。論文主要研究如何對一組相關圖片進行統一修改，並保證編輯後的結果在外觀、身份、結構和語義上保持一致。雷峰網以往的圖像編輯方法大多針對單張圖片，如果把同一個指令分別應用到多張相關圖片上，很容易出現編輯效果不統一的問題。比如同一個物體在不同視角或姿態下，顏色、形狀或身份特徵可能會被改得不一致。針對這一問題，論文提出了 GroupEditing 框架，把一組靜態圖片看作“偽視頻幀”，藉助視頻生成模型本身擅長保持連續幀一致性的特點，來提升多張圖片之間的編輯一致性。論文地址：https://arxiv.org/pdf/2603.22883v3同時，論文還引入 VGGT 來提取圖片之間的幾何對應關係，並設計了 Ge-RoPE 和 Identity-RoPE 兩個模塊。前者幫助不同圖片中的對應區域更好對齊，後者幫助同一對象在不同圖片中保持身份和外觀一致。也就是說，模型不僅知道“要改什麼”，還能夠更好地判斷“不同圖片中哪裡是同一個對象或區域”。這篇論文的亮點在於，它將圖像編輯從單張圖片擴展到一組相關圖片，適用於商品多角度圖、角色形象保持、同一物體不同視角編輯等場景。方法上，它巧妙地結合了視頻模型的一致性能力和顯式幾何對齊信息，使多圖編輯結果更加穩定、統一。實驗結果也表明，GroupEditing 在編輯質量、語義一致性和跨圖像一致性方面都優於已有方法。在多圖一致編輯的基礎上，《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》進一步關注多圖組合生成問題，相關研究來自香港理工大學、清華大學、中山大學和 OPPO 研究院。論文主要研究的是多圖組合生成，也就是給模型多張參考圖片，讓它根據文本指令把這些圖片中的人物、物體、服裝或場景自然地組合到一張新圖中，同時保持身份一致、語義合理和畫面協調。這項任務的難點在於，模型不僅要理解每張參考圖中的關鍵內容，還要把多個來源的信息融合到同一場景裡。例如，把一個人物、一件衣服、幾個物體和一個背景組合成一張完整圖片時，既不能丟失參考圖中的身份特徵，也不能讓畫面看起來像簡單拼貼。為了解決訓練數據不足的問題，論文提出了 MICo-150K 數據集，系統覆蓋 3 大類、7 個子任務和 27 種細粒度組合類型，並加入 De&Re 任務，即先把真實複雜圖像拆解成組件，再重新組合。在數據構建上，作者先收集並清洗人物、物體、服裝和場景等高質量源圖，再用 GPT-4o 生成多圖組合指令，並通過 Nano-Banana 合成目標圖像。之後，論文使用 QwenVL2.5-72B、ArcFace 和人工篩選來檢查生成結果，確保參考圖片中的關鍵內容被正確保留，最終形成面向多圖組合生成的大規模高質量數據集。論文地址：https://arxiv.org/pdf/2512.07348v1論文還提出了 MICo-Bench 評測基準和 Weighted-Ref-VIEScore 指標，用來更全面地評估多圖組合生成的效果。實驗中，作者用 MICo-150K 微調了多個開源模型，結果顯示這些模型的多圖組合能力都有明顯提升。其中基於 Qwen-Image-Edit 微調得到的 Qwen-MICo，在三圖組合任務上接近甚至優於 Qwen-Image-2509，同時還能支持任意數量的多圖輸入。這篇論文的亮點在於，它不是單純提出一個新模型，而是系統補齊了多圖組合生成領域的數據、任務分類、評測基準和基礎模型。MICo-150K 為模型學習多圖融合、身份保持和複雜場景組合提供了大規模訓練資源；MICo-Bench 和 Weighted-Ref-VIEScore 則讓這類任務有了更專門的評測方式。總體來看，這篇論文的核心貢獻是推動多圖生成從“能參考一張圖”走向“能理解並融合多張圖”。前兩篇論文主要圍繞多圖編輯和多圖生成展開，而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》則從多維數據表示與恢復的角度切入，相關研究來自湖南師範大學數學與統計學院、計算與隨機數學教育部重點實驗室，以及南方科技大學統計與數據科學系。論文主要研究的是多維數據恢復問題，例如圖像修復、去噪、超分辨率和點雲恢復。它關注的核心是：如何用更緊湊、更連續的方式表示高維數據，並從缺失、稀疏或退化的觀測中恢復出高質量結果。傳統的張量環分解 TR 適合表示高階張量，但通常依賴固定網格上的離散數據，難以處理連續信號或非規則採樣數據。為了解決這個問題，論文提出了 TRFD，也就是張量環函數分解，用隱式神經表示 INR 來參數化張量因子，使模型可以從連續座標中生成張量表示。這樣一來，方法不僅能處理常規網格數據，也能處理點雲這類非網格數據。不過，直接用 INR 學習張量因子會遇到一個問題：模型容易先學習低頻內容，而對細節紋理、邊緣結構等高頻信息建模不足。論文地址：https://arxiv.org/pdf/2603.01034v2論文通過頻域分析指出，張量環因子的頻率特性會直接影響最終恢復結果的頻率表現，因此如果因子本身缺少高頻成分，恢復出的圖像或點雲也會缺少細節。雷峰網針對這一問題，論文提出了 RepTRFD，也就是重參數化張量環函數分解。它把每個張量環因子表示成“可學習的潛在張量”和“固定基”的結構化組合，從而改善訓練動態，讓模型更容易學習高頻細節。同時，論文還給出了固定基的初始化方法，並證明了模型的 Lipschitz 連續性，以保證訓練過程更加穩定。這篇論文的亮點在於，它不是單純提高一個視覺任務的效果，而是從張量表示和頻率學習的角度改進多維數據恢復框架。方法既保留了張量環分解緊湊、高效的優勢，又通過 INR 獲得了連續建模能力，再通過重參數化增強了高頻細節恢復能力。實驗表明，RepTRFD 在圖像修復、去噪、超分辨率和點雲恢復等任務上整體優於已有方法，並且在相近計算量下取得了更好的恢復質量。在多維數據恢復之外，《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到圖像編輯場景，但它關注的重點是編輯過程中的精細控制能力，相關研究來自馬里蘭大學和 Adobe 研究院。論文主要研究的是指令式圖像編輯中的“連續可控”問題，也就是讓用戶不僅能用文字告訴模型要改什麼，還能像調節滑桿一樣精確控制每個編輯指令的強弱。現有的圖像編輯模型通常會把指令一次性完整執行，例如“把頭髮變卷”“讓人物微笑”“把背景換成夜晚”。但用戶很難控制這些變化到底要多強，是輕微微笑還是大笑，是稍微變卷還是非常卷。尤其當一個提示詞裡包含多個編輯要求時，模型往往缺少對單個指令的獨立控制能力。論文地址：https://arxiv.org/pdf/2511.09715v1為了解決這個問題，論文提出了 SliderEdit 框架。它會把一個複雜編輯指令拆成多個子指令，併為每個子指令提供一個可調節的滑桿。用戶可以通過滑桿連續控制某個編輯效果的強度，甚至可以讓某個效果被削弱、正常執行或進一步放大。這樣一來，圖像編輯就不再是“改或不改”的離散操作，而變成了更細膩、可交互的連續控制過程。方法上，SliderEdit 的核心是利用現代多模態擴散 Transformer 中的指令相關 token 表示。作者發現，某些文本 token 會集中控制對應的視覺編輯效果，因此可以通過對這些 token 進行調節來控制編輯強度。論文進一步提出 Partial Prompt Suppression 損失，讓模型學習如何只抑制某一個子指令的視覺影響，同時保留其他編輯效果。它還使用輕量級的低秩適配器 LoRA，不需要為每個屬性或概念單獨訓練一個新模型。這篇論文的亮點在於，它把圖像編輯從“固定強度的文字指令”推進到了“可連續調節的交互式編輯”。它不僅支持單個屬性的強弱控制，也支持多指令場景下對不同編輯方向分別調節。論文還將方法應用到 FLUX-Kontext 和 Qwen-Image-Edit 等先進圖像編輯模型上，實驗顯示 SliderEdit 在編輯連續性、語義解耦、身份保持和用戶可控性方面都有明顯優勢。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析