雷峰網生成式AI

ICML 2026:視覺自恢復 + 雙獎勵強化學習,提升受損圖像理解

2026年6月16日 02:48

重點摘要

原文作者:公眾號“Today讀什麼”原文鏈接:https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg一張照片被壓縮、噪聲、暗光和模糊破壞後,多模態模型仍然可以寫出一段邏輯完整的分析。但分析越流暢,不代表它看到的證據越充分:車頭朝向已經模糊,模型仍能解釋車輛為何“直行”;公交車輪廓已經重疊,它依然可以自信地數出三輛。過去的方法通常讓視覺編碼器適應噪聲,或者讓模型先用文字分析圖像受到了什麼破壞。Robust-U1 換了一條路線:**既然關鍵視覺信息已經丟失,就先生成一張恢復後的圖像,再讓模型同時查看原圖與恢復圖完成回答。**方法由圖像恢復監督訓練、帶雙重視覺獎勵的強化學習,以及雙圖聯合推理組成。實驗結果表明,性能提升並不只是來自“生成了一張更好看的圖片”,而是恢復出的視覺證據確實幫助模型回答了原本看不清的問題。MotivationRobust-U1 要處理的核心矛盾是:多模態模型可以繼續推理,卻無法僅憑語言補回已經消失的視覺細節。視覺魯棒性研究此前主要沿著兩條路線展開。特徵對齊方法讓乾淨圖像和受損圖像在視覺編碼空間中儘量接近,能夠提高預測穩定性,卻很難解釋模型究竟恢復了什麼信息。Robust-R1 這樣的工作把過程顯式化,讓模型描述壓縮、噪聲或暗光如何影響畫面,再依據描述進行推理。文字能夠提醒模型“這裡可能看不清”,卻無法重建車輛朝向、物體數量、邊緣位置或細小文字。視覺證據已經被破壞時,再長的推理鏈也可能只是圍繞錯誤觀察組織出一段連貫解釋。作者由此提出一個更直接的問題:具備圖像生成能力的統一多模態模型,能否自己完成視覺恢復,並把恢復結果作為中間推理證據?這不是在模型前面外掛一個圖像修復器,而是讓理解、恢復和回答由同一個模型協同完成。現象剖析:推理補不回像素論文中的案例很好地揭示了舊路線的限制。一張嚴重壓縮且光照不足的道路圖片裡,前方車

站內 AI 整理稿

原文作者:公眾號“Today讀什麼”原文鏈接:https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg一張照片被壓縮、噪聲、暗光和模糊破壞後,多模態模型仍然可以寫出一段邏輯完整的分析。但分析越流暢,不代表它看到的證據越充分:車頭朝向已經模糊,模型仍能解釋車輛為何“直行”;公交車輪廓已經重疊,它依然可以自信地數出三輛。過去的方法通常讓視覺編碼器適應噪聲,或者讓模型先用文字分析圖像受到了什麼破壞。Robust-U1 換了一條路線:**既然關鍵視覺信息已經丟失,就先生成一張恢復後的圖像,再讓模型同時查看原圖與恢復圖完成回答。**方法由圖像恢復監督訓練、帶雙重視覺獎勵的強化學習,以及雙圖聯合推理組成。實驗結果表明,性能提升並不只是來自“生成了一張更好看的圖片”,而是恢復出的視覺證據確實幫助模型回答了原本看不清的問題。MotivationRobust-U1 要處理的核心矛盾是:多模態模型可以繼續推理,卻無法僅憑語言補回已經消失的視覺細節。視覺魯棒性研究此前主要沿著兩條路線展開。特徵對齊方法讓乾淨圖像和受損圖像在視覺編碼空間中儘量接近,能夠提高預測穩定性,卻很難解釋模型究竟恢復了什麼信息。Robust-R1 這樣的工作把過程顯式化,讓模型描述壓縮、噪聲或暗光如何影響畫面,再依據描述進行推理。文字能夠提醒模型“這裡可能看不清”,卻無法重建車輛朝向、物體數量、邊緣位置或細小文字。視覺證據已經被破壞時,再長的推理鏈也可能只是圍繞錯誤觀察組織出一段連貫解釋。作者由此提出一個更直接的問題:具備圖像生成能力的統一多模態模型,能否自己完成視覺恢復,並把恢復結果作為中間推理證據?這不是在模型前面外掛一個圖像修復器,而是讓理解、恢復和回答由同一個模型協同完成。現象剖析:推理補不回像素論文中的案例很好地揭示了舊路線的限制。一張嚴重壓縮且光照不足的道路圖片裡,前方車輛實際向左行駛。Qwen2.5-VL 判斷車輛直行;Robust-R1 能識別暗光與壓縮問題,也能解釋這些退化會遮蔽方向信息,最終仍給出“直行”。這裡缺少的不是對退化類型的認識,而是決定答案的視覺細節。模型知道自己看不清,卻沒有新的視覺證據可以使用。基礎模型 BAGEL 已經具備圖像生成能力,也嘗試恢復畫面,但生成結果改變了原場景,推理隨後被錯誤恢復圖帶偏。這又引出第二個問題:**恢復圖本身也可能產生幻覺。**如果模型只查看恢復圖,修復過程新增的物體、方向或紋理會被當成事實。Robust-U1 因此沒有把恢復圖當作唯一輸入。原始受損圖仍被保留,恢復圖負責補充結構和語義,模型在兩份視覺證據之間完成判斷。這個設計讓恢復不再等同於“重畫一張圖”,而是成為可以被原圖約束的中間推理步驟。核心解讀:恢復之後再理解Robust-U1 建立在 BAGEL 之上。BAGEL 同時支持多模態理解和圖像生成,因此同一套模型既能從受損圖片生成恢復圖,也能讀取兩張圖片回答問題。訓練過程分成三個連續階段。模型先在 ImageNet-C 的 75 萬組受損—乾淨圖像對上進行監督微調。受損圖像被編碼為條件,乾淨圖像進入 rectified flow 的去噪目標,生成模塊由此學習近似的退化逆過程。經過這一階段,模型已經會去除主要噪聲和模糊,但恢復結果仍容易缺少細節,或在語義上偏離原圖。接下來的強化學習不直接獎勵最終問答正確率,而是約束恢復圖本身。像素結構獎勵採用 SSIM,檢查局部亮度、對比度和結構是否接近乾淨圖;語義一致性獎勵通過凍結的 CLIP 比較兩張圖的表示,避免畫面看起來清晰,卻把對象、顏色或場景恢復錯。這兩個獎勵承擔的職責並不相同。SSIM 更關心輪廓、邊緣和局部結構,CLIP 獎勵更關心“畫面講的是不是同一件事”。只有像素約束,模型可能生成清晰但語義錯誤的圖;只強調語義,又可能忽略回答計數、方向和文字問題所需的精細結構。恢復能力穩定後,模型進入雙圖推理訓練。輸入按“受損圖—恢復圖—問題”的方式交錯組織,並配合推理鏈與答案進行下一詞預測。模型由此學會以恢復圖作為主要觀察,同時回看受損圖,檢查恢復過程中可能出現的歧義。Robust-U1 的整體邏輯可以概括為:先恢復可用的視覺證據,再讓原圖和恢復圖互相校驗,最後完成語言推理。圖表深度解讀圖1:三種視覺魯棒性路線畫面描述:左側是受損圖與乾淨圖的特徵對齊,中間是用文字描述退化影響,右側的 Robust-U1 會直接生成恢復圖,並把它加入多模態推理。深度解讀:這張圖劃分的不是三個實現模塊,而是三種不同的處理層級。特徵對齊調整內部表示,文字推理解釋損壞,視覺自恢復則嘗試重新提供任務所缺少的證據。Robust-U1 的提升來自信息層級發生了變化:模型不再只學習如何容忍受損視覺,而是主動重建可供判斷的內容。圖2:三階段訓練流程畫面描述:生成模塊先通過監督訓練學習恢復,再通過 Flow-GRPO 接受像素和語義獎勵,隨後理解模塊與生成模塊共同學習雙圖推理。深度解讀:三階段沒有被合併成一個端到端目標,是因為它們處理的是不同風險。監督訓練解決“能不能恢復”,強化學習解決“恢復得是否可信”,聯合推理解決“模型會不會使用恢復結果”。直接訓練問答,模型可能繞過恢復分支;只訓練恢復,又不能保證恢復內容對下游問題有用。圖3:恢復質量的逐步變化畫面描述:圖中依次展示受損輸入、原始 BAGEL、監督微調、單獨使用像素獎勵、單獨使用語義獎勵、完整模型和乾淨真值。深度解讀:監督微調已經能去掉大量退化,但畫面細節仍然鬆散;像素獎勵強化邊緣和局部結構,語義獎勵改善紋理與內容一致性,完整模型在兩者之間取得較穩定的平衡。表 5 也對應這一變化:PSNR 從 BAGEL 的 14.37 提高到 21.49,SSIM 從 0.4722 提高到 0.6314,LPIPS 從 0.5092 降至 0.3223。實驗結果說明了什麼?R-Bench 同時包含選擇題、開放式視覺問答和圖像描述,並按照退化程度分為低、中、高三個等級。Robust-U1 的綜合得分為 0.7398,明顯高於基礎模型 BAGEL 的 0.5770,以及文本推理方法 Robust-R1 的 0.5017。圖像描述任務上的差距尤其明顯,說明恢復圖提供的不只是分類線索,也補充了場景級內容。在 MMMB、MMStar 和 RealWorldQA 的人工退化實驗中,優勢隨著破壞程度增加仍然存在。MMMB 從乾淨圖到 100% 退化時,Robust-U1 只下降 1.57 分;BAGEL 下降 3.44 分,Robust-R1 下降 6.06 分。消融結果把性能來源拆得更清楚。取消雙圖推理後,R-Bench 綜合分從 0.7398 降至 0.6623,說明恢復圖必須真正進入推理過程。移除像素獎勵或語義獎勵,得分分別降到 0.7257 和 0.7236;高強度退化下,缺少語義獎勵的損失更明顯,因為模型更容易生成外觀合理、內容錯誤的恢復圖。外接圖像修復器也沒有得到同樣效果。由專用恢復模型預處理、再交給 Qwen2.5-VL-7B 的方案,最高綜合分只有 0.5511。修復模型通常針對單一退化類型優化,而且追求感知質量,不一定保留問答所需的視覺證據。為什麼這篇工作值得關注?Robust-U1 把多模態推理的中間過程從純文本擴展到了視覺空間。過去的思路是讓模型對著壞圖“想得更仔細”,現在則允許模型先生成一份可以檢查的視覺假設,再依據原圖和恢復圖回答。這種方式對暗光駕駛、遙感、監控和醫學影像很有吸引力,因為這些任務的錯誤經常來自感知信息缺失,而不是語言推理不足。恢復圖還提供了一種可觀察的中間結果:系統可以直接查看模型依據了什麼視覺內容,而不是隻能分析隱藏特徵。邊界也很清楚。恢復不是找回被物理刪除的信息,而是依據訓練分佈進行估計,仍有生成錯誤的可能。論文報告恢復前後答案一致率為 92.3%,說明語義獎勵壓低了幻覺風險,卻沒有消除它。訓練成本同樣不低,僅恢復監督階段就使用了 1920 個 L20 GPU 小時;推理時額外生成圖像,也會增加延遲。此外,完整訓練依賴成對的受損—乾淨圖片。無干淨參考的語義獎勵能夠改善結果,但綜合分只有 0.6233,仍明顯低於完整方法。當前實驗集中在靜態圖片,視頻中的時間一致性、未知真實退化和高風險場景下的錯誤校準仍需繼續驗證。研究脈絡:從抵抗退化到恢復證據1. TeCoA2023|視覺語言魯棒對齊通過對抗訓練使乾淨與擾動圖像的視覺表示更接近,改善局部攻擊下的穩定性。2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?2024|IEEE JSTSP系統評測噪聲、壓縮、暗光等真實退化對多模態模型的影響,讓視覺退化成為獨立的評測問題。3. Robust CLIP2024|視覺編碼器魯棒化在 CLIP 表示層提高對擾動的抵抗能力,但恢復過程仍然隱藏在特徵空間中。4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs2025|ICCV Workshops將魯棒視覺編碼器接入多模態模型,研究視覺前端的抗擾動能力能否傳遞到語言理解。5. Thinking with Generated Images2025|視覺輔助推理開始讓模型生成輔助圖像參與思考,視覺內容從輸入模態變成了中間推理載體。6. Robust-R12026|文本化退化推理顯式識別退化類型及其語義影響,提高可解釋性,但中間過程仍然無法補充像素證據。7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?2026|ICML把圖像恢復納入統一多模態模型的推理鏈,用像素—語義雙獎勵約束恢復結果,再聯合原圖完成判斷。總結一下Robust-U1 不是把傳統圖像修復模型接到多模態模型前面。它重新安排了受損視覺理解的順序:當輸入證據不足時,模型先生成恢復圖,再把恢復結果與原始輸入共同納入推理。實驗支持了這條路線,但也提醒我們,生成出來的清晰畫面並不自動等於可靠證據。像素結構、語義一致性和原圖校驗缺少任何一項,恢復過程都可能把模型從“看不清”帶到“看錯了”。它提出的是一個方向性變化:多模態模型面對受損輸入時,不必永遠被動適應,也可以主動重建視覺證據;而這份證據必須接受約束和交叉檢查,才能進入最終判斷。• 論文題目:Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?雷峰網

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前