【ICML 2026】刷新高光譜圖像恢復任務SOTA!DAMP:面向高光譜影像恢復的退化感知度量提示框架
重點摘要
現有的統一高光譜圖像恢復方法還存在不少缺點:如果用顯式退化先驗,很難適配真實場景裡的未知退化;採用黑盒隱式表徵的話,又容易過擬合訓練數據的分佈,對於未見退化的泛化效果不好,光譜保真度也普遍偏低。針對這一問題,文中提出了一個可解釋的空間-光譜度量,得到連續的退化提示,然後再搭配上退化自適應專家混合結構,以度量作為路由動態激活對應的專用專家,最終只用單個模型就能夠滿足多種不同退化類型的情況。從實驗結果來看,該方法在5類常規恢復任務上達到了SOTA水平,而在運動模糊、泊松去噪這類訓練中沒出現過的任務上,零樣本表現也很突出,同時計算開銷比大多數同類方法更低。論文題目:Degradation-Aware Metric Prompting for Hyperspectral Image Restoration中文題目:面向高光譜圖像恢復的退化感知度量提示方法論文鏈接:https://arxiv.org/abs/2512.20251代碼鏈接:https://github.com/MiliLab/DAMP論文作者:Binfeng Wang, Di Wang, Haonan Guo†, Ying Fu†, Jing Zhang†(†為通訊)作者單位:北京理工大學計算機科學與技術學院、北京中關村學院、武漢大學計算機學院發表年份:ICML 2026論文引言高光譜圖像能夠捕捉數百個連續波段的光譜信息,是精準農業、環境監測、地物分類、變化檢測等空天領域應用的重要數據基礎。但受到成像硬件條件和物理環境的雙重幹擾,實際採集到的高光譜圖像往往存在低信噪比、運動模糊、波段缺失等多種退化問題,會大幅降低光譜特徵的判別能力,對下游任務的性能發揮造成不利影響。早期的高光譜恢復方法大多是針對特定任務設計的,只能處理單一類型的退化,很難應對真實場景裡混合、未知的退化模式。受自然圖像恢復領域提示學習思路的啟發,近些年已
現有的統一高光譜圖像恢復方法還存在不少缺點:如果用顯式退化先驗,很難適配真實場景裡的未知退化;採用黑盒隱式表徵的話,又容易過擬合訓練數據的分佈,對於未見退化的泛化效果不好,光譜保真度也普遍偏低。針對這一問題,文中提出了一個可解釋的空間-光譜度量,得到連續的退化提示,然後再搭配上退化自適應專家混合結構,以度量作為路由動態激活對應的專用專家,最終只用單個模型就能夠滿足多種不同退化類型的情況。從實驗結果來看,該方法在5類常規恢復任務上達到了SOTA水平,而在運動模糊、泊松去噪這類訓練中沒出現過的任務上,零樣本表現也很突出,同時計算開銷比大多數同類方法更低。論文題目:Degradation-Aware Metric Prompting for Hyperspectral Image Restoration中文題目:面向高光譜圖像恢復的退化感知度量提示方法論文鏈接:https://arxiv.org/abs/2512.20251代碼鏈接:https://github.com/MiliLab/DAMP論文作者:Binfeng Wang, Di Wang, Haonan Guo†, Ying Fu†, Jing Zhang†(†為通訊)作者單位:北京理工大學計算機科學與技術學院、北京中關村學院、武漢大學計算機學院發表年份:ICML 2026論文引言高光譜圖像能夠捕捉數百個連續波段的光譜信息,是精準農業、環境監測、地物分類、變化檢測等空天領域應用的重要數據基礎。但受到成像硬件條件和物理環境的雙重干擾,實際採集到的高光譜圖像往往存在低信噪比、運動模糊、波段缺失等多種退化問題,會大幅降低光譜特徵的判別能力,對下游任務的性能發揮造成不利影響。早期的高光譜恢復方法大多是針對特定任務設計的,只能處理單一類型的退化,很難應對真實場景裡混合、未知的退化模式。受自然圖像恢復領域提示學習思路的啟發,近些年已有研究嘗試搭建統一的恢復模型,但依舊存在兩方面明顯的侷限:一類依賴顯式的退化先驗,比如預設好退化類型、用文本做提示,都需要提前掌握準確的退化信息,這在真實場景裡通常很難實現;另一類則採用黑盒式的隱式表徵,很容易對訓練數據的退化分佈過擬合,面對未見退化時泛化效果不佳,同時也缺少對光譜相關性的顯式建模,光譜恢復的精度普遍不高。針對這些問題,文中提出了退化感知度量提示(DAMP)框架,不需要用到顯式退化先驗和黑盒隱式向量,而是通過具備可解釋性的空間- 光譜度量來量化退化程度,生成連續的退化提示,以此捕捉不同任務之間退化特徵的共性。在此基礎上還設計了退化自適應專家混合結構,把退化提示作為門控路由,動態激活對應不同退化程度的空間 - 光譜自適應專家模塊,最終實現多種、混合甚至未見退化條件下的自適應統一恢復。該方法與現有主流一體化方法的 PSNR 對比結果如圖 1 所示。圖1 與現有最先進的一體化方法的 PSNR 對比:修復、超分辨率、高斯去模糊和高斯去噪結果在統一訓練後於 ARAD 數據集上評估,泊松去噪和運動去模糊為 CAVE 數據集上的零樣本結果,[・]表示不同方法的 PSNR 取值範圍本文主要圍繞以下三方面展開:核心痛點:真實場景裡的高光譜圖像退化往往是多種類型混合出現的,很難提前預判具體形式;現有的統一恢復方法要麼離不開難以獲取的顯式退化標籤,要麼用黑盒隱式表徵容易過擬合,沒法同時保證對多樣退化的適配性和對未見退化的泛化能力,光譜保真度也普遍達不到理想水平。目前侷限:依賴顯式先驗的方法默認退化集合是封閉的,沒辦法適配真實場景裡未知的混合退化模式;而黑盒隱式方法本身缺乏可解釋性,遇到訓練分佈外的退化時,容易將其錯誤映射到已知類型的特徵空間裡,導致恢復精度下降,同時這類方法大多也沒有對光譜維度的相關性做顯式建模。解決路徑:本文通過設計DAMP框架,先用具備物理可解釋性的空間-光譜統計度量,生成連續的退化提示向量,既能從多個維度刻畫退化的嚴重程度,也能捕捉不同恢復任務之間退化特徵的共通之處;再搭配退化自適應混合專家結構,把退化提示當作路由信號,動態調用對應的空間-光譜自適應專家模塊,僅用單個模型就能夠應對多種、混合甚至從未見過的退化場景,完成高光譜圖像的自適應恢復。核心創新DAMP的整體網絡採用層級化的 U 型架構(結構見圖 3(a)),完整的處理流程可以拆成三步:第一步先從輸入圖像中計算提取空間 - 光譜維度的退化度量,經過投影變換後得到退化提示向量 DP;與此同時,輸入圖像會經過一層 3×3 卷積提取淺層特徵,隨後進入四級編碼 - 解碼結構;解碼器的每一層都嵌入了 DAMoE 模塊,以 DP 作為全局調控條件,動態調整特徵恢復的權重和方向,最後通過殘差融合得到最終的恢復結果。整個框架的核心設計主要包含三塊:退化提示、退化自適應專家混合、空間 - 光譜自適應模塊。1. 退化提示(DP):可解釋的多維退化表徵在傳統的統一恢復方法裡,對退化的表徵無非兩種:要麼用離散的類型標籤,要麼用不可解釋的隱式特徵向量,二者在靈活性和泛化能力上始終難以兼顧。本文的核心思路不一樣,不用標籤也不用黑盒向量,而是選用有明確物理意義的統計度量,來連續刻畫退化的狀態,這樣既能保證表徵的可解釋性,也能靈活適配未知的混合退化場景。為了驗證這種度量表徵是否可行,研究團隊先選了高頻能量比、空間紋理均勻性、光譜曲率均值三個有代表性的度量,在包含五類退化的上千張高光譜樣本上做了分析。結果發現,只靠這三個度量就能讓不同退化類型形成清晰的聚類,搭配隨機森林分類器也能達到不錯的區分精度;同時不同退化類型在部分度量上存在分佈重疊,這也說明不同退化之間存在內在共性,為跨任務泛化提供了基礎。不同方法的設計思路對比、度量對退化的區分能力以及分佈特性見圖 2。在這個基礎上,研究團隊還設計了三階段的度量篩選流程,從 25 個覆蓋熵、梯度、頻率、相關性的候選度量裡,依次通過可解釋性篩選、空間 - 光譜覆蓋性篩選、區分度篩選,最終確定了 6 個核心度量:高頻能量比、空間紋理均勻性、光譜曲率均值、光譜曲率標準差、梯度標準差、空間相關係數,由它們共同組成 6 維的退化提示向量。這個向量完全基於圖像本身的物理統計特徵計算,具備穩健、輕量、透明的特點。圖2 (a) 基於顯式退化先驗的方法、基於隱式黑盒表徵的方法與退化感知度量提示方法的對比 (b) 基於 HFER、STU 和 SCM 的五類退化分類混淆矩陣 (c) 不同退化類型在 HFER、STU 和 SCM 上的分佈2. 退化自適應專家混合(DAMoE):度量驅動的動態路由為了把退化度量轉化成自適應的恢復策略,文中設計了 DAMoE 結構。和傳統 MoE 用視覺特徵或者隱式提示做路由的方式不同,DAMoE 把顯式的 DP 向量作為路由先驗來指導專家的選擇,讓路由的邏輯完全建立在退化的物理屬性之上。具體的實現過程裡,輸入特徵會先經過全局平均池化,再和 DP 向量拼接在一起,經過投影和激活後計算出每個專家的門控得分,再通過 softmax 和 top-k 稀疏化篩選出最優的專家子集,最後對選中專家的輸出特徵做加權融合。訓練階段會在門控 logits 里加入高斯噪聲,以此促進專家之間的負載均衡,也能讓模型探索更多可能性。舉個例子,當輸入的 HFER 值很高(也就是噪聲較強)時,模型會更傾向於激活光譜濾波能力更強的專家,哪怕視覺特徵比較模糊,也能做出準確的路由判斷。DAMP 的整體網絡架構和 DAMoE 模塊的內部結構如圖 3 所示。圖3 (a) 所提 DAMP 框架的整體架構 (b) 退化自適應混合專家 DAMoE3.空間 - 光譜自適應模塊(SSAM):專業化的專家算子高光譜圖像的退化在空間和光譜兩個維度通常存在異質性:比如模糊主要破壞的是空間紋理結構,對光譜曲線的形狀影響不大;而噪聲則會同時對兩個維度造成干擾。常規的卷積或者注意力模塊,空間和光譜的建模權重一般是固定的,沒辦法靈活根據不同退化調整恢復的側重點。針對這一點,文中提出 SSAM 作為專家的基礎算子,每個模塊都包含並行的空間分支和光譜分支:空間分支用窗口多頭自注意力來捕捉空間結構的依賴關係,光譜分支則用 1D 卷積建模不同波段之間的相關性。兩個分支的輸出會通過可學習的權重做加權融合,而且這些權重是每個專家獨有的參數,滿足空間權重與光譜權重之和為 1 的約束條件。在訓練過程中,不同的專家會自然出現功能分化:一部分專家的空間分支權重更高,更偏向於恢復紋理細節;另一部分專家的光譜分支權重更高,更側重保證光譜的保真度。路由機制可以根據退化提示動態組合不同的專家,從而為當前輸入匹配到最優的空間 - 光譜恢復平衡。實驗結果實驗一共用到了 8 個高光譜數據集,覆蓋自然場景和遙感兩大領域。其中自然場景數據集中,ARAD 和 ICVL 用於統一訓練和常規任務測試,CAVE 則專門用來做零樣本泛化測試;遙感數據集包括雄安、Chikusei、PaviaC、PaviaU 以及HyRank,所有遙感數據集都按照 8:2 的比例劃分成了訓練集和測試集。考慮到自然場景和遙感數據之間存在明顯的領域差異,研究團隊針對兩個領域分別訓練了模型。實驗設置了兩類主要的評估方案:第一類是統一訓練評估,在高斯去噪、高斯去模糊、超分辨率、圖像修復、波段補全這 5 類任務上進行聯合訓練和測試;第二類是零樣本泛化測試,把訓練好的模型直接用在運動去模糊、泊松去噪這兩類訓練中沒見過的退化上,不做任何微調。整個模型基於 PyTorch 實現,在單張 RTX 4090 GPU 上完成訓練,優化器選用 AdamW,損失函數採用 L1 損失;評價指標方面,用 PSNR、SSIM 衡量空間保真度,用SAM 衡量光譜精度。1.定性實驗圖4 已知退化類型任務上高光譜圖像恢復性能的視覺對比:從上到下依次為 ARAD 數據集上的超分辨率、ICVL 數據集上的去噪、PaviaU 數據集上的去模糊、雄安數據集上的修復,每幅圖像中紅色小框內的內容被放大,左側為與真值的誤差圖,右側為放大的結果圖像圖5 CAVE 數據集上泊松去噪的視覺對比:第一行為恢復結果,第二行為誤差圖四類已知退化任務的恢復視覺效果和誤差對比可以參考圖 4。從可視化結果能看出,DAMP 的重建誤差是最低的,恢復出的紋理細節更清晰,邊緣產生的偽影也更少。圖 5 展示了在 CAVE 數據集上,針對未見退化類型做高光譜圖像恢復的定性結果,DAMP 方法產生的誤差明顯低於所有基線方法,體現出它對沒見過的恢復任務有很強的泛化能力。圖6 自然數據集各類任務的跨波段歸一化數值誤差:(a) 高斯去噪 (b) 高斯去模糊(c) 超分辨率 (d) 圖像修復 (e) 波段補全 (f) 平均各任務跨波段的歸一化數值誤差分佈如圖 6 所示。從跨波段的誤差曲線可以看出,SSAM 有效平衡了空間和光譜信息的利用,更好地保留了高光譜圖像本身的光譜特徵,對應的SAM 指標表現也更優。2. 定量實驗結果表1 在自然與遙感數據集上五類高光譜恢復任務的定量對比定量對比結果如表 1 所示。從整體數據來看,DAMP 在 5 類退化任務的幾乎所有數據集和指標上,表現都優於現有的一體化方法,同時性能也超過了大多數任務專屬方法。從整體平均指標來看,ICVL 自然數據集上的平均 PSNR 可達 51.97dB,ARAD 自然數據集平均 PSNR 為 51.43dB,遙感數據集的整體平均 PSNR 也有 39.42dB,各項結果都達到了目前的最優水平。3.消融實驗結果核心組件有效性驗證:表2 核心組件的有效性從表 2 的消融結果可以看出,在 ARAD 數據集上測試時,僅加入 DP 模塊就能讓平均 PSNR 提升4.20dB,SSIM 提升 0.010,這也說明退化表徵對多任務適配的提升作用非常關鍵;在此基礎上再加入 SSAM 模塊,PSNR 還能再提升1.41dB,足以證明空間 - 光譜自適應的調製方式能有效提升恢復結果的保真度。完整模型最終能達到 51.43dB 的 PSNR 和0.989 的 SSIM。路由策略對比:表3 路由策略對比從表 3 的數據可以看出,如果把文中的 DP 路由分別換成頻率路由、退化類型路由、隱式提示路由,模型性能都會出現明顯下降。其中 DP 路由比頻率路由的性能高出 3.71dB PSNR 和 0.006 SSIM,比退化類型路由高出 5.16dB PSNR 和 0.007 SSIM,充分證明了基於物理度量的退化感知路由的優勢。計算效率分析:表4 效率對比如表 4 所示,儘管引入了自適應機制,DAMP 的計算開銷還是低於大多數同類方法:它的 FLOPs 為 313.8G,低於PromptIR 的 573.4G 和 MoCE-IR 的 365.5G;度量計算和路由帶來的額外耗時還不到 0.2ms,整體的推理效率完全可以滿足實際落地的需求。度量與退化嚴重度的相關性驗證:圖7 退化度量與退化嚴重度的相關性趨勢圖 7 的結果顯示,實驗驗證了大多數度量都會隨著退化嚴重度呈現單調變化的趨勢,9 組分析中有 7 組的皮爾遜相關係數超過了 0.4,說明多個度量聯合起來可以穩定、連續地量化圖像的退化程度,為精準的專家路由提供了可靠的基礎。4.零樣本泛化性能表5 未見任務上的零樣本性能零樣本泛化的測試結果如表 5 所示。在 CAVE 數據集的零樣本測試中,DAMP 表現出了明顯的泛化優勢:運動去模糊任務上達到了 31.05dB 的 PSNR 和 0.899 的 SSIM,比性能最優的基線方法 PromptIR 高出 0.52dB;泊松去噪任務上達到了 24.08dB 的 PSNR,比最優基線方法高出 2.10dB。這主要是因為DP捕捉到了退化帶來的內在統計偏差,哪怕訓練過程中沒見過這種退化類型,路由機制也能根據退化的嚴重程度匹配到對應的專家。結論文中提出DAMP框架,為解決統一的高光譜圖像恢復問題提供了一條既具備可解釋性又具有泛化能力的技術路線,用帶有強烈物理含義的空間-光譜度量代替傳統的顯式退化標籤和黑盒隱式嵌入,再通過退化提示驅動的混合專家架構,在單個模型內完成多種類型退化的自適應恢復。實驗結果表明,這種方法在5類標準恢復任務上是當前的最優方法,對運動模糊、泊松噪聲等訓練中沒有出現過退化的情況也具備了非常好的零樣本泛化能力,並且計算量較小。還有兩個不足:一是目前只在 7 類退化上驗證了方法的有效性,如果遇到更罕見、或者物理機制差異很大的退化,可能還需要補充對應的度量;二是目前自然場景和遙感數據還是需要分領域進行訓練,真正跨域通用的恢復模型研究還有待進一步探索。後續的工作可以從擴充退化基準,設計動態度量權重,探索域自適應技術這些方向繼續深入研究。?實際應用與意義在空天視覺領域的工程化落地場景中,DAMP 框架具很高的實際應用價值:1.適配複雜真實成像退化:衛星和機載高光譜成像經常會遇到大氣擾動、傳感器噪聲、平臺運動模糊、條帶缺失等多種退化疊加的情況,以往的單任務模型都必須先判斷退化類型再切換對應的模型,部署的複雜性很高。DAMP統一框架不需要提前輸入退化先驗,其根據輸入圖像的統計特徵調整恢復策略,簡化了遙感數據預處理的實際流程,降低了多模型維護成本。2.提升少見退化場景的泛化能力:遙感數據的退化模式受到傳感器型號、成像高度、天氣條件等多種因素影響很大,很多罕見退化很難收集到足夠的標註樣本來訓練模型。DAMP的度量式提示完全遵循圖像內在的物理統計特性,能穩定地刻畫訓練分佈外的退化,可以為少樣本、零樣本場景下的高光譜數據質量提升提供參考。參考文獻:Wang B, Wang D, Guo H, Fu Y, Zhang J. Degradation-Aware Metric Prompting for Hyperspectral Image Restoration. International Conference on Machine Learning (ICML), 2026.原文作者:公眾號“空天視覺智能”原文鏈接:https://mp.weixin.qq.com/s/_pPISi5DArx60ndbtoGJSQ 雷峰網轉載
Related
相關文章

谷歌「推理之王」也跑路Meta了,當年還是李飛飛挖來的
這篇消息聚焦「谷歌「推理之王」也跑路Meta了,當年還是李飛飛挖來的」。原始導語提到:Coding為王 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

95後博士投身世界模型,臉譜心智融資數千萬元
這篇消息聚焦「95後博士投身世界模型,臉譜心智融資數千萬元」。原始導語提到:星連資本、360出手。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
工信部指導發佈《AI 眼鏡可信視界自律公約》:不得超範圍收集獲取用戶個人信息
中國信通院 6 月 25 日宣佈,在工業和信息化部信息通信管理局的指導下,中國信息通信研究院泰爾終端實驗室聯合深圳市 AI 眼鏡產業聯盟研究起草了《AI 眼鏡可信視界自律公約》(以下簡稱《公約》),得到產業鏈上下游企業的積極響應。

阿里練操作,Momenta 開真車,英偉達搭片場:三個"世界模型"根本不是一回事
這篇消息聚焦「阿里練操作,Momenta 開真車,英偉達搭片場:三個"世界模型"根本不是一回事」。原始導語提到:同名不同命:三家世界模型各玩各的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
拖更三年萬字長文,前OpenAI安全VP翁荔拆解Scaling Laws:你的模型可能喂錯了數據
翁荔迴歸萬字長文《Scaling Laws, Carefully》拆解大模型規模定律,直指行業共識可能寫反:從Kaplan到Chinchilla,主流數據配比未必最優。文章細究算力、模型大小與數據量的權衡,暗示數百億美元押注的路徑或需徹底反思,引發從業者重新審視預訓練配方的有效性。
ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代,CNN最後的體面
原文作者:公眾號“集智實驗室”原文鏈接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷:在醫療影像分析中,僅僅因為細胞切片旋轉了一個角度,AI診斷模型就給出了截然不同的判斷?在自動駕駛場景裡,攝像頭角度稍有傾斜,目標檢測就開始漏檢誤報?這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡(Equivariant Networks)早在CNN時代就被提出,但當主流模型轉向視覺Transformer(ViT)時,實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”,恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章,提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼,直接利用卷積投影和群自注意力機制,讓ViT天然具備旋轉反射等變性(Roto-reflection Equivariance)。這不僅砍掉了傳統方法中繁瑣的相對位置編碼,還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點:位置編碼的“緊箍咒”要理解這項工作的價值,我們得先回到Transformer的基本原理。自注意力機制(Self-Attention)本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說,這無異於災難:模型會完全忽略像素的空間位置關係。於是,位置編碼(Position Encoding)應運而生。絕對位置編碼給每個位置一個唯一ID,但這破壞了平移等變性;相對位置編碼(RPE)通過編碼位置間的差異來保持平移等變,看似完美,卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE,讓模型變得臃腫。更棘手的是,為了在自注意力中引入旋轉等變性,現有的群等變方法(如G-SA)不得不進一步疊加複雜的旋轉群編碼