ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代,CNN最後的體面

2026年6月26日 02:12

重點摘要

原文作者:公眾號“集智實驗室”原文鏈接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷:在醫療影像分析中,僅僅因為細胞切片旋轉了一個角度,AI診斷模型就給出了截然不同的判斷?在自動駕駛場景裡,攝像頭角度稍有傾斜,目標檢測就開始漏檢誤報?這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡(Equivariant Networks)早在CNN時代就被提出,但當主流模型轉向視覺Transformer(ViT)時,實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”,恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章,提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼,直接利用卷積投影和群自注意力機制,讓ViT天然具備旋轉反射等變性(Roto-reflection Equivariance)。這不僅砍掉了傳統方法中繁瑣的相對位置編碼,還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點:位置編碼的“緊箍咒”要理解這項工作的價值,我們得先回到Transformer的基本原理。自注意力機制(Self-Attention)本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說,這無異於災難:模型會完全忽略像素的空間位置關係。於是,位置編碼(Position Encoding)應運而生。絕對位置編碼給每個位置一個唯一ID,但這破壞了平移等變性;相對位置編碼(RPE)通過編碼位置間的差異來保持平移等變,看似完美,卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE,讓模型變得臃腫。更棘手的是,為了在自注意力中引入旋轉等變性,現有的群等變方法(如G-SA)不得不進一步疊加複雜的旋轉群編碼

站內 AI 整理稿

原文作者:公眾號“集智實驗室”原文鏈接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷:在醫療影像分析中,僅僅因為細胞切片旋轉了一個角度,AI診斷模型就給出了截然不同的判斷?在自動駕駛場景裡,攝像頭角度稍有傾斜,目標檢測就開始漏檢誤報?這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡(Equivariant Networks)早在CNN時代就被提出,但當主流模型轉向視覺Transformer(ViT)時,實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”,恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章,提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼,直接利用卷積投影和群自注意力機制,讓ViT天然具備旋轉反射等變性(Roto-reflection Equivariance)。這不僅砍掉了傳統方法中繁瑣的相對位置編碼,還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點:位置編碼的“緊箍咒”要理解這項工作的價值,我們得先回到Transformer的基本原理。自注意力機制(Self-Attention)本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說,這無異於災難:模型會完全忽略像素的空間位置關係。於是,位置編碼(Position Encoding)應運而生。絕對位置編碼給每個位置一個唯一ID,但這破壞了平移等變性;相對位置編碼(RPE)通過編碼位置間的差異來保持平移等變,看似完美,卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE,讓模型變得臃腫。更棘手的是,為了在自注意力中引入旋轉等變性,現有的群等變方法(如G-SA)不得不進一步疊加複雜的旋轉群編碼和方向相關的RPE項:這個公式背後,是每層大量的額外計算,讓網絡的訓練和推理不堪重負。那麼問題來了:有沒有可能,我們乾脆扔掉位置編碼,讓模型自己“感受”到空間和旋轉的結構? 這正是REViT的核心破局思路。原理拆解:REViT如何實現“無招勝有招”?REViT的架構設計非常直觀。我們先通過一張整體框架圖來建立全局認知。圖3:REViT整體架構。(a) 輸入圖像經過Lifting層提升到群表示空間,然後依次通過L個包含Group Conv. Attention的Transformer Block;(b) 針對p4群(0°/90°/180°/270°)的Lifting層詳解;(c) 3D群卷積自注意力機制,在空間和群維度上聯合計算Softmax注意力。從圖中可以清晰看到,REViT的關鍵在於兩個核心模塊:Lifting層和分組卷積自注意力(G-CSA)。它們共同讓模型在沒有任何顯式位置編碼的情況下,天然具備了旋轉等變性。? Lifting層:從2D圖像到3D群空間Lifting層的任務,是將一張普通的2D輸入圖像“提升”到一個更高維的表示空間,這個空間不僅包含空間位置信息,還顯式編碼了離散的方向(或旋轉)通道。想象一下,你拿到一張照片,然後用Photoshop生成了它的4個副本,分別旋轉0°、90°、180°、270°。你把它們疊在一起,形成一個“多通道”的立體表示。Lifting層做的正是這件事,只不過它通過旋轉卷積來完成。對於輸入圖像 和一組可學習的卷積核 ,Lifting操作定義為:這裡的關鍵在於 。我們不再用固定的卷積核,而是對每個離散旋轉群元素 (比如 ),都應用一個預先旋轉好的卷積核。這樣一來,Lifting層的輸出不再是一個2D特徵圖,而是一個3D的張量:。其中第三個“深度”維度,就對應著不同的旋轉方向。這個操作自然地引入了離散旋轉對稱性——如果輸入圖像被旋轉,那麼Lifting層的輸出只是在群維度上發生了循環位移,而不會破壞特徵的數值分佈。這正是等變性的基礎。? G-CSA:3D群空間中的自注意力如果說Lifting層完成了從平面到立體世界的躍遷,那麼G-CSA模塊則是在這個3D空間中執行自注意力,確保將等變性質傳遞到網絡的每一層。傳統的卷積自注意力(如CvT)在2D空間上,通過卷積投影生成Query、Key和Value序列,替代了線性投影。圖2:基於卷積投影的Q、K、V生成機制。輸入特徵經滑動卷積核局部感知後,由三路並行的卷積投影分別提取特徵,再展平得到query、key和value,在自注意力中引入局部歸納偏置。REViT的G-CSA則將這一思想推廣到了Lifting後的3D空間。它通過3D群等變卷積來計算Q、K和V:這裡的 表示群等變卷積。由於我們在空間維度和群維度上同時執行卷積操作,生成的Q、K、V本身也都是群等變的——輸入被旋轉,Q、K、V也會跟著旋轉。接下來,G-CSA的注意力計算在空間鄰域和群結構上聯合進行:注意力權重 通過Q與K的點積計算softmax得到。與普通自注意力不同,這裡的點積在所有空間位置 和所有群元素 上歸一化。這意味著模型不僅關注“空間上哪裡重要”,還關注“在哪個旋轉方向上重要”。論文中給出了嚴格的數學證明:對於任何群變換 ,G-CSA滿足 。通俗地說:先旋轉輸入再計算注意力,等同於先計算注意力再旋轉輸出。這正是等變性的核心定義。這種設計如此優雅:它不需要任何位置編碼,因為卷積操作天然捕獲了局部空間結構,而群卷積則將這種結構感知能力擴展到了旋轉維度。整個網絡就像一個精密的齒輪系統,轉動輸入,所有中間表示都會同步轉動,信息不會丟失或混淆。? 為什麼必須剔除位置編碼?這裡有一個微妙但關鍵的點。可能你會問:如果位置編碼能幫助模型感知空間結構,我們為什麼不能保留它,同時再加入群等變設計?答案隱藏在Lifting層引入的群維度中。一旦我們將輸入提升到了 空間,我們處理的不再是“這個像素在(50, 100)”這樣的絕對位置,而變成了“這個像素在旋轉了90°後的(25, 30)”。標準的位置編碼無法編碼這種群變換下的相對關係。強行添加絕對位置編碼,反而會破壞Lifting層辛辛苦苦建立起來的群等變性。而已經被證明會帶來沉重計算負擔的RPE,其最初目的正是在自注意力中恢復平移等變性。REViT通過轉用卷積自注意力,天然內建了平移等變性,因此RPE變得多餘。這真是一個一石二鳥的精巧設計。實驗驗證:數據不會說謊原理講得再漂亮,最終還得用數據說話。讓我們看看REViT在實際數據集上的表現。? 決戰SOTA:碾壓級性能優勢首先,我們將G-CSA與傳統群等變自注意力G-SA進行直接對比。表1:G-CSA與G-SA在Rotated MNIST和PatchCamelyon上的性能對比。G-CSA在Rotated MNIST上取得了全面領先,更關鍵的是在PatchCamelyon上用不到一半的參數(94.35K vs 205.66K)實現了大幅性能反超。從表1可以清晰看到,在Rotated MNIST和PatchCamelyon兩個數據集上,G-CSA在各個群結構(Z2, p4, p8, p4m)下均優於G-SA。最重磅的是PatchCamelyon上的結果:G-CSA只用了94.35K參數,而G-SA需要205.66K,但準確率卻實現了反超。這種參數效率的碾壓,充分證明了卷積投影替代RPE在性能和效率上的雙重勝利。接下來,我們看看REViT相比傳統群等變CNN(G-CNN)的提升有多大。圖1:REViT與現有群等變方法的氣泡圖對比。橫縱軸為Rotated MNIST和PatchCamelyon的準確率。REViT(藍色)在多個群結構下均佔據右上角最優區域,性能全面領先於G-SA(紅色)、G-CNN(黃色)與α-G-CNN(綠色)。圖1用氣泡圖直觀展現了REViT的統治力:在多個離散群下,REViT在兩個數據集上的準確率都佔據了右上角的最優位置。再看與群等變CNN基線的具體數據對比。表3:CSA變體與群等變CNN的性能比較。在Rotated MNIST、CIFAR-10和PatchCamelyon上,CSA變體全面優於對應的G-CNN基線模型。p8-CSA在Rotated MNIST上達到98.92%,p4m-CSA在CIFAR-10上達到92.68%,改進效果穩健。CSA變體在所有三個數據集上全面優於對應CNN基線。p8-CSA在Rotated MNIST上達到98.92%,比p8-CNN提升0.42個百分點;而p4m-CSA在PatchCamelyon上達到90.75%,反超SOTA方法α_F-p4m-CNN†的89.12%。這些數據表明,G-CSA能穩定提升群等變網絡的性能上限。最殘酷的對比來了:REViT vs 普通ViT。表4:REViT與vanilla ViT、CvT在Rotated MNIST上的對比。vanilla ViT即使使用隨機旋轉+平移數據增強,準確率也只有91.67%,而REViT的p8CSA達到98.03%,Z2CSA也達到95.97%,差距極為懸殊。即使vanilla ViT使用了離散隨機45°旋轉和平移的數據增強,其準確率也僅為91.67%。而REViT的p8CSA達到98.03%,Z2CSA達到95.97%,將數據增強的非等變模型遠遠甩在身後。這再次說明了將對稱性直接編碼進架構,遠比依賴數據增強去“學習不變性”更加有效和本質。⚡ 效率奇蹟:砍掉一半運算量和內存高性能常常以高開銷為代價。但REViT反其道而行之。表2:G-CSA與G-SA w/ RPE的效率對比。在相同骨幹網絡和輸入規模下,G-CSA的乘加運算量和內存佔用約為G-SA的一半甚至更低,p8-CSA的Mul-Add僅為15.98M,而p8-SA高達48.32M。在相同的batch size和輸入圖像下,G-CSA的乘加運算量(Mul-Add)和峰值模型內存(Total Size)幾乎是G-SA with RPE的一半甚至更低。例如,p8-CSA的Mul-Add僅為15.98M,而p8-SA則需要48.32M。這種級別的效率提升,意味著在相同的硬件條件下,你可以訓練更深的模型,或者處理更大分辨率的圖像。這是REViT能夠成功擴展到ImageNet-1K的硬件基礎。? 關鍵超參數消融:什麼決定了性能上限?G-CSA有兩個關鍵的超參數:群的階數(即包含多少個離散旋轉)和卷積核尺寸。它們如何影響最終性能?表5:G-CSA的消融實驗。(a)群階數由p4增至p12時準確率從98.73%升至99.01%,繼續增大至p16則下降,顯示並非越大越好;(b)卷積核5×5達到峰值98.73%,過大或過小均導致精度損失。實驗發現,增加群階數並不總是好事。從p4增至p12,準確率從98.73%提升至99.01%;但繼續增至p16時,準確率反而下降。這是因為更高階的群包含非網格對齊的旋轉(如22.5°),雙線性插值會引入近似誤差,損害等變精度。卷積核尺寸同樣存在最優值。5×5的核達到峰值98.73%。太小的核感受野受限,無法捕捉足夠的鄰域信息;太大的核可能破壞局部的平移等變性特性,並帶來過擬合風險。這些消融實驗為實際應用中的模型調優提供了明確指導。? 等變性實證:嚴苛的數學檢驗一個模型聲稱自己是“等變的”,就必須接受嚴格的數學檢驗。作者通過等變誤差(Equivariance Error)和預測一致性(Prediction Consistency)來量化這一點。表6:G-CSA的等變誤差。在p4、p4m群下,REViT的等變誤差極低(約1e-5至1e-2),與G-CNN處於同一量級,顯著優於vanilla ViT(約1e-1),證實了其架構的嚴格等變性。表6的結果令人信服:在p4和p4m群下,REViT的Lifting層和G-CSA塊後的等變誤差低至1e-5到1e-2量級,與G-CNN持平,而vanilla ViT則高達1e-1。這證明REViT的架構確實在執行嚴格的群等變。對於包含45°旋轉的p8群,等變誤差略有上升。這並非架構缺陷,而是輸入階段的插值偽影在搗鬼。圖4:離散旋轉下的插值近似誤差。90°旋轉因像素與網格精確對齊而保持數值精度;45°旋轉則導致像素落入網格間隙,雙線性插值引入混合數值和偽影,成為提升等變誤差(p8)的根源。圖4清晰地解釋了這一現象:90°旋轉與像素網格完美對齊,只需重排像素;但45°旋轉卻迫使像素點落在網格間隙,必須通過雙線性插值來估算,從而引入了無法完全消除的近似誤差。這是一個預處理器層面的固有侷限,而非REViT自身的設計問題。在隨機連續變換的泛化測試中,REViT再次展現了非凡的魯棒性。表11:REViT與vanilla ViT在隨機變換下的泛化對比。REViT總體預測一致性達96.99%,相比ViT提升11.61%;平均概率差異也大幅降低,表明其對訓練群外的連續變換仍保持高度預測穩定性。面對訓練時從未見過的任意角度連續旋轉,REViT的平均預測一致性高達96.99%,比普通ViT提升了11.61%,平均概率差異也大幅降低。這表明,從離散等變性中學習到的結構化對稱性,能夠很好地泛化到連續的變換空間。? 擴展ImageNet-1K:從玩具到工業級最後,作者證明了REViT完全可以擴展到ImageNet-1K這樣的工業級數據集。表7:REViT在ImageNet-1K上的性能。以18M參數量取得79.27% Top-1和94.45% Top-5準確率,顯著優於RE-ResNet(77.37%/11M)和ViT-S w/ aug(72.08%/22M),達到了精度與效率的優秀平衡。REViT以18M參數取得了79.27%的Top-1和94.45%的Top-5準確率,完勝RE-ResNet的77.37%(11M)和ViT-S w/ aug的72.08%(22M)。這個結果的意義非凡:一個嚴格的等變架構,在沒有額外數據增強,也沒有預訓練蒸餾的情況下,就在大規模數據集上擊敗了經過高度混合增強的非等變Transformer。這充分展示了將幾何對稱性作為歸納偏置的巨大潛力。⚖️ 客觀評價與反思儘管REViT表現驚豔,我們也必須正視其固有的侷限。計算與內存代價:群等變架構的計算和內存開銷與底層群的階數(元素數量)成比例。例如p12群包含12個變換,意味著理論上要比普通模型多處理12倍的特徵映射。這導致推理延遲的增加,使其在資源極度受限或延遲極度敏感的場景下部署依然面臨挑戰。雖然作者通過窗口化G-CSA緩解了這個問題,但其根本性的開銷結構並未改變。高階群的非理想等變性:如前所述,對於包含非網格對齊旋轉的高階群,插值偽影會在輸入階段就引入誤差。雖然這並非REViT網絡本身的設計失誤,且誤差依然保持在很低水平(10^-2),但對於追求理論完美等變性的場景,這仍是一個需要感知的因素。未來方向:作者計劃將REViT擴展到更大規模的ViT架構,以及將其作為預訓練Backbone應用於方向性目標檢測和圖像分割。我個人也非常期待看到它在3D點雲處理、分子結構預測等更廣泛的幾何深度學習任務中的表現。? 總結與行動號召總的來說,REViT這項工作給我們上了精彩一課:巧妙的設計比複雜的公式更強大通過用卷積投影替代位置編碼,REViT在簡化實現的同時,實現了更強的等變性和更高的效率。等變性不是玄學,而是可檢驗的工程目標嚴格的等變誤差和預測一致性分析,用數據證明了架構設計的有效性。歸納偏置的價值在大規模數據下依然閃光ImageNet的實驗證明,將已知的物理規律(旋轉對稱性)直接編碼進模型,其收益甚至在充滿混合增強的數據環境中依然顯著。深度思考:你正在從事的目標檢測、醫學影像或機器人視覺任務中,是否也存在類似“旋轉讓模型犯糊塗”的痛點?REViT的設計思路,是否為你打開了一扇新的大門?歡迎在評論區分享你的見解和落地思考!REViT: Roto-reflection Equivariant Convolutional Vision Transformer

Related

相關文章

Edge AI Daily 早報(6月25日)

英偉達與SpaceX發債450億美元創紀錄,債務市場成為AI基建第二戰場;OpenAI與Broadcom聯合發佈Jalapeño推理芯片,9個月流片速度揭示AI實驗室轉向定製硬件研發趨勢。Alphabet納入道瓊斯指數標誌AI升格為美國經濟新底座,而Meta成為唯一拒絕政府AI審查的前沿巨頭,暴露開源基因與國家安全的結構性矛盾。

21 小時前