ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代，CNN最後的體面

2026年6月26日 02:12

重點摘要

站內 AI 整理稿

原文作者：公眾號“集智實驗室”原文鏈接：https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷：在醫療影像分析中，僅僅因為細胞切片旋轉了一個角度，AI診斷模型就給出了截然不同的判斷？在自動駕駛場景裡，攝像頭角度稍有傾斜，目標檢測就開始漏檢誤報？這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡（Equivariant Networks）早在CNN時代就被提出，但當主流模型轉向視覺Transformer（ViT）時，實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”，恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章，提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼，直接利用卷積投影和群自注意力機制，讓ViT天然具備旋轉反射等變性（Roto-reflection Equivariance）。這不僅砍掉了傳統方法中繁瑣的相對位置編碼，還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點：位置編碼的“緊箍咒”要理解這項工作的價值，我們得先回到Transformer的基本原理。自注意力機制（Self-Attention）本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說，這無異於災難：模型會完全忽略像素的空間位置關係。於是，位置編碼（Position Encoding）應運而生。絕對位置編碼給每個位置一個唯一ID，但這破壞了平移等變性；相對位置編碼（RPE）通過編碼位置間的差異來保持平移等變，看似完美，卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE，讓模型變得臃腫。更棘手的是，為了在自注意力中引入旋轉等變性，現有的群等變方法（如G-SA）不得不進一步疊加複雜的旋轉群編碼和方向相關的RPE項：這個公式背後，是每層大量的額外計算，讓網絡的訓練和推理不堪重負。那麼問題來了：有沒有可能，我們乾脆扔掉位置編碼，讓模型自己“感受”到空間和旋轉的結構？這正是REViT的核心破局思路。原理拆解：REViT如何實現“無招勝有招”？REViT的架構設計非常直觀。我們先通過一張整體框架圖來建立全局認知。圖3：REViT整體架構。(a) 輸入圖像經過Lifting層提升到群表示空間，然後依次通過L個包含Group Conv. Attention的Transformer Block；(b) 針對p4群（0°/90°/180°/270°）的Lifting層詳解；(c) 3D群卷積自注意力機制，在空間和群維度上聯合計算Softmax注意力。從圖中可以清晰看到，REViT的關鍵在於兩個核心模塊：Lifting層和分組卷積自注意力（G-CSA）。它們共同讓模型在沒有任何顯式位置編碼的情況下，天然具備了旋轉等變性。? Lifting層：從2D圖像到3D群空間Lifting層的任務，是將一張普通的2D輸入圖像“提升”到一個更高維的表示空間，這個空間不僅包含空間位置信息，還顯式編碼了離散的方向（或旋轉）通道。想象一下，你拿到一張照片，然後用Photoshop生成了它的4個副本，分別旋轉0°、90°、180°、270°。你把它們疊在一起，形成一個“多通道”的立體表示。Lifting層做的正是這件事，只不過它通過旋轉卷積來完成。對於輸入圖像和一組可學習的卷積核，Lifting操作定義為：這裡的關鍵在於。我們不再用固定的卷積核，而是對每個離散旋轉群元素（比如），都應用一個預先旋轉好的卷積核。這樣一來，Lifting層的輸出不再是一個2D特徵圖，而是一個3D的張量：。其中第三個“深度”維度，就對應著不同的旋轉方向。這個操作自然地引入了離散旋轉對稱性——如果輸入圖像被旋轉，那麼Lifting層的輸出只是在群維度上發生了循環位移，而不會破壞特徵的數值分佈。這正是等變性的基礎。? G-CSA：3D群空間中的自注意力如果說Lifting層完成了從平面到立體世界的躍遷，那麼G-CSA模塊則是在這個3D空間中執行自注意力，確保將等變性質傳遞到網絡的每一層。傳統的卷積自注意力（如CvT）在2D空間上，通過卷積投影生成Query、Key和Value序列，替代了線性投影。圖2：基於卷積投影的Q、K、V生成機制。輸入特徵經滑動卷積核局部感知後，由三路並行的卷積投影分別提取特徵，再展平得到query、key和value，在自注意力中引入局部歸納偏置。REViT的G-CSA則將這一思想推廣到了Lifting後的3D空間。它通過3D群等變卷積來計算Q、K和V：這裡的表示群等變卷積。由於我們在空間維度和群維度上同時執行卷積操作，生成的Q、K、V本身也都是群等變的——輸入被旋轉，Q、K、V也會跟著旋轉。接下來，G-CSA的注意力計算在空間鄰域和群結構上聯合進行：注意力權重通過Q與K的點積計算softmax得到。與普通自注意力不同，這裡的點積在所有空間位置和所有群元素上歸一化。這意味著模型不僅關注“空間上哪裡重要”，還關注“在哪個旋轉方向上重要”。論文中給出了嚴格的數學證明：對於任何群變換，G-CSA滿足。通俗地說：先旋轉輸入再計算注意力，等同於先計算注意力再旋轉輸出。這正是等變性的核心定義。這種設計如此優雅：它不需要任何位置編碼，因為卷積操作天然捕獲了局部空間結構，而群卷積則將這種結構感知能力擴展到了旋轉維度。整個網絡就像一個精密的齒輪系統，轉動輸入，所有中間表示都會同步轉動，信息不會丟失或混淆。? 為什麼必須剔除位置編碼？這裡有一個微妙但關鍵的點。可能你會問：如果位置編碼能幫助模型感知空間結構，我們為什麼不能保留它，同時再加入群等變設計？答案隱藏在Lifting層引入的群維度中。一旦我們將輸入提升到了空間，我們處理的不再是“這個像素在(50, 100)”這樣的絕對位置，而變成了“這個像素在旋轉了90°後的(25, 30)”。標準的位置編碼無法編碼這種群變換下的相對關係。強行添加絕對位置編碼，反而會破壞Lifting層辛辛苦苦建立起來的群等變性。而已經被證明會帶來沉重計算負擔的RPE，其最初目的正是在自注意力中恢復平移等變性。REViT通過轉用卷積自注意力，天然內建了平移等變性，因此RPE變得多餘。這真是一個一石二鳥的精巧設計。實驗驗證：數據不會說謊原理講得再漂亮，最終還得用數據說話。讓我們看看REViT在實際數據集上的表現。? 決戰SOTA：碾壓級性能優勢首先，我們將G-CSA與傳統群等變自注意力G-SA進行直接對比。表1：G-CSA與G-SA在Rotated MNIST和PatchCamelyon上的性能對比。G-CSA在Rotated MNIST上取得了全面領先，更關鍵的是在PatchCamelyon上用不到一半的參數(94.35K vs 205.66K)實現了大幅性能反超。從表1可以清晰看到，在Rotated MNIST和PatchCamelyon兩個數據集上，G-CSA在各個群結構（Z2, p4, p8, p4m）下均優於G-SA。最重磅的是PatchCamelyon上的結果：G-CSA只用了94.35K參數，而G-SA需要205.66K，但準確率卻實現了反超。這種參數效率的碾壓，充分證明了卷積投影替代RPE在性能和效率上的雙重勝利。接下來，我們看看REViT相比傳統群等變CNN（G-CNN）的提升有多大。圖1：REViT與現有群等變方法的氣泡圖對比。橫縱軸為Rotated MNIST和PatchCamelyon的準確率。REViT（藍色）在多個群結構下均佔據右上角最優區域，性能全面領先於G-SA（紅色）、G-CNN（黃色）與α-G-CNN（綠色）。圖1用氣泡圖直觀展現了REViT的統治力：在多個離散群下，REViT在兩個數據集上的準確率都佔據了右上角的最優位置。再看與群等變CNN基線的具體數據對比。表3：CSA變體與群等變CNN的性能比較。在Rotated MNIST、CIFAR-10和PatchCamelyon上，CSA變體全面優於對應的G-CNN基線模型。p8-CSA在Rotated MNIST上達到98.92%，p4m-CSA在CIFAR-10上達到92.68%，改進效果穩健。CSA變體在所有三個數據集上全面優於對應CNN基線。p8-CSA在Rotated MNIST上達到98.92%，比p8-CNN提升0.42個百分點；而p4m-CSA在PatchCamelyon上達到90.75%，反超SOTA方法α_F-p4m-CNN†的89.12%。這些數據表明，G-CSA能穩定提升群等變網絡的性能上限。最殘酷的對比來了：REViT vs 普通ViT。表4：REViT與vanilla ViT、CvT在Rotated MNIST上的對比。vanilla ViT即使使用隨機旋轉+平移數據增強，準確率也只有91.67%，而REViT的p8CSA達到98.03%，Z2CSA也達到95.97%，差距極為懸殊。即使vanilla ViT使用了離散隨機45°旋轉和平移的數據增強，其準確率也僅為91.67%。而REViT的p8CSA達到98.03%，Z2CSA達到95.97%，將數據增強的非等變模型遠遠甩在身後。這再次說明了將對稱性直接編碼進架構，遠比依賴數據增強去“學習不變性”更加有效和本質。⚡ 效率奇蹟：砍掉一半運算量和內存高性能常常以高開銷為代價。但REViT反其道而行之。表2：G-CSA與G-SA w/ RPE的效率對比。在相同骨幹網絡和輸入規模下，G-CSA的乘加運算量和內存佔用約為G-SA的一半甚至更低，p8-CSA的Mul-Add僅為15.98M，而p8-SA高達48.32M。在相同的batch size和輸入圖像下，G-CSA的乘加運算量（Mul-Add）和峰值模型內存（Total Size）幾乎是G-SA with RPE的一半甚至更低。例如，p8-CSA的Mul-Add僅為15.98M，而p8-SA則需要48.32M。這種級別的效率提升，意味著在相同的硬件條件下，你可以訓練更深的模型，或者處理更大分辨率的圖像。這是REViT能夠成功擴展到ImageNet-1K的硬件基礎。? 關鍵超參數消融：什麼決定了性能上限？G-CSA有兩個關鍵的超參數：群的階數（即包含多少個離散旋轉）和卷積核尺寸。它們如何影響最終性能？表5：G-CSA的消融實驗。(a)群階數由p4增至p12時準確率從98.73%升至99.01%，繼續增大至p16則下降，顯示並非越大越好；(b)卷積核5×5達到峰值98.73%，過大或過小均導致精度損失。實驗發現，增加群階數並不總是好事。從p4增至p12，準確率從98.73%提升至99.01%；但繼續增至p16時，準確率反而下降。這是因為更高階的群包含非網格對齊的旋轉（如22.5°），雙線性插值會引入近似誤差，損害等變精度。卷積核尺寸同樣存在最優值。5×5的核達到峰值98.73%。太小的核感受野受限，無法捕捉足夠的鄰域信息；太大的核可能破壞局部的平移等變性特性，並帶來過擬合風險。這些消融實驗為實際應用中的模型調優提供了明確指導。? 等變性實證：嚴苛的數學檢驗一個模型聲稱自己是“等變的”，就必須接受嚴格的數學檢驗。作者通過等變誤差（Equivariance Error）和預測一致性（Prediction Consistency）來量化這一點。表6：G-CSA的等變誤差。在p4、p4m群下，REViT的等變誤差極低（約1e-5至1e-2），與G-CNN處於同一量級，顯著優於vanilla ViT（約1e-1），證實了其架構的嚴格等變性。表6的結果令人信服：在p4和p4m群下，REViT的Lifting層和G-CSA塊後的等變誤差低至1e-5到1e-2量級，與G-CNN持平，而vanilla ViT則高達1e-1。這證明REViT的架構確實在執行嚴格的群等變。對於包含45°旋轉的p8群，等變誤差略有上升。這並非架構缺陷，而是輸入階段的插值偽影在搗鬼。圖4：離散旋轉下的插值近似誤差。90°旋轉因像素與網格精確對齊而保持數值精度；45°旋轉則導致像素落入網格間隙，雙線性插值引入混合數值和偽影，成為提升等變誤差(p8)的根源。圖4清晰地解釋了這一現象：90°旋轉與像素網格完美對齊，只需重排像素；但45°旋轉卻迫使像素點落在網格間隙，必須通過雙線性插值來估算，從而引入了無法完全消除的近似誤差。這是一個預處理器層面的固有侷限，而非REViT自身的設計問題。在隨機連續變換的泛化測試中，REViT再次展現了非凡的魯棒性。表11：REViT與vanilla ViT在隨機變換下的泛化對比。REViT總體預測一致性達96.99%，相比ViT提升11.61%；平均概率差異也大幅降低，表明其對訓練群外的連續變換仍保持高度預測穩定性。面對訓練時從未見過的任意角度連續旋轉，REViT的平均預測一致性高達96.99%，比普通ViT提升了11.61%，平均概率差異也大幅降低。這表明，從離散等變性中學習到的結構化對稱性，能夠很好地泛化到連續的變換空間。? 擴展ImageNet-1K：從玩具到工業級最後，作者證明了REViT完全可以擴展到ImageNet-1K這樣的工業級數據集。表7：REViT在ImageNet-1K上的性能。以18M參數量取得79.27% Top-1和94.45% Top-5準確率，顯著優於RE-ResNet(77.37%/11M)和ViT-S w/ aug(72.08%/22M)，達到了精度與效率的優秀平衡。REViT以18M參數取得了79.27%的Top-1和94.45%的Top-5準確率，完勝RE-ResNet的77.37%（11M）和ViT-S w/ aug的72.08%（22M）。這個結果的意義非凡：一個嚴格的等變架構，在沒有額外數據增強，也沒有預訓練蒸餾的情況下，就在大規模數據集上擊敗了經過高度混合增強的非等變Transformer。這充分展示了將幾何對稱性作為歸納偏置的巨大潛力。⚖️ 客觀評價與反思儘管REViT表現驚豔，我們也必須正視其固有的侷限。計算與內存代價：群等變架構的計算和內存開銷與底層群的階數（元素數量）成比例。例如p12群包含12個變換，意味著理論上要比普通模型多處理12倍的特徵映射。這導致推理延遲的增加，使其在資源極度受限或延遲極度敏感的場景下部署依然面臨挑戰。雖然作者通過窗口化G-CSA緩解了這個問題，但其根本性的開銷結構並未改變。高階群的非理想等變性：如前所述，對於包含非網格對齊旋轉的高階群，插值偽影會在輸入階段就引入誤差。雖然這並非REViT網絡本身的設計失誤，且誤差依然保持在很低水平（10^-2），但對於追求理論完美等變性的場景，這仍是一個需要感知的因素。未來方向：作者計劃將REViT擴展到更大規模的ViT架構，以及將其作為預訓練Backbone應用於方向性目標檢測和圖像分割。我個人也非常期待看到它在3D點雲處理、分子結構預測等更廣泛的幾何深度學習任務中的表現。? 總結與行動號召總的來說，REViT這項工作給我們上了精彩一課：巧妙的設計比複雜的公式更強大通過用卷積投影替代位置編碼，REViT在簡化實現的同時，實現了更強的等變性和更高的效率。等變性不是玄學，而是可檢驗的工程目標嚴格的等變誤差和預測一致性分析，用數據證明了架構設計的有效性。歸納偏置的價值在大規模數據下依然閃光ImageNet的實驗證明，將已知的物理規律（旋轉對稱性）直接編碼進模型，其收益甚至在充滿混合增強的數據環境中依然顯著。深度思考：你正在從事的目標檢測、醫學影像或機器人視覺任務中，是否也存在類似“旋轉讓模型犯糊塗”的痛點？REViT的設計思路，是否為你打開了一扇新的大門？歡迎在評論區分享你的見解和落地思考！REViT: Roto-reflection Equivariant Convolutional Vision Transformer

原始來源：雷峰網 ↗

查看原始來源

36氪研究與前沿

95後博士投身世界模型，臉譜心智融資數千萬元

這篇消息聚焦「95後博士投身世界模型，臉譜心智融資數千萬元」。原始導語提到：星連資本、360出手。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

TechWeb研究與前沿

工信部指導發佈《AI 眼鏡可信視界自律公約》：不得超範圍收集獲取用戶個人信息

中國信通院 6 月 25 日宣佈，在工業和信息化部信息通信管理局的指導下，中國信息通信研究院泰爾終端實驗室聯合深圳市 AI 眼鏡產業聯盟研究起草了《AI 眼鏡可信視界自律公約》（以下簡稱《公約》），得到產業鏈上下游企業的積極響應。

剛剛閱讀分析

36氪研究與前沿

阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事

這篇消息聚焦「阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事」。原始導語提到：同名不同命：三家世界模型各玩各的從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪研究與前沿

沒有統一名字的戰爭：國內各家大廠的世界模型版圖

這篇消息聚焦「沒有統一名字的戰爭：國內各家大廠的世界模型版圖」。原始導語提到：世界模型：大廠在“造世界”的賭桌上下注從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

12 小時前閱讀分析

鈦媒體研究與前沿

Edge AI Daily 早報（6月25日）

英偉達與SpaceX發債450億美元創紀錄，債務市場成為AI基建第二戰場；OpenAI與Broadcom聯合發佈Jalapeño推理芯片，9個月流片速度揭示AI實驗室轉向定製硬件研發趨勢。Alphabet納入道瓊斯指數標誌AI升格為美國經濟新底座，而Meta成為唯一拒絕政府AI審查的前沿巨頭，暴露開源基因與國家安全的結構性矛盾。

21 小時前閱讀分析

36氪研究與前沿

復旦博士COSER牽頭，蔡浩宇AI團隊的最新研究給我整笑了

這篇消息聚焦「復旦博士COSER牽頭，蔡浩宇AI團隊的最新研究給我整笑了」。原始導語提到：讓AI過家家，很有必要。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前閱讀分析

相關文章

95後博士投身世界模型，臉譜心智融資數千萬元

工信部指導發佈《AI 眼鏡可信視界自律公約》：不得超範圍收集獲取用戶個人信息

阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事

沒有統一名字的戰爭：國內各家大廠的世界模型版圖

Edge AI Daily 早報（6月25日）

復旦博士COSER牽頭，蔡浩宇AI團隊的最新研究給我整笑了