GAIR Paper 106|追蹤視覺 Token 的演化軌跡,實現無損壓縮與 60% 推理加速|CVPR 2026
重點摘要
從“誰被關注”到“誰在變化”,重新定義Token的重要性。 作者丨李傲 中國人民大學 近年來,以LLaVA、Qwen系列為代表的大視覺語言模型(LVLM)推動了多模態智能的發展,在視覺理解與推理任務中展現不錯的表現。然而,其伴隨著高昂的推理成本。面對高分辨率圖像或者視頻時,模型往往需要處理大量視覺Token,而這些Token會在整個推理過程中持續參與計算,成為制約模型效率的重要瓶頸。因此,如何識別並保留真正重要的視覺Token,在儘可能不影響性能的前提下降低計算開銷,已成為當前多模態大模型研究的重要課題。來自山東大學,MBZUAI的研究團隊提出了TransPrune:從演化的視角衡量視覺Token的重要性,在保持整體性能無損的同時,將推理成本降低60%。論文arxiv鏈接:https://arxiv.org/abs/2507.20630代碼:https://github.com/liaolea/TransPrune01重要的Token不僅是“被關注的”,還是“持續演化”的現有Token Pruning方法大多依賴Attention Score或Token Similarity來衡量視覺Token的重要性,但這些方法在實際使用中都存在一定侷限性。基於Attention的方法通常假設“被關注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些與語義無關的Token也可能獲得較高的注意力權重,從而影響重要性判斷的準確性。基於Token Similarity的方法則主要從冗餘性角度出發,通過衡量Token之間的相似程度來進行融合,但這類方法往往忽略了具體任務指令的影響,難以針對不同問題動態調整Token的重要性分配。論文發現,除了依賴某一層的Attention分數來判斷Token的重要性,還可以觀察Token在整個前向傳播過
從“誰被關注”到“誰在變化”,重新定義Token的重要性。 作者丨李傲 中國人民大學 近年來,以LLaVA、Qwen系列為代表的大視覺語言模型(LVLM)推動了多模態智能的發展,在視覺理解與推理任務中展現不錯的表現。然而,其伴隨著高昂的推理成本。面對高分辨率圖像或者視頻時,模型往往需要處理大量視覺Token,而這些Token會在整個推理過程中持續參與計算,成為制約模型效率的重要瓶頸。因此,如何識別並保留真正重要的視覺Token,在儘可能不影響性能的前提下降低計算開銷,已成為當前多模態大模型研究的重要課題。來自山東大學,MBZUAI的研究團隊提出了TransPrune:從演化的視角衡量視覺Token的重要性,在保持整體性能無損的同時,將推理成本降低60%。論文arxiv鏈接:https://arxiv.org/abs/2507.20630代碼:https://github.com/liaolea/TransPrune01重要的Token不僅是“被關注的”,還是“持續演化”的現有Token Pruning方法大多依賴Attention Score或Token Similarity來衡量視覺Token的重要性,但這些方法在實際使用中都存在一定侷限性。基於Attention的方法通常假設“被關注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些與語義無關的Token也可能獲得較高的注意力權重,從而影響重要性判斷的準確性。基於Token Similarity的方法則主要從冗餘性角度出發,通過衡量Token之間的相似程度來進行融合,但這類方法往往忽略了具體任務指令的影響,難以針對不同問題動態調整Token的重要性分配。論文發現,除了依賴某一層的Attention分數來判斷Token的重要性,還可以觀察Token在整個前向傳播過程中的“變化軌跡”。當一個視覺Token承載更重要的語義信息時,它在傳播中往往會經歷更顯著的表徵變化。重要Token並不是靜態存在的,而是在模型內部持續發生“演化”。基於這一觀察,論文將這種變化定義為Token Transition,並從兩個維度對其進行量化:一方面是Magnitude Change,即Token向量L2範數的變化,重要語義Token通常會表現出更明顯的幅值變化;另一方面是Direction Change,即Token表示方向的偏移,通過輸入與輸出表示之間的餘弦相似度進行衡量。實驗結果表明,真正重要的Token往往同時具有更大的Magnitude變化和更顯著的Direction變化,且這一現象在LLM的中間層尤為突出。02TransPrune: 基於Token演化的漸進式Token壓縮方法TransPrune整體方法由兩個互補模塊構成:Token Transition Variation(TTV)與Instruction-Guided Attention(IGA),分別從“Token自身在網絡中的演化軌跡”和“任務語義對Token的顯式約束”兩個角度衡量視覺Token的重要性。TTV作為核心評分機制,在模型前向傳播過程中持續跟蹤每個視覺Token在不同層之間的表示變化,並將這種變化量化為統一的重要性得分,實現對Token“動態重要性”的估計。單層的TTV往往具有較強噪聲,容易受到局部波動或特定層結構的影響,導致重要性判斷不穩定。相比之下,如果觀察Token在多個層中的持續變化趨勢,就可以更可靠地捕捉其“長期語義貢獻”。因此,論文對TTV引入了跨層累積機制來獲得更加穩定Token的重要性估計。然而,僅依靠TTV無法對齊具體問題指令的需求。為此,方法進一步引入IGA模塊,通過利用文本指令與視覺Token之間的注意力關聯,顯式建模當前問題對不同視覺區域的關注程度,從而為Token篩選提供任務層面的約束與引導。03實驗結果:對比現有within-LLM的裁剪方法領先論文對比了現有的within-LLM的方法,證明TransPrune在較低的TFLOPs的情況下仍然取得了性能的領先。論文還探索了TransPrune與projector-based壓縮方法的組合效果。當將其與VisionZip等方法結合使用時,在額外減少約三分之一計算量的情況下,模型性能僅出現極小幅度下降,表明Token Transition所刻畫的“動態重要性”與現有projector-based壓縮範式具有良好的互補性,不僅可以獨立發揮作用,還能夠作為插件式模塊嵌入到其他高效推理框架中,從而進一步提升整體計算效率。04結語通過發現並量化Token Transition這一現象,論文發現了一個全新的視覺Token重要性的衡量角度:不再僅僅取決於它在某一層中“被關注的程度”,還體現在它在整個網絡傳播過程中“持續演化的強度”。基於這一觀察,論文提出了TransPrune剪枝框架,在多個主流視覺語言模型上實現了顯著的推理加速,並保持了優異的性能表現。這項工作不僅能夠為高效視覺語言模型研究提供新的解決方案,也能夠啟發研究者從動態表徵演化的角度重新理解Transformer中的信息流動過程,為未來的多模態模型高效推理帶來更多可能性。雷峰網上車,帶你看遍全球 AI 頂會精華可獨家暢覽:專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。
Related
相關文章

跟Claude談個戀愛怎麼了?Nature最新研究:真能給人聊傻了
這篇消息聚焦「跟Claude談個戀愛怎麼了?Nature最新研究:真能給人聊傻了」。原始導語提到:別把AI當老公,容易聊出精神病 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Fable 5即將復活,代碼已曝光?Anthropic CEO被白宮踢出來了
剛被「封印」,Fable 5就要滿血復活?最近,Claude Fable 5代碼痕跡曝光,開發者圈一片歡呼,而外媒爆料,Anthropic最近一路順利,背後竟是因為CEO被白宮趕下談判桌!

曝谷歌再失兩員大將,Gemini核心AI研究員要跳槽Anthropic
這篇消息聚焦「曝谷歌再失兩員大將,Gemini核心AI研究員要跳槽Anthropic」。原始導語提到:曝谷歌再失兩員AI大將。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

文心一言官網提問入口今日關閉,7 月 26 日服務遷移至百度文心網站
文心一言官網提問入口已於 6 月 25 日 0 時關閉,用戶需在 7 月 25 日前下載個人數據,包括對話記錄、收藏內容等。7 月 26 日起服務將正式遷移至百度文心網站,提供 AI 志願報告、AI PPT 等更豐富功能。 #文心一言# #AI 服務升級#

agent進駐工作群,我們給豆包支的招,Claude聽進去了
這篇消息聚焦「agent進駐工作群,我們給豆包支的招,Claude聽進去了」。原始導語提到:LLM的第三次革命,AI牛馬直接在群裡上班。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

80%代碼由Claude合併,Anthropic內部人員點破Agent真相:「Close the Loop」
Anthropic內部人員透露,Claude已成功合併80%的程式碼,並點破AI Agent的關鍵在於「Close the Loop」(閉環)。同時提醒開發者,不要再用過時的測試方法來評估當前的Claude。