GAIR Paper 106｜追蹤視覺 Token 的演化軌跡，實現無損壓縮與 60% 推理加速｜CVPR 2026

2026年6月25日 06:45

重點摘要

站內 AI 整理稿

從“誰被關注”到“誰在變化”，重新定義Token的重要性。作者丨李傲中國人民大學近年來，以LLaVA、Qwen系列為代表的大視覺語言模型（LVLM）推動了多模態智能的發展，在視覺理解與推理任務中展現不錯的表現。然而，其伴隨著高昂的推理成本。面對高分辨率圖像或者視頻時，模型往往需要處理大量視覺Token，而這些Token會在整個推理過程中持續參與計算，成為制約模型效率的重要瓶頸。因此，如何識別並保留真正重要的視覺Token，在儘可能不影響性能的前提下降低計算開銷，已成為當前多模態大模型研究的重要課題。來自山東大學，MBZUAI的研究團隊提出了TransPrune：從演化的視角衡量視覺Token的重要性，在保持整體性能無損的同時，將推理成本降低60%。論文arxiv鏈接：https://arxiv.org/abs/2507.20630代碼：https://github.com/liaolea/TransPrune01重要的Token不僅是“被關注的”，還是“持續演化”的現有Token Pruning方法大多依賴Attention Score或Token Similarity來衡量視覺Token的重要性，但這些方法在實際使用中都存在一定侷限性。基於Attention的方法通常假設“被關注得多的Token就更重要”，然而Attention本身存在位置偏差 (Attention Sink)，使得一些與語義無關的Token也可能獲得較高的注意力權重，從而影響重要性判斷的準確性。基於Token Similarity的方法則主要從冗餘性角度出發，通過衡量Token之間的相似程度來進行融合，但這類方法往往忽略了具體任務指令的影響，難以針對不同問題動態調整Token的重要性分配。論文發現，除了依賴某一層的Attention分數來判斷Token的重要性，還可以觀察Token在整個前向傳播過程中的“變化軌跡”。當一個視覺Token承載更重要的語義信息時，它在傳播中往往會經歷更顯著的表徵變化。重要Token並不是靜態存在的，而是在模型內部持續發生“演化”。基於這一觀察，論文將這種變化定義為Token Transition，並從兩個維度對其進行量化：一方面是Magnitude Change，即Token向量L2範數的變化，重要語義Token通常會表現出更明顯的幅值變化；另一方面是Direction Change，即Token表示方向的偏移，通過輸入與輸出表示之間的餘弦相似度進行衡量。實驗結果表明，真正重要的Token往往同時具有更大的Magnitude變化和更顯著的Direction變化，且這一現象在LLM的中間層尤為突出。02TransPrune: 基於Token演化的漸進式Token壓縮方法TransPrune整體方法由兩個互補模塊構成：Token Transition Variation（TTV）與Instruction-Guided Attention（IGA），分別從“Token自身在網絡中的演化軌跡”和“任務語義對Token的顯式約束”兩個角度衡量視覺Token的重要性。TTV作為核心評分機制，在模型前向傳播過程中持續跟蹤每個視覺Token在不同層之間的表示變化，並將這種變化量化為統一的重要性得分，實現對Token“動態重要性”的估計。單層的TTV往往具有較強噪聲，容易受到局部波動或特定層結構的影響，導致重要性判斷不穩定。相比之下，如果觀察Token在多個層中的持續變化趨勢，就可以更可靠地捕捉其“長期語義貢獻”。因此，論文對TTV引入了跨層累積機制來獲得更加穩定Token的重要性估計。然而，僅依靠TTV無法對齊具體問題指令的需求。為此，方法進一步引入IGA模塊，通過利用文本指令與視覺Token之間的注意力關聯，顯式建模當前問題對不同視覺區域的關注程度，從而為Token篩選提供任務層面的約束與引導。03實驗結果：對比現有within-LLM的裁剪方法領先論文對比了現有的within-LLM的方法，證明TransPrune在較低的TFLOPs的情況下仍然取得了性能的領先。論文還探索了TransPrune與projector-based壓縮方法的組合效果。當將其與VisionZip等方法結合使用時，在額外減少約三分之一計算量的情況下，模型性能僅出現極小幅度下降，表明Token Transition所刻畫的“動態重要性”與現有projector-based壓縮範式具有良好的互補性，不僅可以獨立發揮作用，還能夠作為插件式模塊嵌入到其他高效推理框架中，從而進一步提升整體計算效率。04結語通過發現並量化Token Transition這一現象，論文發現了一個全新的視覺Token重要性的衡量角度：不再僅僅取決於它在某一層中“被關注的程度”，還體現在它在整個網絡傳播過程中“持續演化的強度”。基於這一觀察，論文提出了TransPrune剪枝框架，在多個主流視覺語言模型上實現了顯著的推理加速，並保持了優異的性能表現。這項工作不僅能夠為高效視覺語言模型研究提供新的解決方案，也能夠啟發研究者從動態表徵演化的角度重新理解Transformer中的信息流動過程，為未來的多模態模型高效推理帶來更多可能性。雷峰網上車，帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。

原始來源：雷峰網 ↗

查看原始來源