騰訊混元提出 Stem 稀疏注意力算法，首字延遲降低 3.6 倍

2026年6月5日 20:38

重點摘要

騰訊混元團隊提出「Stem稀疏注意力」演算法，獲頂尖會議ICML 2026收錄，能將大型語言模型的首字延遲平均降低3.6倍，顯著提升長序列處理效率。該技術透過動態跳過不重要的注意力計算來減少運算量，尤其對聊天機器人、即時翻譯等低延遲應用極具價值。

站內 AI 整理稿

# 騰訊混元發表「Stem稀疏注意力」演算法，ICML 2026 收錄，首字延遲降低 3.6 倍

騰訊旗下混元團隊近日對外宣布，其提出的「Stem稀疏注意力」演算法（Stem Sparse Attention）已獲機器學習頂級會議 ICML 2026 正式收錄。該技術主打提升大型語言模型在長序列處理上的效率，尤其針對生成過程中的「首字延遲」問題，號稱能將等待時間壓縮至原來的 3.6 分之一。這項進展對於聊天機器人、即時翻譯、程式碼生成等需要低延遲回應的應用場景，具備明顯的實用價值。

## 重點整理：什麼是 Stem 稀疏注意力？

傳統的 Transformer 模型仰賴「注意力機制」來計算每個詞與前後文的關聯，但當輸入序列長度增加時，計算量會呈平方級成長，導致回應速度明顯下滑。騰訊混元提出的 Stem 稀疏注意力，核心概念是在維持模型理解能力的同時，動態跳過不重要的注意力計算。相較於過去一些固定的稀疏模式（如滑動視窗或步進模式），Stem 能根據輸入內容即時判斷哪些位置的注意力權重較低，並予以省略，進而減少多餘的矩陣運算。

根據團隊公布的數據，採用 Stem 後，首字延遲（即使用者送出提示到模型吐出第一個字元的時間）平均降低約 3.6 倍。這意味著原本可能讓使用者感到卡頓的長上下文任務，如今能更流暢地開始回應。同時，該演算法已被 ICML 2026 接受，代表其理論創新與實驗結果獲得學術界認可。

## 背景脈絡：長上下文與低延遲的兩難

過去一年，各大 AI 實驗室紛紛推出百萬甚至千萬 token 等級的長上下文模型，讓模型能一次讀完整本小說或整份程式碼庫。然而，長上下文伴隨而來的副作用就是計算負擔暴增，尤其當使用者輸入大量提示後，模型必須先編譯整段內容，才能開始生成第一個字。這段「首字延遲」在實務上可能從數秒到數十秒不等，嚴重影響互動體驗。

騰訊混元的 Stem 演算法正是為了解決這個痛點而誕生。它並非從頭設計一個全新的模型架構，而是提出一種可插拔的注意力稀疏化策略，可整合到現有 Transformer 模型中。這也反映了當前 AI 效率研究的一個主流趨勢：在不犧牲太多精確度的前提下，透過更聰明的計算分配來壓低延遲與記憶體用量。

## 可能影響：聊天機器人、邊緣裝置與即時服務

從產業角度來看，Stem 稀疏注意力最直接的受益者就是對話式 AI 服務。無論是客服機器人、虛擬助理或程式輔助工具，使用者對第一反應時間極為敏感。延遲降低 3.6 倍，可能讓原本需等待 3 秒的場景縮短到 1 秒內，大幅提升使用意願。

其次，這項技術也有助於將大型模型部署到運算資源較受限的環境，例如手機、筆電或邊緣伺服器。因為稀疏注意力降低了推論階段的浮點運算次數，連帶減少記憶體頻寬需求，使得本地端運行中等規模的長上下文模型變得更有可行性。對於重視資料隱私、希望避免將敏感資訊上雲的企業或個人使用者，這是一個值得關注的方向。

不過需要留意的是，任何稀疏化方法本質上都是在速度與理解品質之間取捨。Stem 是否在所有任務上都能維持與完整注意力相近的表現，仍需要更多第三方驗證。此外，3.6 倍的改善幅度可能是在特定硬體、特定模型規模與特定資料集下測得，實際部署時不一定能重現相同比例。

## 讀者可關注的後續發展

首先，ICML 2026 預計將於明年夏季舉行，屆時騰訊混元團隊會發表論文的完整版本，包括演算法的數學細節、在不同長度與任務上的基準測試結果，以及與其他稀疏注意力方法（如 H2O、StreamingLLM、MInference 等）的對比。建議有技術背景的讀者直接閱讀論文，以釐清 Stemp 的真正優勢與適用範圍。

其次，可觀察騰訊是否會開源 Stem 的程式碼或提供可整合至 Hugging Face Transformers 的外掛。目前許多效率最佳化技術因為缺乏標準化實作，難以被社群廣泛採用。若騰訊願意貢獻出易於使用的實作，將加速這項技術進入各主流框架。

最後，不妨留意其他中國與國際 AI 團隊是否會跟進提出類似或更優的稀疏注意力設計。Stem 被頂會收錄本身就帶有指標意義，可能引發新一波針對「可學習稀疏模式」的研究熱潮。對於一般使用者來說，最直接的感受就是未來使用長上下文聊天機器人時，回答的起頭將不再令人煩躁地轉圈等待——而這正是演算法進步最接地氣的價值所在。

原始來源：IT之家 ↗

查看原始來源

量子位研究與前沿

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到：AI實現藥物全自動研發，還遠嗎？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪研究與前沿

AI越強，越要“殺死”過去的自己

這篇消息聚焦「AI越強，越要“殺死”過去的自己」。原始導語提到：人類需要實現思維模式的轉變。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 小時前閱讀分析

MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

7 小時前閱讀分析

36氪研究與前沿

Transformer之父離開谷歌，奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌，奧特曼等了他十年」。原始導語提到：27億美元也沒能留住，Noam Shazeer追尋下一代架構。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 小時前閱讀分析

36氪研究與前沿

Dario訪談首曝：Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝：Mythos被稱為“超級武器”」。原始導語提到：在這場69分鐘完整訪談裡，Dario Amodei 說人類真正面對的不是某個突然降臨的奇點，而是一條已經開始垂直起飛的指數曲線。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前閱讀分析

鈦媒體研究與前沿

用結構替代數據，因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據，因果世界模型如何重塑具身智能大腦」。原始導語提到：因果世界模型需要一個標誌性的時刻來證明自己。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前閱讀分析

相關文章

GPT發AI原創新成果了

AI越強，越要“殺死”過去的自己

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

Transformer之父離開谷歌，奧特曼等了他十年

Dario訪談首曝：Mythos被稱為“超級武器”

用結構替代數據，因果世界模型如何重塑具身智能大腦