NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

2026年5月24日 07:42

重點摘要

NVIDIA 發布 Gated DeltaNet-2，這是一種創新的線性注意力層，透過兩個通道門控將記憶體編輯中的「擦除」與「寫入」操作分離。該模型以 13 億參數在 1000 億 FineWeb-Edu tokens 上訓練，在多項基準測試中表現優於 Mamba-2、

站內 AI 整理稿

NVIDIA AI 近期發表了全新線性注意力層 Gated DeltaNet-2，這是一項針對遞迴式記憶壓縮與編輯效率的改良方案。傳統的 softmax 注意力需要維護一個無邊界的 KV 快取，導致記憶體隨序列長度線性成長；而線性注意力則改用固定大小的遞迴狀態，使序列運算時間降為線性、解碼記憶體恆定。然而，真正困難之處不在於「忘記」舊資訊，而在於如何在壓縮的記憶中進行編輯的同時，不破壞既有的關聯。Gated DeltaNet-2 正是為了解決這個瓶頸而生。

過去 delta 規則模型（如 DeltaNet）使用單一標量 βt 控制每次寫入的覆寫比例，而 Mamba-2 則引入資料相關的標量衰減 αt 來實現全局遺忘。後續的 Gated DeltaNet 同時結合了這兩種操作，但兩者仍保持為每個注意力頭的標量。Kimi Delta Attention（KDA）雖將衰減 αt 改為逐通道向量，卻仍保留單一標量 βt 同時控制擦除（key 側）與寫入（value 側）兩項決策。這種設計限制了模型的表達能力，因為擦除與寫入分別作用於狀態的不同軸向，不應被強制綁定。

Gated DeltaNet-2 的核心突破在於提出「Gated Delta Rule-2」，將原先的單一標量閘門拆解為兩個獨立的通道式閘門：擦除閘門 bt ∈ [0,1]^dk 作用於 key 軸，寫入閘門 wt ∈ [0,1]^dv 作用於 value 軸。兩者皆由 token 表示的 sigmoid 投影產生，並在更新公式中分別控制舊內容的清除與新內容的寫入。這個新設計可將先前的 Gated DeltaNet 與 KDA 視為其特例——當兩閘門退化為相同標量且衰減也為標量時，即可還原為舊模型，因此更具一般性。

在實作上，Gated DeltaNet-2 採用了與 KDA 相容的 chunkwise WY 形式，並使用 fused Triton 核心以 chunk size 64 進行訓練。由於寫入側與擦除側的閘門不同，反向傳播時無法直接套用 KDA 的標量 shortcut，論文為此推導了明確的閘門感知向量-雅可比乘積，並在 Hopper GPU 上以兩或四 warp 限制避免 WGMMA layout 斷言錯誤。模型整體採標準 Transformer 區塊設計，查詢與鍵路徑包含線性投影、短因果卷積、SiLU 與 L2 歸一化，數值路徑則另加輸出閘門。混合變體還加入了滑動窗口注意力（SWA），以處理精確的局部交互，同時維持序列線性擴展。

在 1.3B 參數規模、100B FineWeb-Edu token 的訓練設定下，Gated DeltaNet-2 在語言模型與常識推理基準測試中表現優於 Mamba-2、Gated DeltaNet、KDA 與 Mamba-3 等對比模型。它不僅平均分數最佳，在混合變體中也維持領先。這項成果顯示，將擦除與寫入決策解耦確實能更有效地管理壓縮記憶，避免因單一標量閘門造成的訊息衝突。

對讀者而言，Gated DeltaNet-2 的推出意味著線性注意力在長序列任務中的實用性再次提升。未來可關注其是否被整合至 Hugging Face Transformers 或 NVIDIA 的開源工具中，以及能否在更大規模（如 7B 或 13B）參數下維持優勢。此外，論文中的閘門感知反向傳播與 chunkwise 實作也為後續硬體優化提供了參考方向。對於從事長文本生成、對話系統或即時推理的開發者，這項技術可能降低記憶體需求，同時保留高品質的上下文理解能力。

原始來源：MarkTechPost AI ↗

查看原始來源

量子位研究與前沿

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到：AI實現藥物全自動研發，還遠嗎？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪研究與前沿

AI越強，越要“殺死”過去的自己

這篇消息聚焦「AI越強，越要“殺死”過去的自己」。原始導語提到：人類需要實現思維模式的轉變。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前閱讀分析

MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

8 小時前閱讀分析

36氪研究與前沿

Transformer之父離開谷歌，奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌，奧特曼等了他十年」。原始導語提到：27億美元也沒能留住，Noam Shazeer追尋下一代架構。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前閱讀分析

36氪研究與前沿

Dario訪談首曝：Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝：Mythos被稱為“超級武器”」。原始導語提到：在這場69分鐘完整訪談裡，Dario Amodei 說人類真正面對的不是某個突然降臨的奇點，而是一條已經開始垂直起飛的指數曲線。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前閱讀分析

鈦媒體研究與前沿

用結構替代數據，因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據，因果世界模型如何重塑具身智能大腦」。原始導語提到：因果世界模型需要一個標誌性的時刻來證明自己。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前閱讀分析

相關文章

GPT發AI原創新成果了

AI越強，越要“殺死”過去的自己

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

Transformer之父離開谷歌，奧特曼等了他十年

Dario訪談首曝：Mythos被稱為“超級武器”

用結構替代數據，因果世界模型如何重塑具身智能大腦