NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

重點摘要
NVIDIA 發布 Gated DeltaNet-2,這是一種創新的線性注意力層,透過兩個通道門控將記憶體編輯中的「擦除」與「寫入」操作分離。該模型以 13 億參數在 1000 億 FineWeb-Edu tokens 上訓練,在多項基準測試中表現優於 Mamba-2、
NVIDIA AI 近期發表了全新線性注意力層 Gated DeltaNet-2,這是一項針對遞迴式記憶壓縮與編輯效率的改良方案。傳統的 softmax 注意力需要維護一個無邊界的 KV 快取,導致記憶體隨序列長度線性成長;而線性注意力則改用固定大小的遞迴狀態,使序列運算時間降為線性、解碼記憶體恆定。然而,真正困難之處不在於「忘記」舊資訊,而在於如何在壓縮的記憶中進行編輯的同時,不破壞既有的關聯。Gated DeltaNet-2 正是為了解決這個瓶頸而生。
過去 delta 規則模型(如 DeltaNet)使用單一標量 βt 控制每次寫入的覆寫比例,而 Mamba-2 則引入資料相關的標量衰減 αt 來實現全局遺忘。後續的 Gated DeltaNet 同時結合了這兩種操作,但兩者仍保持為每個注意力頭的標量。Kimi Delta Attention(KDA)雖將衰減 αt 改為逐通道向量,卻仍保留單一標量 βt 同時控制擦除(key 側)與寫入(value 側)兩項決策。這種設計限制了模型的表達能力,因為擦除與寫入分別作用於狀態的不同軸向,不應被強制綁定。
Gated DeltaNet-2 的核心突破在於提出「Gated Delta Rule-2」,將原先的單一標量閘門拆解為兩個獨立的通道式閘門:擦除閘門 bt ∈ [0,1]^dk 作用於 key 軸,寫入閘門 wt ∈ [0,1]^dv 作用於 value 軸。兩者皆由 token 表示的 sigmoid 投影產生,並在更新公式中分別控制舊內容的清除與新內容的寫入。這個新設計可將先前的 Gated DeltaNet 與 KDA 視為其特例——當兩閘門退化為相同標量且衰減也為標量時,即可還原為舊模型,因此更具一般性。
在實作上,Gated DeltaNet-2 採用了與 KDA 相容的 chunkwise WY 形式,並使用 fused Triton 核心以 chunk size 64 進行訓練。由於寫入側與擦除側的閘門不同,反向傳播時無法直接套用 KDA 的標量 shortcut,論文為此推導了明確的閘門感知向量-雅可比乘積,並在 Hopper GPU 上以兩或四 warp 限制避免 WGMMA layout 斷言錯誤。模型整體採標準 Transformer 區塊設計,查詢與鍵路徑包含線性投影、短因果卷積、SiLU 與 L2 歸一化,數值路徑則另加輸出閘門。混合變體還加入了滑動窗口注意力(SWA),以處理精確的局部交互,同時維持序列線性擴展。
在 1.3B 參數規模、100B FineWeb-Edu token 的訓練設定下,Gated DeltaNet-2 在語言模型與常識推理基準測試中表現優於 Mamba-2、Gated DeltaNet、KDA 與 Mamba-3 等對比模型。它不僅平均分數最佳,在混合變體中也維持領先。這項成果顯示,將擦除與寫入決策解耦確實能更有效地管理壓縮記憶,避免因單一標量閘門造成的訊息衝突。
對讀者而言,Gated DeltaNet-2 的推出意味著線性注意力在長序列任務中的實用性再次提升。未來可關注其是否被整合至 Hugging Face Transformers 或 NVIDIA 的開源工具中,以及能否在更大規模(如 7B 或 13B)參數下維持優勢。此外,論文中的閘門感知反向傳播與 chunkwise 實作也為後續硬體優化提供了參考方向。對於從事長文本生成、對話系統或即時推理的開發者,這項技術可能降低記憶體需求,同時保留高品質的上下文理解能力。
Related
相關文章

GPT發AI原創新成果了
這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI越強,越要“殺死”過去的自己
這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks
In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

Transformer之父離開谷歌,奧特曼等了他十年
這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Dario訪談首曝:Mythos被稱為“超級武器”
這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

用結構替代數據,因果世界模型如何重塑具身智能大腦
這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。