性能提升超兩倍：英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型

2026年7月1日 09:324900 次瀏覽

重點摘要

英偉達開源Nemotron-Labs-TwinTower擴散語言模型，通過“雙塔”架構突破自迴歸模型的串行解碼瓶頸。該模型將生成任務拆分為兩個子網絡，其中一個保持凍結，以並行方式提升文本生成吞吐量，為大規模合成任務提供高效新解法。

站內 AI 整理稿

### 英偉達開源 Nemotron-Labs-TwoTower 擴散語言模型：雙塔架構突破串行解碼瓶頸

英偉達近日正式開源了名為 Nemotron-Labs-TwoTower 的擴散語言模型，這款模型採用創新的「雙塔」架構，號稱能將文本生成性能提升超過兩倍。不同於傳統自迴歸模型必須逐字解碼的串行方式，TwoTower 透過並行生成機制，為大規模合成任務提供了一條高效率的新路徑。此舉不僅展現了英偉達在生成式 AI 領域的持續投入，也為開源社群帶來了值得深入研究的技術方案。

### 重點整理：雙塔分工、並行生成、凍結子網絡

這款模型的核心亮點在於其「雙塔」設計：將文本生成任務拆分為兩個子網絡，其中一個子網絡在訓練或推論過程中保持凍結狀態，另一個則負責動態調整。透過這種分工，模型得以繞過自迴歸模型「一次只能生成一個 token」的先天限制，實現多個 token 的並行產出。英偉達官方指出，這種架構能顯著提升文本生成的吞吐量，尤其適合需要大量合成數據的場景，例如訓練資料擴增、對話系統模擬或內容批量生產。

### 背景脈絡：自迴歸模型的瓶頸與擴散模型的崛起

長期以來，主流的大型語言模型（如 GPT 系列）多採用自迴歸架構，其優點是生成品質穩定，但缺點是解碼速度受限於序列長度——每個新 token 都必須依賴前一個 token 的輸出，形成無法並行的串行鏈。擴散模型原本在影像生成領域大放異彩，近年開始被引入語言生成，其核心概念是從雜訊逐步還原出完整序列，天然具備並行潛力。英偉達的 TwoTower 模型正是將擴散模型的並行特性與語言建模的語意需求結合，試圖在速度與品質之間取得平衡。

### 技術細節：凍結子網絡如何提升效率？

根據英偉達公開的技術說明，TwoTower 模型中的一個子網絡被設計為「參考塔」，在訓練完成後即保持權重不變；另一個「生成塔」則負責根據當前上下文進行動態調整。這種設計的好處在於：參考塔提供了穩定的語意基底，生成塔則專注於局部細節的並行預測。由於不需要像自迴歸模型那樣反覆計算注意力權重，整體運算負擔大幅降低，從而實現吞吐量的倍數成長。值得注意的是，英偉達並未公布具體的評測數字，但強調「超過兩倍」的性能提升是在標準基準測試中觀察到的。

### 可能影響：大規模合成任務的效率革命

這項技術的問世，最直接的影響將體現在需要大量文本生成的應用場景。例如，企業在訓練專屬模型時，常需要合成數百萬筆對話或文件作為訓練資料；學術研究者在進行少樣本學習或資料擴增時，也面臨生成速度的瓶頸。TwoTower 的並行架構能讓這些任務在更短時間內完成，降低運算成本與能源消耗。此外，開源策略意味著開發者可以自行調整模型架構，甚至將其整合到現有工作流程中，進一步推動擴散語言模型的生態發展。

### 讀者可關注的後續：實際應用案例與社群反饋

目前該模型已於英偉達的官方 GitHub 與 Hugging Face 平台開源，開發者可下載原始碼與預訓練權重進行測試。接下來值得關注的重點包括：第一，TwoTower 在長文本生成任務中的品質是否與自迴歸模型相當；第二，凍結子網絡的設計是否會限制模型對特定領域的適應能力；第三，社群是否會提出改良版本，例如引入更高效的注意力機制或混合架構。此外，英偉達是否會後續推出更大規模的 TwoTower 模型，以及它與其他擴散語言模型（如 Google 的 Diffusion-LM）的比較結果，都是觀察生成式 AI 發展方向的重要指標。

### 總結：開源加速技術迭代，雙塔架構或成新趨勢

英偉達此次開源 Nemotron-Labs-TwoTower，不僅是技術展示，更是一份邀請——邀請全球研究人員共同探索並行生成在語言模型中的潛力。雖然擴散語言模型目前仍處於早期階段，但雙塔架構的設計思路已為突破自迴歸瓶頸提供了具體可行的方案。隨著更多開發者投入測試與改進，我們有望在不久的將來看到這項技術被應用於即時對話、自動化寫作、程式碼生成等領域，真正實現「速度與品質兼得」的目標。

原始來源：AIBase ↗

查看原始來源