性能提升超兩倍:英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型

2026年7月1日 09:324900 次瀏覽

重點摘要

英偉達開源Nemotron-Labs-TwinTower擴散語言模型,通過“雙塔”架構突破自迴歸模型的串行解碼瓶頸。該模型將生成任務拆分為兩個子網絡,其中一個保持凍結,以並行方式提升文本生成吞吐量,為大規模合成任務提供高效新解法。

站內 AI 整理稿

### 英偉達開源 Nemotron-Labs-TwoTower 擴散語言模型:雙塔架構突破串行解碼瓶頸

英偉達近日正式開源了名為 Nemotron-Labs-TwoTower 的擴散語言模型,這款模型採用創新的「雙塔」架構,號稱能將文本生成性能提升超過兩倍。不同於傳統自迴歸模型必須逐字解碼的串行方式,TwoTower 透過並行生成機制,為大規模合成任務提供了一條高效率的新路徑。此舉不僅展現了英偉達在生成式 AI 領域的持續投入,也為開源社群帶來了值得深入研究的技術方案。

### 重點整理:雙塔分工、並行生成、凍結子網絡

這款模型的核心亮點在於其「雙塔」設計:將文本生成任務拆分為兩個子網絡,其中一個子網絡在訓練或推論過程中保持凍結狀態,另一個則負責動態調整。透過這種分工,模型得以繞過自迴歸模型「一次只能生成一個 token」的先天限制,實現多個 token 的並行產出。英偉達官方指出,這種架構能顯著提升文本生成的吞吐量,尤其適合需要大量合成數據的場景,例如訓練資料擴增、對話系統模擬或內容批量生產。

### 背景脈絡:自迴歸模型的瓶頸與擴散模型的崛起

長期以來,主流的大型語言模型(如 GPT 系列)多採用自迴歸架構,其優點是生成品質穩定,但缺點是解碼速度受限於序列長度——每個新 token 都必須依賴前一個 token 的輸出,形成無法並行的串行鏈。擴散模型原本在影像生成領域大放異彩,近年開始被引入語言生成,其核心概念是從雜訊逐步還原出完整序列,天然具備並行潛力。英偉達的 TwoTower 模型正是將擴散模型的並行特性與語言建模的語意需求結合,試圖在速度與品質之間取得平衡。

### 技術細節:凍結子網絡如何提升效率?

根據英偉達公開的技術說明,TwoTower 模型中的一個子網絡被設計為「參考塔」,在訓練完成後即保持權重不變;另一個「生成塔」則負責根據當前上下文進行動態調整。這種設計的好處在於:參考塔提供了穩定的語意基底,生成塔則專注於局部細節的並行預測。由於不需要像自迴歸模型那樣反覆計算注意力權重,整體運算負擔大幅降低,從而實現吞吐量的倍數成長。值得注意的是,英偉達並未公布具體的評測數字,但強調「超過兩倍」的性能提升是在標準基準測試中觀察到的。

### 可能影響:大規模合成任務的效率革命

這項技術的問世,最直接的影響將體現在需要大量文本生成的應用場景。例如,企業在訓練專屬模型時,常需要合成數百萬筆對話或文件作為訓練資料;學術研究者在進行少樣本學習或資料擴增時,也面臨生成速度的瓶頸。TwoTower 的並行架構能讓這些任務在更短時間內完成,降低運算成本與能源消耗。此外,開源策略意味著開發者可以自行調整模型架構,甚至將其整合到現有工作流程中,進一步推動擴散語言模型的生態發展。

### 讀者可關注的後續:實際應用案例與社群反饋

目前該模型已於英偉達的官方 GitHub 與 Hugging Face 平台開源,開發者可下載原始碼與預訓練權重進行測試。接下來值得關注的重點包括:第一,TwoTower 在長文本生成任務中的品質是否與自迴歸模型相當;第二,凍結子網絡的設計是否會限制模型對特定領域的適應能力;第三,社群是否會提出改良版本,例如引入更高效的注意力機制或混合架構。此外,英偉達是否會後續推出更大規模的 TwoTower 模型,以及它與其他擴散語言模型(如 Google 的 Diffusion-LM)的比較結果,都是觀察生成式 AI 發展方向的重要指標。

### 總結:開源加速技術迭代,雙塔架構或成新趨勢

英偉達此次開源 Nemotron-Labs-TwoTower,不僅是技術展示,更是一份邀請——邀請全球研究人員共同探索並行生成在語言模型中的潛力。雖然擴散語言模型目前仍處於早期階段,但雙塔架構的設計思路已為突破自迴歸瓶頸提供了具體可行的方案。隨著更多開發者投入測試與改進,我們有望在不久的將來看到這項技術被應用於即時對話、自動化寫作、程式碼生成等領域,真正實現「速度與品質兼得」的目標。

Related

相關文章

Fable 5解禁,Anthropic同步發Sonnet 5模型搶人

這篇消息聚焦「Fable 5解禁,Anthropic同步發Sonnet 5模型搶人」。原始導語提到:峰迴路轉。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
量子位模型更新

A社你解釋下,啥叫Sonnet 5比Fable 5還貴?

這篇消息聚焦「A社你解釋下,啥叫Sonnet 5比Fable 5還貴?」。原始導語提到:“性價比模型”價格明降暗漲 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 小時前