Hugging Face BlogAI硬體

邁向光速文字生成：Nemotron-Labs 擴散語言模型

2026年5月23日 00:02

重點摘要

NVIDIA 推出 Nemotron-Labs 擴散語言模型，可並行生成多個 token 再迭代優化，相較傳統自回歸模型能更有效利用 GPU、修正生成錯誤並調控推理成本。該系列包含 3B、8B、14B 三種規模的純文字模型，以及 8B 規模的視覺語言模型，均採用商業友善的 NVIDIA 授權釋出，並同步開源訓練程式碼。

站內 AI 整理稿

### 邁向光速文字生成：Nemotron-Labs 擴散語言模型如何改寫生成式 AI 的遊戲規則

大型語言模型（LLM）已經成為程式碼生成、數學解題、摘要與文件理解等開發者工作流程的預設工具。然而，多數LLM至今仍採用「自迴歸」（autoregressive）方式生成文字：一次只產生一個 token，且每個新 token 都依賴於先前產生的 token。這種方法雖然穩定、簡單，卻也帶來了硬體層面的瓶頸——每次生成新 token 都需要重新載入所有模型權重，導致 GPU 大部分時間花費在記憶體讀寫而不是實際運算，尤其對延遲敏感的應用或批次量較小的場景，效能明顯受限。更嚴重的是，自迴歸模型無法回頭修正已產生的 token，一旦中間出現錯誤，便會一路蔓延下去。

為了解決這些痛點，NVIDIA 旗下的 Nemotron-Labs 團隊推出了全新的**擴散語言模型（Diffusion Language Model, DLM）**。不同於傳統自迴歸生成，擴散語言模型可以一次平行生成多個 token，再透過多次迭代步驟來精煉這些 token。這種「先產生、再修飾」的機制不僅更能善用現代 GPU 的平行運算能力，還能在生成過程中主動修正過去 token 的錯誤，特別適合填空改寫或文字編輯任務。更重要的是，開發者可以透過調整精煉步驟的次數來控制推理運算量，實現「彈性預算」的推論——在需要更高效能時減少步驟，換取速度。

Nemotron-Labs Diffusion 模型系列提供 3B、8B 與 14B 三種參數規模的文字模型，以及一款 8B 規模的視覺語言模型（VLM），皆採用對商業友善的 NVIDIA Nemotron Open Model License 或 NVIDIA 原始碼授權。NVIDIA 同時釋出了基礎模型和經過指令微調的對話版本，並透過 Megatron Bridge 框架開放訓練程式碼。這一系列模型最引人注目的設計在於：**同一個模型支援三種生成模式**——傳統自迴歸模式（保持現有開發者熟悉的工作流程）、擴散模式（區塊式平行生成）、以及「自推測」模式（先以擴散產生多個候選 token，再以自迴歸驗證）。自推測模式融合了擴散的高吞吐量與自迴歸的可靠性，開發者只需在部署時切換設定，應用層幾乎不需修改程式碼。

在效能方面，Nemotron-Labs Diffusion 8B 模型在標準評測任務上的平均準確率比 Qwen3 8B 高出約 1.2%，而在「每前向傳遞產生的 token 數」（TPF，硬體無關的效率指標）上，擴散模式達到自迴歸模型的三倍左右，自推測模式更可達到六倍以上的效率提升，同時維持相近或更佳的準確度。這些成果背後，NVIDIA 的訓練方法也值得關注：他們並非從零開始訓練擴散模型，而是將預先訓練好的強力自迴歸模型轉換為擴散語言模型，大幅降低訓練難度，也保留了既有模型的知識。

這項技術的出現，對開發者社群與產業可能帶來深遠影響。首先，對於需要低延遲回應的應用（如即時聊天機器人、程式碼補全、互動式寫作助手），擴散語言模型能讓單一查詢的生成速度大幅提升，同時減少 GPU 記憶體頻寬的浪費。其次，內建的錯誤修正能力讓文字生成更可靠，尤其適合編輯、校對或填空任務。最後，多模式切換的彈性意味著企業可以在同一個模型上，根據不同場景的延遲與準確率需求，選擇最適合的推論策略，而不需維護多個模型。

讀者可持續關注以下後續發展：Nemotron-Labs Diffusion 模型在實際部署中的記憶體佔用與耗電表現；NVIDIA 是否會將相似技術整合進旗下 Triton Inference Server 或 TensorRT-LLM 等工具；以及開放社群能否基於開放的訓練碼，進一步探索擴散語言模型在長文本生成、多輪對話等場景的極限。此外，這一系列模型採用商業友善授權，意味著新創公司與企業

原始來源：Hugging Face Blog ↗

查看原始來源

36氪AI硬體

2026 最強智能眼鏡發佈，但“iPhone 時刻”還沒到來

這篇消息聚焦「2026 最強智能眼鏡發佈，但“iPhone 時刻”還沒到來」。原始導語提到：XR 眼鏡的 Android 時刻。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前閱讀分析

36氪AI硬體

AI算力變局：TPU正成為“另一個選項”

這篇消息聚焦「AI算力變局：TPU正成為“另一個選項”」。原始導語提到：當算力需求從訓練轉向推理時代，TPU的優勢開始凸顯，從過去的“配角”愈加有站上主舞臺之勢。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前閱讀分析

智東西AI硬體

車東西專訪德州儀器高管：汽車AI芯片不只是TOPS競賽

這篇消息聚焦「車東西專訪德州儀器高管：汽車AI芯片不只是TOPS競賽」。原始導語提到：車端AI來了，處理器競爭卻不止於AI？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

22 小時前閱讀分析

鈦媒體AI硬體

遠景張雷：啟動Mission Gobi AIDC建設計劃，讓全球戈壁成為下一代智能文明搖籃

這篇消息聚焦「遠景張雷：啟動Mission Gobi AIDC建設計劃，讓全球戈壁成為下一代智能文明搖籃」。原始導語提到：遠景AI電力系統旨在解決AI基礎設施發展的三大核心問題：如何讓相同的功率帶寬接入更多GPU，如何讓相同的電量產生更多智力，如何在相同投資下大幅降低電力成本？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前閱讀分析

AIBaseAI硬體