邁向光速文字生成:Nemotron-Labs 擴散語言模型
重點摘要
NVIDIA 推出 Nemotron-Labs 擴散語言模型,可並行生成多個 token 再迭代優化,相較傳統自回歸模型能更有效利用 GPU、修正生成錯誤並調控推理成本。該系列包含 3B、8B、14B 三種規模的純文字模型,以及 8B 規模的視覺語言模型,均採用商業友善的 NVIDIA 授權釋出,並同步開源訓練程式碼。
### 邁向光速文字生成:Nemotron-Labs 擴散語言模型如何改寫生成式 AI 的遊戲規則
大型語言模型(LLM)已經成為程式碼生成、數學解題、摘要與文件理解等開發者工作流程的預設工具。然而,多數LLM至今仍採用「自迴歸」(autoregressive)方式生成文字:一次只產生一個 token,且每個新 token 都依賴於先前產生的 token。這種方法雖然穩定、簡單,卻也帶來了硬體層面的瓶頸——每次生成新 token 都需要重新載入所有模型權重,導致 GPU 大部分時間花費在記憶體讀寫而不是實際運算,尤其對延遲敏感的應用或批次量較小的場景,效能明顯受限。更嚴重的是,自迴歸模型無法回頭修正已產生的 token,一旦中間出現錯誤,便會一路蔓延下去。
為了解決這些痛點,NVIDIA 旗下的 Nemotron-Labs 團隊推出了全新的**擴散語言模型(Diffusion Language Model, DLM)**。不同於傳統自迴歸生成,擴散語言模型可以一次平行生成多個 token,再透過多次迭代步驟來精煉這些 token。這種「先產生、再修飾」的機制不僅更能善用現代 GPU 的平行運算能力,還能在生成過程中主動修正過去 token 的錯誤,特別適合填空改寫或文字編輯任務。更重要的是,開發者可以透過調整精煉步驟的次數來控制推理運算量,實現「彈性預算」的推論——在需要更高效能時減少步驟,換取速度。
Nemotron-Labs Diffusion 模型系列提供 3B、8B 與 14B 三種參數規模的文字模型,以及一款 8B 規模的視覺語言模型(VLM),皆採用對商業友善的 NVIDIA Nemotron Open Model License 或 NVIDIA 原始碼授權。NVIDIA 同時釋出了基礎模型和經過指令微調的對話版本,並透過 Megatron Bridge 框架開放訓練程式碼。這一系列模型最引人注目的設計在於:**同一個模型支援三種生成模式**——傳統自迴歸模式(保持現有開發者熟悉的工作流程)、擴散模式(區塊式平行生成)、以及「自推測」模式(先以擴散產生多個候選 token,再以自迴歸驗證)。自推測模式融合了擴散的高吞吐量與自迴歸的可靠性,開發者只需在部署時切換設定,應用層幾乎不需修改程式碼。
在效能方面,Nemotron-Labs Diffusion 8B 模型在標準評測任務上的平均準確率比 Qwen3 8B 高出約 1.2%,而在「每前向傳遞產生的 token 數」(TPF,硬體無關的效率指標)上,擴散模式達到自迴歸模型的三倍左右,自推測模式更可達到六倍以上的效率提升,同時維持相近或更佳的準確度。這些成果背後,NVIDIA 的訓練方法也值得關注:他們並非從零開始訓練擴散模型,而是將預先訓練好的強力自迴歸模型轉換為擴散語言模型,大幅降低訓練難度,也保留了既有模型的知識。
這項技術的出現,對開發者社群與產業可能帶來深遠影響。首先,對於需要低延遲回應的應用(如即時聊天機器人、程式碼補全、互動式寫作助手),擴散語言模型能讓單一查詢的生成速度大幅提升,同時減少 GPU 記憶體頻寬的浪費。其次,內建的錯誤修正能力讓文字生成更可靠,尤其適合編輯、校對或填空任務。最後,多模式切換的彈性意味著企業可以在同一個模型上,根據不同場景的延遲與準確率需求,選擇最適合的推論策略,而不需維護多個模型。
讀者可持續關注以下後續發展:Nemotron-Labs Diffusion 模型在實際部署中的記憶體佔用與耗電表現;NVIDIA 是否會將相似技術整合進旗下 Triton Inference Server 或 TensorRT-LLM 等工具;以及開放社群能否基於開放的訓練碼,進一步探索擴散語言模型在長文本生成、多輪對話等場景的極限。此外,這一系列模型採用商業友善授權,意味著新創公司與企業
Related
相關文章

2026 最強智能眼鏡發佈,但“iPhone 時刻”還沒到來
這篇消息聚焦「2026 最強智能眼鏡發佈,但“iPhone 時刻”還沒到來」。原始導語提到:XR 眼鏡的 Android 時刻。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI算力變局:TPU正成為“另一個選項”
這篇消息聚焦「AI算力變局:TPU正成為“另一個選項”」。原始導語提到:當算力需求從訓練轉向推理時代,TPU的優勢開始凸顯,從過去的“配角”愈加有站上主舞臺之勢。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

車東西專訪德州儀器高管:汽車AI芯片不只是TOPS競賽
這篇消息聚焦「車東西專訪德州儀器高管:汽車AI芯片不只是TOPS競賽」。原始導語提到:車端AI來了,處理器競爭卻不止於AI? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

遠景張雷:啟動Mission Gobi AIDC建設計劃,讓全球戈壁成為下一代智能文明搖籃
這篇消息聚焦「遠景張雷:啟動Mission Gobi AIDC建設計劃,讓全球戈壁成為下一代智能文明搖籃」。原始導語提到:遠景AI電力系統旨在解決AI基礎設施發展的三大核心問題:如何讓相同的功率帶寬接入更多GPU,如何讓相同的電量產生更多智力,如何在相同投資下大幅降低電力成本? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
聯想推出百應AI主機300:賦能中小企業的“算力加速器”
聯想推出AI主機300,面向中小企業及超級個體,售價26999元,6月18日上線。該機搭載AMD銳龍AI Max+395處理器、128GB內存與2TB SSD,以高性能硬件與深度AI平臺,解決成長型業務在數據處理與內容創作中的效率痛點。

國產算力正在進入Token標準化時代
這篇消息聚焦「國產算力正在進入Token標準化時代」。原始導語提到:當前國產算力的瓶頸不在芯片本身,而在從異構算力到可用Token之間的工程化轉化能力。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。