量子位AI硬體

英偉達MoE新開源:一行import,微調加速3.7倍

2026年6月26日 11:35
英偉達MoE新開源:一行import,微調加速3.7倍

重點摘要

這篇消息聚焦「英偉達MoE新開源:一行import,微調加速3.7倍」。原始導語提到:在Transformers v5的基礎上,增加了專家並行、DeepEP和TransformerEngine 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

英偉達近期在開源社群投下一枚震撼彈,針對混合專家模型(MoE)推出了全新開源工具,僅需一行 `import` 即可輕鬆整合,讓微調速度大幅提升 3.7 倍。此舉基於 Transformers v5 架構,並進一步加入了專家並行(Expert Parallelism)、DeepEP 與 Transformer Engine 三大關鍵技術,為大型語言模型的落地應用帶來突破性進展。開發者不再需要繁複的手動調優,就能享受近乎無縫的加速體驗,這對於資源有限的團隊尤其重要。

混合專家模型(MoE)近年因 GPT-4、Mixtral 等模型而聲名大噪,其核心概念是將模型拆分成多個「專家」子網路,每次前向傳播僅啟動部分專家,從而在保持強大表達能力的同時大幅降低計算成本。然而,MoE 的微調卻面臨諸多挑戰,包括專家之間的不平衡負載、跨裝置的通訊瓶頸,以及記憶體佔用過高等問題。傳統的資料平行或模型平行方法難以有效應對這些動態特性,導致訓練效率低落。

英偉達此次引入的專家並行技術,正是為解決上述痛點而設計。與傳統模型平行將不同層分配到不同 GPU 不同,專家並行是將每個專家獨自分佈到不同裝置,並在運算時讓所有 GPU 同時處理各自的專家。這種方式能顯著減少啟動空白專家所浪費的資源,並透過動態路由演算法確保各專家工作負載接近平衡。搭配自訂的通訊原語,專家並行可將跨節點的資料交換延遲降到最低,使 MoE 微調的吞吐量獲得立竿見影的提升。

DeepEP 的加入則進一步深化了專家層級的效能最佳化。作為一種深度專家並行擴充套件,DeepEP 專注於專家層內部的記憶體排程與計算流程重組。它能夠智慧地將頻繁使用的專家引數快取到高速記憶體,並在反向傳播時重排梯度累積順序,減少記憶體碎片。此外,DeepEP 還提供了動態專家剪枝策略,在微調過程中自動關閉對當前任務貢獻度低的專家,不僅節省算力,還能抑制過擬合,一舉兩得。

Transformer Engine 則是英偉達針對 Transformer 架構打造的低精度運算庫。在 MoE 微調場景下,它支援 FP8 混合精度訓練,將矩陣乘法的位元寬度從 FP16 降到 FP8,同時維持模型收斂質量。Transformer Engine 會自動監控張量動態範圍,在每層選用最優縮放因子,並利用硬體層級的 Tensor Core 加速。實驗數據顯示,啟用 Transformer Engine 後,單卡運算效率可提升約 30%,且對最終模型效能幾乎無損。

上述三大技術被整合進 Transformers v5 框架,開發者只需在程式碼中加入 `import` 陳述式,便能一次性啟用所有加速機制。根據英偉達公佈的基準測試,在相同硬體環境下(8 張

Related

相關文章

AI設計9個月就能媲美Blackwell?OpenAI “辣芯”繞開英偉達正面戰場,但老黃的GPU大盤不穩了

這篇消息聚焦「AI設計9個月就能媲美Blackwell?OpenAI “辣芯”繞開英偉達正面戰場,但老黃的GPU大盤不穩了」。原始導語提到:九個月、AI 參與設計,打造全棧控制權。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

11 小時前

OpenAI 發佈首款芯片,只花了九個月

這篇消息聚焦「OpenAI 發佈首款芯片,只花了九個月」。原始導語提到:無法停止的飛輪 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前

OpenAI曝出第一顆芯片叫「辣椒」,AI自己設計,9個月流片

這篇消息聚焦「OpenAI曝出第一顆芯片叫「辣椒」,AI自己設計,9個月流片」。原始導語提到:OpenAI首顆自研芯片Jalapeño問世,9個月白紙到流片,創下行業最快紀錄。設計它的,正是跑在上面的AI模型。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前