英偉達MoE新開源：一行import，微調加速3.7倍

2026年6月26日 11:35

重點摘要

這篇消息聚焦「英偉達MoE新開源：一行import，微調加速3.7倍」。原始導語提到：在Transformers v5的基礎上，增加了專家並行、DeepEP和TransformerEngine 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

英偉達近期在開源社群投下一枚震撼彈，針對混合專家模型（MoE）推出了全新開源工具，僅需一行 `import` 即可輕鬆整合，讓微調速度大幅提升 3.7 倍。此舉基於 Transformers v5 架構，並進一步加入了專家並行（Expert Parallelism）、DeepEP 與 Transformer Engine 三大關鍵技術，為大型語言模型的落地應用帶來突破性進展。開發者不再需要繁複的手動調優，就能享受近乎無縫的加速體驗，這對於資源有限的團隊尤其重要。

混合專家模型（MoE）近年因 GPT-4、Mixtral 等模型而聲名大噪，其核心概念是將模型拆分成多個「專家」子網路，每次前向傳播僅啟動部分專家，從而在保持強大表達能力的同時大幅降低計算成本。然而，MoE 的微調卻面臨諸多挑戰，包括專家之間的不平衡負載、跨裝置的通訊瓶頸，以及記憶體佔用過高等問題。傳統的資料平行或模型平行方法難以有效應對這些動態特性，導致訓練效率低落。

英偉達此次引入的專家並行技術，正是為解決上述痛點而設計。與傳統模型平行將不同層分配到不同 GPU 不同，專家並行是將每個專家獨自分佈到不同裝置，並在運算時讓所有 GPU 同時處理各自的專家。這種方式能顯著減少啟動空白專家所浪費的資源，並透過動態路由演算法確保各專家工作負載接近平衡。搭配自訂的通訊原語，專家並行可將跨節點的資料交換延遲降到最低，使 MoE 微調的吞吐量獲得立竿見影的提升。

DeepEP 的加入則進一步深化了專家層級的效能最佳化。作為一種深度專家並行擴充套件，DeepEP 專注於專家層內部的記憶體排程與計算流程重組。它能夠智慧地將頻繁使用的專家引數快取到高速記憶體，並在反向傳播時重排梯度累積順序，減少記憶體碎片。此外，DeepEP 還提供了動態專家剪枝策略，在微調過程中自動關閉對當前任務貢獻度低的專家，不僅節省算力，還能抑制過擬合，一舉兩得。

Transformer Engine 則是英偉達針對 Transformer 架構打造的低精度運算庫。在 MoE 微調場景下，它支援 FP8 混合精度訓練，將矩陣乘法的位元寬度從 FP16 降到 FP8，同時維持模型收斂質量。Transformer Engine 會自動監控張量動態範圍，在每層選用最優縮放因子，並利用硬體層級的 Tensor Core 加速。實驗數據顯示，啟用 Transformer Engine 後，單卡運算效率可提升約 30%，且對最終模型效能幾乎無損。

上述三大技術被整合進 Transformers v5 框架，開發者只需在程式碼中加入 `import` 陳述式，便能一次性啟用所有加速機制。根據英偉達公佈的基準測試，在相同硬體環境下（8 張

原始來源：量子位 ↗

查看原始來源

AIBaseAI硬體

安森美 70 億美元全股票收購Synaptics，強勢佈局邊緣AI芯片賽道

安森美70億美元收購新突思，全股票交易將於2027年中完成。雙方產品高度互補，預計產生2億美元協同效應。交易完成後，新突思股東將獲得合併後公司約12%股份，並安排一名董事加入安森美董事會。

2 小時前5900閱讀分析

36氪AI硬體

AI設計9個月就能媲美Blackwell？OpenAI “辣芯”繞開英偉達正面戰場，但老黃的GPU大盤不穩了

這篇消息聚焦「AI設計9個月就能媲美Blackwell？OpenAI “辣芯”繞開英偉達正面戰場，但老黃的GPU大盤不穩了」。原始導語提到：九個月、AI 參與設計，打造全棧控制權。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

11 小時前閱讀分析

36氪AI硬體

OpenAI自研芯片270天光速成功，谷歌TPU大將主導，老黃一夜大客戶變對手

這篇消息聚焦「OpenAI自研芯片270天光速成功，谷歌TPU大將主導，老黃一夜大客戶變對手」。原始導語提到：OpenAI公告霸氣定義：這，就是全棧優勢從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

13 小時前閱讀分析

36氪AI硬體

OpenAI 發佈首款芯片，只花了九個月

這篇消息聚焦「OpenAI 發佈首款芯片，只花了九個月」。原始導語提到：無法停止的飛輪從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前閱讀分析

36氪AI硬體

OpenAI曝出第一顆芯片叫「辣椒」，AI自己設計，9個月流片

這篇消息聚焦「OpenAI曝出第一顆芯片叫「辣椒」，AI自己設計，9個月流片」。原始導語提到：OpenAI首顆自研芯片Jalapeño問世，9個月白紙到流片，創下行業最快紀錄。設計它的，正是跑在上面的AI模型。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前閱讀分析

AIBaseAI硬體

算力博弈新賽點：OpenAI 牽手博通發佈首款自研推理芯片“Jalapeño”

當地時間6月24日，OpenAI與博通聯合發佈首款定製AI推理芯片Jalapeño，該ASIC專為大模型推理打造，標誌著其深度介入硬件架構，尋求擺脫單一算力供應依賴，開發效率驚人。

1 天前5500閱讀分析

相關文章

安森美 70 億美元全股票收購Synaptics，強勢佈局邊緣AI芯片賽道

AI設計9個月就能媲美Blackwell？OpenAI “辣芯”繞開英偉達正面戰場，但老黃的GPU大盤不穩了

OpenAI自研芯片270天光速成功，谷歌TPU大將主導，老黃一夜大客戶變對手

OpenAI 發佈首款芯片，只花了九個月

OpenAI曝出第一顆芯片叫「辣椒」，AI自己設計，9個月流片

算力博弈新賽點：OpenAI 牽手博通發佈首款自研推理芯片“Jalapeño”