英偉達MoE新開源:一行import,微調加速3.7倍

重點摘要
這篇消息聚焦「英偉達MoE新開源:一行import,微調加速3.7倍」。原始導語提到:在Transformers v5的基礎上,增加了專家並行、DeepEP和TransformerEngine 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
英偉達近期在開源社群投下一枚震撼彈,針對混合專家模型(MoE)推出了全新開源工具,僅需一行 `import` 即可輕鬆整合,讓微調速度大幅提升 3.7 倍。此舉基於 Transformers v5 架構,並進一步加入了專家並行(Expert Parallelism)、DeepEP 與 Transformer Engine 三大關鍵技術,為大型語言模型的落地應用帶來突破性進展。開發者不再需要繁複的手動調優,就能享受近乎無縫的加速體驗,這對於資源有限的團隊尤其重要。
混合專家模型(MoE)近年因 GPT-4、Mixtral 等模型而聲名大噪,其核心概念是將模型拆分成多個「專家」子網路,每次前向傳播僅啟動部分專家,從而在保持強大表達能力的同時大幅降低計算成本。然而,MoE 的微調卻面臨諸多挑戰,包括專家之間的不平衡負載、跨裝置的通訊瓶頸,以及記憶體佔用過高等問題。傳統的資料平行或模型平行方法難以有效應對這些動態特性,導致訓練效率低落。
英偉達此次引入的專家並行技術,正是為解決上述痛點而設計。與傳統模型平行將不同層分配到不同 GPU 不同,專家並行是將每個專家獨自分佈到不同裝置,並在運算時讓所有 GPU 同時處理各自的專家。這種方式能顯著減少啟動空白專家所浪費的資源,並透過動態路由演算法確保各專家工作負載接近平衡。搭配自訂的通訊原語,專家並行可將跨節點的資料交換延遲降到最低,使 MoE 微調的吞吐量獲得立竿見影的提升。
DeepEP 的加入則進一步深化了專家層級的效能最佳化。作為一種深度專家並行擴充套件,DeepEP 專注於專家層內部的記憶體排程與計算流程重組。它能夠智慧地將頻繁使用的專家引數快取到高速記憶體,並在反向傳播時重排梯度累積順序,減少記憶體碎片。此外,DeepEP 還提供了動態專家剪枝策略,在微調過程中自動關閉對當前任務貢獻度低的專家,不僅節省算力,還能抑制過擬合,一舉兩得。
Transformer Engine 則是英偉達針對 Transformer 架構打造的低精度運算庫。在 MoE 微調場景下,它支援 FP8 混合精度訓練,將矩陣乘法的位元寬度從 FP16 降到 FP8,同時維持模型收斂質量。Transformer Engine 會自動監控張量動態範圍,在每層選用最優縮放因子,並利用硬體層級的 Tensor Core 加速。實驗數據顯示,啟用 Transformer Engine 後,單卡運算效率可提升約 30%,且對最終模型效能幾乎無損。
上述三大技術被整合進 Transformers v5 框架,開發者只需在程式碼中加入 `import` 陳述式,便能一次性啟用所有加速機制。根據英偉達公佈的基準測試,在相同硬體環境下(8 張
Related
相關文章
安森美 70 億美元全股票收購Synaptics,強勢佈局邊緣AI芯片賽道
安森美70億美元收購新突思,全股票交易將於2027年中完成。雙方產品高度互補,預計產生2億美元協同效應。交易完成後,新突思股東將獲得合併後公司約12%股份,並安排一名董事加入安森美董事會。

AI設計9個月就能媲美Blackwell?OpenAI “辣芯”繞開英偉達正面戰場,但老黃的GPU大盤不穩了
這篇消息聚焦「AI設計9個月就能媲美Blackwell?OpenAI “辣芯”繞開英偉達正面戰場,但老黃的GPU大盤不穩了」。原始導語提到:九個月、AI 參與設計,打造全棧控制權。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

OpenAI自研芯片270天光速成功,谷歌TPU大將主導,老黃一夜大客戶變對手
這篇消息聚焦「OpenAI自研芯片270天光速成功,谷歌TPU大將主導,老黃一夜大客戶變對手」。原始導語提到:OpenAI公告霸氣定義:這,就是全棧優勢 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

OpenAI 發佈首款芯片,只花了九個月
這篇消息聚焦「OpenAI 發佈首款芯片,只花了九個月」。原始導語提到:無法停止的飛輪 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

OpenAI曝出第一顆芯片叫「辣椒」,AI自己設計,9個月流片
這篇消息聚焦「OpenAI曝出第一顆芯片叫「辣椒」,AI自己設計,9個月流片」。原始導語提到:OpenAI首顆自研芯片Jalapeño問世,9個月白紙到流片,創下行業最快紀錄。設計它的,正是跑在上面的AI模型。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
算力博弈新賽點:OpenAI 牽手博通發佈首款自研推理芯片“Jalapeño”
當地時間6月24日,OpenAI與博通聯合發佈首款定製AI推理芯片Jalapeño,該ASIC專為大模型推理打造,標誌著其深度介入硬件架構,尋求擺脫單一算力供應依賴,開發效率驚人。