清華聯合騰訊混元斬獲MLSys2026MoE推理挑戰賽冠軍,NPU推理提速4.1倍

2026年5月25日 06:028200 次瀏覽

重點摘要

清華大學存儲實驗室與騰訊混元AI Infra團隊在MLSys2026 MoE模型推理優化挑戰賽中獲全球冠軍。針對萬億參數混合專家(MoE)架構在異構NPU上的推理瓶頸,聯合團隊設計了全鏈路優化方案,包括E-Shard策略、PSUM三維張量批量讀出及GEMV路徑,顯著提升性能。

站內 AI 整理稿

- 清華大學存儲實驗室與騰訊混元 AI Infra 團隊近日在 MLSys2026 MoE 模型推理優化挑戰賽中拿下全球冠軍。這場競賽聚焦萬億參數混合專家(MoE)架構在異構 NPU 上的推理效率,聯合團隊提出的全鏈路優化方案成功突破瓶頸。

- 針對 MoE 模型常見的計算與記憶體不匹配問題,團隊設計了 E-Shard 策略來重新分配專家參數,並導入 PSUM 三維張量批量讀出機制,減少資料搬移開銷。同時透過優化 GEMV 路徑,讓推論過程中常見的矩陣向量運算更順暢,整體效能獲得顯著提升。

- MoE 模型雖然能以較低成本擴展參數量,卻因專家路由與動態負載特性,在異構硬體上容易遭遇延遲抖動與頻寬瓶頸。本次冠軍方案正好回應了業界對大規模生成式 AI 部署時的硬體適配需求,尤其是 NPU 這類新興加速器。

- 這項成果可能加速 MoE 模型在雲端或邊緣場景的落地,讓更大型的 AI 服務能在有限算力下流暢運行。對於採用異構硬體的資料中心而言,也提供了一套可參考的推理優化範例,有助於降低整體營運成本。

- 讀者後續可留意官方是否釋出更完整的技術報告或開源部分模組,例如 E-Shard 的實作細節。同時觀察這套方案是否能擴展到其他硬體平台(如 GPU 或 ASIC),以及騰訊混元是否會將其整合進自家模型服務中。

Related

相關文章

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 分鐘前

AI越強,越要“殺死”過去的自己

這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前
MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

8 小時前

Transformer之父離開谷歌,奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前

Dario訪談首曝:Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前

用結構替代數據,因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前