IT之家模型更新

華為與湖北移動完成全國運營商首個 AI 推理加速方案現網測試,長序列 Token 吞吐率提升 372%

2026年6月25日 06:59
華為與湖北移動完成全國運營商首個 AI 推理加速方案現網測試,長序列 Token 吞吐率提升 372%

重點摘要

華為與湖北移動聯合宣佈,基於 OceanStor A800 存儲與昇騰 A3 超節點架構的 AI 推理加速方案完成現網測試。在長序列 AI 推理場景下,針對 MiniMax M2.5、GLM-5.1 等大模型,Token 吞吐率最高可提升 372%,有效突破 KV Cache 容量瓶頸。 #AI 推理加速# #華為昇騰#

站內 AI 整理稿

### 重點整理:運營商首個 AI 推理加速方案現網測試達標

華為與湖北移動近日聯合宣布,雙方基於 OceanStor A800 儲存系統與昇騰 A3 超節點架構所打造的 AI 推理加速方案,已順利完成現網測試。在長序列推論場景中,針對 MiniMax M2.5、GLM-5.1 等大型語言模型,Token 吞吐率最高可提升 372%,成功破解了過去因 KV Cache 容量不足而導致的效能瓶頸。這項測試不僅是中國運營商領域的首個案例,也為邊緣端或電信網路中的即時 AI 應用提供了新的解方。

### 背景脈絡:長序列推論的效能痛點與技術突破

隨著大語言模型(LLM)應用日趨普及,像是長時間對話、長文件摘要或程式碼生成等場景,都需要模型處理數千甚至上萬 Token 的上下文。這類長序列推論最大的挑戰在於記憶體瓶頸:每生成一個新 Token,模型都需要快取先前所有 Token 的 Key-Value(KV)狀態,導致 KV Cache 迅速膨脹,超出傳統 GPU 記憶體或儲存架構的負荷。華為此次提出的方案,正是透過將 OceanStor A800 的高容量、低延遲儲存與昇騰 A3 的算力深度整合,讓 KV Cache 得以有效卸載與動態調度,從而大幅提升吞吐率。

### 技術架構亮點:儲存與算力的協同優化

華為與湖北移動的聯合方案並非單純升級硬體,而是設計了一套專為推論工作負載優化的軟硬體協同架構。OceanStor A800 扮演了「快取擴展層」的角色,利用其高速 NVMe 介面與智慧快取演算法,將多餘的 KV Cache 資料暫存於儲存端;昇騰 A3 超節點則透過專用互聯與儲存系統溝通,確保當模型需要存取歷史 Token 時,延遲仍可控制在可接受範圍。這樣的設計突破了傳統「所有 KV Cache 必須塞進 GPU 記憶體」的限制,讓運營商能用較低的單節點成本部署長序列推論服務。

### 可能影響之一:提升電信 AI 服務的部署效益與使用者體驗

對營運商而言,這項測試結果代表著 AI 推論基礎設施的效益將顯著提升。更高的 Token 吞吐率意味著在同一硬體規模下,可服務更多並發使用者,或是提供更長的上下文長度而不犧牲回應速度。特別是針對智慧客服、語音助理、網路維運分析等需長時間對話的場景,使用者將

Related

相關文章

美國政府要求OpenAI分階段發佈GPT-5.6,監管施壓成常態

這篇消息聚焦「美國政府要求OpenAI分階段發佈GPT-5.6,監管施壓成常態」。原始導語提到:OpenAI迫於美國政府監管壓力,調整GPT-5.6發佈策略,將採取分階段模式,先面向經篩選的可靠合作方測試,反映出AI軍備競賽正引發新一輪政策幹預。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

11 分鐘前

千問眼鏡青春期的煩惱

這篇消息聚焦「千問眼鏡青春期的煩惱」。原始導語提到:動態競爭從不停歇。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

5 小時前
鈦媒體模型更新

智譜VS Minimax,是Anthropic PK OpenAI的中國投影

這篇消息聚焦「智譜VS Minimax,是Anthropic PK OpenAI的中國投影」。原始導語提到:Anthropic與OpenAI的估值反轉,儼然是智譜VS Minimax的劇情預告。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

8 小時前
IT之家模型更新

OpenAI 再次升級 GPT-5.5 Instant AI:更具洞察力,購物推薦更實用

這篇消息聚焦「OpenAI 再次升級 GPT-5.5 Instant AI:更具洞察力,購物推薦更實用」。原始導語提到:OpenAI 今天(6 月 25 日)在 X 平臺發佈公告,宣佈升級 GPT-5.5 Instant 模型,更能洞察用戶表達意圖,並在處理複雜任務時更可靠。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前