深圳國產芯片成功訓練萬億級 AI 大模型:依託華為昇騰 910C,達到工業級運行標準

重點摘要
深圳利用華為昇騰910C國產芯片,成功訓練出參數達萬億級的AI大模型,並達到工業級運行標準。此為全球第三方機構在國產算力平台上完成此類超大模型訓練的重要探索,證明了國產AI芯片可支撐世界級規模的模型訓練任務。 我们只需要生成2-3句话的摘要,包含关键信息:深圳、国产芯片(华为昇腾910C)、成功训练万亿级AI大模型、达到工业级运行标准、全球第三方机构在国产算力平台上的探索经验。
## 深圳国产芯片成功訓練萬億級AI大模型:華為昇騰910C寫下算力自主新頁
近日,深圳河套學院AI訓練平台團隊攜手哈爾濱工業大學(深圳)、深圳市大數據研究院及華為團隊,依託昇騰910C國產AI算力集群,正式完成擁有1.6兆(1.6萬億)參數的DeepSeek-V4-Pro大模型全參數後訓練。這項成果不僅驗證了國產AI晶片具備支撐世界級超大參數模型訓練的能力,也在全球第三方機構於國產算力平台上進行同級別模型訓練的相關探索中,寫下極具指標性的里程碑。
### 🎯 從「能用」到「工業級可用」:國產算力的三大技術突破
訓練萬億級參數模型,向來是AI領域最艱鉅的工程挑戰之一。DeepSeek-V4-Pro採用混合專家模型(MoE)架構,好比一個龐大的「專家團」——平時回答問題只啟動少數專家,看似高效,但在全參數後訓練階段,「專家們」之間的溝通量卻是普通模型的數十倍,加上動態切換的注意力機制,對晶片算力調度與顯存管理構成極高要求。
為突破這項難題,研究團隊在技術層面實現了三項關鍵突破。首先是「顯存拼圖」,團隊設計出精密的分布式承載方案,將龐大的模型參數精準分配到千卡集群的每一張晶片上,解決了超大模型無法塞入單卡的技術瓶頸。其次是「負載均衡」,透過優化調度策略,確保MoE模型中每個「專家」的分工合理,有效避免跨卡通信擁塞的狀況。第三是「全程監控」,團隊建立完整的可視化監控體系,確保長達1,500多步的訓練過程中,未曾出現任何中斷或報錯。
根據官方數據,此次訓練僅耗時一個月便達成DeepSeek-V4-Pro全參數續訓練/SFT穩定運行,模型算力利用率(MFU)超過30%,關鍵訓練算子效率提升14%,所有指標均達到工業級運行標準,充分檢驗了國產算力對超大參數模型的承載能力。
### 💡 核心引擎:昇騰910C的性能與量產進展
支撐這項突破的關鍵,是華為旗艦級AI處理器「昇騰910C」。該晶片採用中芯國際第二代7奈米(N+2)製程與自研達芬奇架構,透過Chiplet封裝技術將兩顆910B晶片整合而成,集成約530億個電晶體,FP16精度下算力達800 TFLOPS,配備128GB HBM高頻寬記憶體,記憶體頻寬達3.2 TB/s,整體性能被業界認為足以對標輝達H100。
在量產方面,華為已將昇騰910C的製造良率從先前的20%提升至接近40%,生產線已首度達到獲利門檻,且目標是將良率進一步拉高到60%。據市場消息,華為2025年全年預計出貨910C約30萬片,2026年更有望上看60萬片。阿里巴巴、字節跳動及騰訊等雲端巨頭已提前向華為下單數十萬顆晶片,甚至帶動晶片價格上漲約20%,足見市場需求極為強勁。
### 📍 深圳「萬卡級」智算集群:國產算力的戰略底座
本次訓練之所以能夠順利完成,背後得益於深圳在國產算力基礎建設上的長期布局。今年3月至4月間,深圳正式啟用全國首個萬卡級全棧國產智算集群,部署超過萬張昇騰910C晶片,總算力規模達14,000P,是全國首個部署萬張昇騰910C晶片的超節點智算集群。該集群採用全棧自主可控技術,結合「昇騰+CANN」自主軟硬體生態,為本次大規模模型訓練提供了穩固的運算底盤。
此外,深圳這座萬卡智算集群的實際運營表現相當亮眼。根據實測數據,該集群的故障率低至千分之0.3,訓練線性度高達93.12%,意味著隨著集群規模不斷擴大,整體運算效率並未因為通信瓶頸而大幅衰減,這對於支撐未來更大規模的AI訓練任務至關重要。
### 🌍 大國科技博弈下的算力自主:政策與市場雙重推力
這項突破之所以備受矚目,與全球AI晶片的地緣政治格局息息相關。美國政府持續收緊對中國的AI晶片出口管制,輝達專為中國市場設計的H20晶片已遭無限停售,甚至連輝達執行長黃仁勳都坦言,該公司在中國高階晶片市場的市占率已從95%降至0%。在此背景下,中國政府積極推動算力自主化戰略——工信部首度將華為、寒武紀等本土AI處理器納入政府認可供應商名單,並在新建數據中心審批中明確要求優先採用國產算力方案。
然而需留意的是,近期美國政府也宣布放寬輝達H200晶片對陸出口限制,中美科技競局的下一步走向仍充滿變數。但在政策引導與市場需求的雙重驅動下,採用國產晶片訓練頂級AI模型已從「理論可行」走向「實戰驗證」,對整體AI供應鏈的穩定性具備深遠意義。
### ⚠️ 挑戰與下一步:我們可以關注哪些方向?
儘管捷報頻傳,但要真正達到與國際頂尖AI晶片並駕齊驅,仍有不少瓶頸尚待克服。首先,從單晶片性能來看,根據DeepSeek團隊的實測,昇騰910C在推理任務上的性能約為輝達H100的60%。而在訓練與記憶體頻寬方面,輝達H200配備高達141GB HBM3e記憶體,頻寬達4.8TB/s,仍較國產晶片普遍採用的HBM2e領先一個世代。華為已意識到這項差距,接下來的對策是透過「超節點」技術——將大量單顆算力稍弱的晶片透過高速互聯組成超大規模集群——從系統層面來彌補單卡性能的不足。根據華為最新公布的AI晶片路線圖,2026年第一季將推出規格更強的昇騰950PR晶片,算力達1 PFLOPS(FP8),並搭載自研HBM記憶體,後續還有昇騰960、970規劃問世,性能預計逐代翻倍。值得密切觀察的是,這些新一代晶片是否會進一步投入大規模模型訓練,以及其成本與量產良率能否同步獲得改善。
從更宏觀的產業視角來看,台灣讀者可以持續關注以下幾個面向:**國產AI晶片的軟體生態(CANN框架與開發工具鏈)成熟度,是否能吸引更多開發者投入;以「萬卡級」智算集群為代表的國產算力基礎建設,是否能在更多一線城市複製與擴張;華為、百度昆侖芯、摩爾線程等本土晶片廠商的市占率變化;以及中美出口管制政策的下一步調整**,都將深刻影響未來三到五年的全球AI晶片市場格局。
本次深圳團隊以昇騰910C成功訓練萬億級參數模型,無疑是國產算力發展歷程中的一道分水嶺。它標誌著在關鍵技術與基礎設施層面,自主化路徑已具備可行性的「實證基礎」。當然,在單晶片絕對性能、先進製程及軟體生態上,仍有相當距離需要追趕。接下來真正的考題,將會是如何在更大規模的實戰場景中,持續驗證可靠性與成本效益——這不僅是技術課題,也將是一場攸關半導體供應鏈韌性與產業話語權的長期競賽。
用户DEEP_SEARCH需要一篇基于特定标题和简短原文的深度整理稿,要求原创、不复制原文,并包含重点、背景、影响和后续关注点。原文信息有限,得从几个关键维度入手:事件本身(深圳团队、华为昇腾910C、万亿参数模型)、华为的芯片进展、以及算力受限的整体背景。这几个方向分开搜索,能更全面地获取撰写所需的信息。FINISHED出来了,信息很丰富。事件本身很明确:深圳河套学院团队用昇腾910C集群训练了1.6万亿参数的DeepSeek-V4-Pro模型,属于全参数后训练,达到了工业级标准。关于昇腾910C,有百度百科词条和多个报道提供了详细的性能参数,比如800 TFLOPS (FP16)、128GB HBM,并提到其性能对标英伟达H100,但也有一些实测数据显示推理性能约为H100的60%。算力受限和国产替代的背景方面,有报道提到华府考量放宽H200出口,但中方政策仍强调优先采用国产算力。生产端也有良率提升到近40%、计划大幅增产的消息。另外,关于大模型与国产芯片结合的案例,有“北京方案”和“悟界”系列模型的报道,可以作为行业趋势的背景补充。为了获取这些关键信息的具体细节,需要打开这些看起来最相关的页面。FINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHED到的资料从事件细节、芯片技术参数、产业生态到政策背景都比较完整,特别是关于1.6万亿参数模型训练的具体技术突破和深圳万卡集群的部署情况。用户需要的是一篇结构清晰的原创整理稿,重点在于提炼这些信息,同时保持台湾繁体中文的风格。可以围绕事件核心突破、技术实现细节、产业生态背景、地缘政治影响、挑战与后续展望这几个板块来组织,这样既能覆盖用户要求的重点,也能提供有价值的分析视角。
Related
相關文章

2026 最強智能眼鏡發佈,但“iPhone 時刻”還沒到來
這篇消息聚焦「2026 最強智能眼鏡發佈,但“iPhone 時刻”還沒到來」。原始導語提到:XR 眼鏡的 Android 時刻。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI算力變局:TPU正成為“另一個選項”
這篇消息聚焦「AI算力變局:TPU正成為“另一個選項”」。原始導語提到:當算力需求從訓練轉向推理時代,TPU的優勢開始凸顯,從過去的“配角”愈加有站上主舞臺之勢。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

車東西專訪德州儀器高管:汽車AI芯片不只是TOPS競賽
這篇消息聚焦「車東西專訪德州儀器高管:汽車AI芯片不只是TOPS競賽」。原始導語提到:車端AI來了,處理器競爭卻不止於AI? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

遠景張雷:啟動Mission Gobi AIDC建設計劃,讓全球戈壁成為下一代智能文明搖籃
這篇消息聚焦「遠景張雷:啟動Mission Gobi AIDC建設計劃,讓全球戈壁成為下一代智能文明搖籃」。原始導語提到:遠景AI電力系統旨在解決AI基礎設施發展的三大核心問題:如何讓相同的功率帶寬接入更多GPU,如何讓相同的電量產生更多智力,如何在相同投資下大幅降低電力成本? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
聯想推出百應AI主機300:賦能中小企業的“算力加速器”
聯想推出AI主機300,面向中小企業及超級個體,售價26999元,6月18日上線。該機搭載AMD銳龍AI Max+395處理器、128GB內存與2TB SSD,以高性能硬件與深度AI平臺,解決成長型業務在數據處理與內容創作中的效率痛點。

國產算力正在進入Token標準化時代
這篇消息聚焦「國產算力正在進入Token標準化時代」。原始導語提到:當前國產算力的瓶頸不在芯片本身,而在從異構算力到可用Token之間的工程化轉化能力。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。