雷峰網生成式AI

昇騰「減負」、鯤鵬「鋪路」:中國計算產業生態如何填平開發者的「踩坑」時代?

2026年5月29日 09:31

重點摘要

一個算力生態從“能用”到“好用易用”,中間隔著什麼?過去幾年,國產AI算力行業長期存在一種割裂:硬件參數不斷刷新,但是當開發者真正落地時,大量時間卻依然消耗在環境配置、異構遷移、算子適配和反覆踩坑上。隨著大模型訓練進入千卡級協同、科學計算走向長週期穩定運行,這種割裂的代價被進一步放大了——開發效率本身,開始成為衡量算力平臺競爭力的重要指標。在最近的鯤鵬昇騰開發者圓桌上,一個很有意思的現象是,無論是做高性能計算的清華團隊和中科大團隊,還是做大模型預訓練的AIGCode,他們談論最多的,都不是芯片參數,而是開發效率。有人提到,過去遷移異構平臺往往需要幾個月,現在一週就能完成;有人提到,過去大量時間被消耗在硬件適配、環境配置和反覆踩坑上,現在終於能把精力重新放回算法本身;還有人提到,過去很多問題必須等待廠商排期解決,現在開發者自己就能在社區裡找到方案,甚至直接參與生態共建。這些變化看似零散,但背後其實指向同一件事:鯤鵬昇騰生態,正在從“能用”進入“好用易用”的新階段。衡量“好用易用”的標準,從來不是發佈會上的參數表,而是開發者實際感知到的工程摩擦是否正在減小。也正是在這個意義上,這些開發者的體驗,成為觀察國產算力生態演進的一組關鍵樣本。當算法創新卡在工程的“坑”裡過去幾年,AI行業出現了一個越來越明顯的變化:模型迭代越來越快,決定落地速度的關鍵,正從算法轉向算力基礎設施的工程能力。尤其在高性能計算領域,這種變化被進一步放大。清華大學地球系統模擬團隊對此深有體會。他們所做的工作,是用AI替代傳統大氣模擬中的經驗估算環節,把全球大氣模擬分辨率推進至公里級,讓極端天氣的模擬精度真正逼近實用價值。這個方向的科學價值毋庸置疑,但問題在於:當分辨率提升一個量級之後,背後對應的計算複雜度,往往會呈指數級增長。大氣模擬本質上是一個超長時間連續積分過程,一次完整計算往往持續數天甚至更久,中間任何一

站內 AI 整理稿

一個算力生態從“能用”到“好用易用”,中間隔著什麼?過去幾年,國產AI算力行業長期存在一種割裂:硬件參數不斷刷新,但是當開發者真正落地時,大量時間卻依然消耗在環境配置、異構遷移、算子適配和反覆踩坑上。隨著大模型訓練進入千卡級協同、科學計算走向長週期穩定運行,這種割裂的代價被進一步放大了——開發效率本身,開始成為衡量算力平臺競爭力的重要指標。在最近的鯤鵬昇騰開發者圓桌上,一個很有意思的現象是,無論是做高性能計算的清華團隊和中科大團隊,還是做大模型預訓練的AIGCode,他們談論最多的,都不是芯片參數,而是開發效率。有人提到,過去遷移異構平臺往往需要幾個月,現在一週就能完成;有人提到,過去大量時間被消耗在硬件適配、環境配置和反覆踩坑上,現在終於能把精力重新放回算法本身;還有人提到,過去很多問題必須等待廠商排期解決,現在開發者自己就能在社區裡找到方案,甚至直接參與生態共建。這些變化看似零散,但背後其實指向同一件事:鯤鵬昇騰生態,正在從“能用”進入“好用易用”的新階段。衡量“好用易用”的標準,從來不是發佈會上的參數表,而是開發者實際感知到的工程摩擦是否正在減小。也正是在這個意義上,這些開發者的體驗,成為觀察國產算力生態演進的一組關鍵樣本。當算法創新卡在工程的“坑”裡過去幾年,AI行業出現了一個越來越明顯的變化:模型迭代越來越快,決定落地速度的關鍵,正從算法轉向算力基礎設施的工程能力。尤其在高性能計算領域,這種變化被進一步放大。清華大學地球系統模擬團隊對此深有體會。他們所做的工作,是用AI替代傳統大氣模擬中的經驗估算環節,把全球大氣模擬分辨率推進至公里級,讓極端天氣的模擬精度真正逼近實用價值。這個方向的科學價值毋庸置疑,但問題在於:當分辨率提升一個量級之後,背後對應的計算複雜度,往往會呈指數級增長。大氣模擬本質上是一個超長時間連續積分過程,一次完整計算往往持續數天甚至更久,中間任何一次軟硬件異常,都可能導致整個任務重來。相比互聯網業務裡常見的“失敗重試”,科學計算更像是在一根極長的鋼絲上行走——很多任務沒有“回滾重開”的餘地。更復雜的問題來自精度。一個氣候結果的背後,可能是數億次浮點運算的累計結果。單次誤差或許微不足道,但經過長時間迭代之後,誤差會像滾雪球一樣被不斷放大。這也是為什麼高性能計算領域始終強調混合精度、數值穩定性、通信一致性。但相比計算本身,更隱蔽的消耗,其實來自工程生態的不成熟過去很長一段時間裡,國內算力生態整體仍處於早期階段,硬件迭代速度遠快於軟件生態成熟速度。很多平臺雖然已經能用,但開發工具鏈、編譯器、異構調度、通信框架以及社區經驗仍不完善,科研團隊很難從一開始就完成系統級優化。於是,大量團隊只能先讓程序“跑起來”,再進入漫長的適配和調優階段。這意味著,科學研發與工程優化長期處於割裂狀態:先解決科學問題,再回頭填工程的坑。代價是巨大的:團隊大量精力被消耗在底層環境適配與反覆踩坑上,真正的算法創新卻始終處於一種“排隊等待”的狀態。鯤鵬如何將開發者從“填坑”裡解放出來"鯤鵬讓科研者的精力回到科研本身,不用在硬件適配上反覆踩坑。"這是清華團隊王一鳴對鯤鵬最直接的評價。這句話背後,其實對應著一種開發理念的轉變:團隊不再遵循“先解決科學問題,再做性能優化”的傳統模式,而是在代碼設計階段就開始將硬件特性、並行方式一併納入考量——科學研發與工程優化,從“前後接力”變成了“並行推進”。理念轉變的前提,是平臺本身能把“坑”填平。過去很長時間裡,高性能計算平臺最大的難點之一,就是軟件生態的碎片化。很多科研團隊遷移代碼時,耗時往往不在算法,而在底層依賴適配:編譯鏈重配、通信庫重裝、指令集兼容、框架重寫,一層套一層。而鯤鵬做了一件很關鍵的事情——儘可能保持開發環境的連續性。王一鳴表示,很多主流氣象軟件和依賴庫在鯤鵬平臺上的兼容度已經很高,“加載幾個庫基本就能跑”,大量代碼不需要大規模重構,就能完成初步遷移。這種差異,在中科大團隊身上體現得更加明顯。研究員陳俊仕提到,過去遷移到異構平臺,週期往往以月為單位,遷移完成後還要重新做性能優化,但遷移到鯤鵬平臺,一週左右就能完成。遷移效率差異的背後,本質上是開發複雜度的差異。目前主流高性能計算系統採用CPU+GPU異構模式,多套指令集並存,開發者往往需要不斷處理CPU與加速器之間的數據搬運與協同問題。很多時候,一個原本只佔較少耗時的CPU函數,在應用遷移到GPU後,可能會迅速成為新的性能瓶頸,開發者不得不反覆重構並行邏輯。而鯤鵬選擇了儘可能降低這種異構複雜性,將更多性能釋放建立在通用計算架構之上。對於開發者而言,變化最直接的一點是:大量原有代碼無需重寫就能直接運行,工作的重心開始從“搬運代碼”重新回到“性能調優”。這種變化,最終轉化為了更實際的性能收益。陳俊仕提到,通過構造更大的矩陣塊,並結合NUMA(非同一內存訪問)感知的內存分配策略,團隊的新算法相比傳統方法實現平均40多倍加速,部分場景接近200倍。而對於氣象科學這類高精度、長週期計算場景,這種“少踩坑”的意義更加明顯。清華團隊遷移到鯤鵬後,最直觀的感受之一,就是大規模長週期作業的穩定性顯著提升,斷點續跑機制也更加成熟。此外,鯤鵬還提供了適配主流氣象開發語言的編譯器、數學庫和性能調優工具,讓團隊能夠在一個體系完整、反饋高效的平臺上快速調試參數、驗證模型。當底層計算的可靠性有了保障,研究人員就不再需要反覆排查計算誤差的來源,而是能夠把更多精力重新放回模型本身。社區的成熟度也在同步降低這種開發的阻力。在鯤鵬生態中,大部分常見問題都能從社區資料中找到可複用的經驗;更復雜的問題,社區工程師的響應速度也足夠快,開發者終於不用再長期陷在底層工程細節裡。當開發者不再被硬件適配消耗,性能優化的重心,也開始重新回到算法創新本身。不過,鯤鵬在做的事情,並不只是解決"當下"的問題。當AI基礎設施的戰場從"模型訓練"向"Agent規模化落地"遷移,Token與內存消耗、沙箱啟動速度、多Agent協同時的數據安全正在成為Agent進入產業場景之前的新一道"基礎設施門檻"。鯤鵬超節點架構的設計,恰好為這一趨勢提供了系統級支持。基於靈衢互聯,超節點通過大帶寬、低時延把分散的服務器集群組織成統一協同的計算系統——Token開銷可降低約50%,沙箱百毫秒級啟動,基於CCA架構的機密計算則補上安全側的短板。開發者不需要切換一套工具鏈,就能從大模型訓練直接走到Agent部署。昇騰正在把“堆卡”變成系統工程如果說鯤鵬解決的是“讓開發者少被遷移與適配消耗”,那麼昇騰面對的,則是另一個更復雜的問題:當大模型訓練進入千卡級協同之後,算力競爭開始從“有沒有卡”,轉向“能不能把卡真正跑滿”。2024年初,AIGCode團隊的陳秋武在昇騰上一代產品上做大模型預訓練時,整個CANN生態在他眼中還是一片“荒漠”——算子覆蓋率低,自研網絡結構的適配需要排期三到四個月,團隊不得不投入大量精力去填補生態的空白。但這種變化的速度,比他們預想得更快。大約8個月後,CANN生態覆蓋率已經從不足三成躍升至80%到90%,“這個迭代速度讓我非常驚訝”,陳秋武直言。再到現在,問題已經變成“第一可解,第二不用排期,自己技術範圍內就能解決”。他給出了一個形象的比喻:“2024年初是嬰兒期,現在有點像青年期。”如今,AIGCode團隊已經在昇騰平臺完成了MoE模型預訓練優化,算力利用率達到65%,接近行業平均水平的兩倍。用陳秋武的話說,“一張卡可以當兩張卡用”。而65%這個數字,是用系統工程優化換來的,而非堆卡堆出來的。陳秋武拆解了這背後的路徑:核心在於通信與計算的協同調度。依託昇騰超節點架構,團隊能夠將千卡級集群的通信與計算指令做到精細的並行掩蓋,最大限度壓縮芯片空閒窗口;同時為實現裝滿瓶子,先遵循“大的塊MHA先裝到瓶子裡,再用小的塊GDN填滿”的方法,結合in_proj、激活函數等小算子做融合,最後QKV重組零拷貝。進一步提升計算資源利用率。而這背後,對應的正是CANN生態工程能力的快速成熟:預置1500餘個基礎算子與100餘個融合算子,提供Ascend C、PyPTO等多種算子編程範式,併兼容Triton、TileLang等業界主流編程框架,深度對接90餘家主流開源社區,實現70餘款國內外主流大模型發佈即適配;同時生態加大對開發者激勵的投入,設立2000萬生態創新激勵基金,扶持算子、加速庫等領域創新探索,投放10000卡算力資源,保障開源社區開發者的算力需求,從工具、算力到資金,共同構成了一條從“可用”走向“好用易用”的演進路徑。對此,圓桌主持人石侃表示:"CANN並不只是一個冷冰冰的組件,而是已經成為了連接極致硬件和開發者無窮創造力的紐帶和橋樑。"向上兼容主流計算框架、向下屏蔽硬件複雜度,讓開發者用自己最熟悉的方式跑出最極致的性能——這正是CANN迭代至今最核心的設計哲學。更重要的是,當這些技術能力開始轉化為開發者可感知的體驗時,一個更深層的變化開始出現:開發者不再只是生態的“使用者”,而是開始成為“共建者”。 從“用”到“建”:國產算力走向自我驅動當開發者開始往生態裡寫代碼,而不僅僅是跑代碼時,事情就變了。清華大學、AIGCode、中科大——這些團隊不再只是跑模型、調參數,而是開始往生態裡寫代碼、填坑、修路。清華團隊將基於鯤鵬平臺的項目經驗沉澱為行業參考,為鯤鵬社區貢獻了氣象科學計算領域的最佳實踐;AIGCode則持續推進國產算力與自研模型之間的深度協同,希望打通從底層算力到模型訓練的完整鏈路。要知道,氣象模擬與高性能科學計算,向來是算力平臺能力的壓力測試場——長週期、高精度、對穩定性幾乎零容忍,在對芯片的要求上,處於金字塔最靠近塔尖的位置。這類團隊的選擇,歷來不看發佈會,只看能不能在最苛刻的場景下穩定交付。他們現在不僅"用",還開始往生態裡"建",本身就是一種比任何評測數據都更有分量的背書。而這,也正是一個生態開始自我驅動的標誌。截至目前,鯤鵬開發者已超過415萬,合作伙伴超過7000家,解決方案認證超過27000個;昇騰開發者超過410萬,合作伙伴超過3000家,解決方案認證超過6700個。這些數字背後,是無數個"清華團隊"、"中科大團隊"和"AIGCode"們每一次工程經驗、優化能力與代碼資產的持續沉澱。衡量生態是否真正繁榮的標準,不只是開發者數量夠不夠多,更重要的是,是否有越來越多開發者願意把自己的工程經驗、優化能力與代碼資產持續沉澱進生態之中。當生態的飛輪真正轉動起來,開發者的每一次共建都在反哺生態,降低後來者的門檻,鯤鵬、昇騰的計算產業生態也隨之繁榮起來。在圓桌接近尾聲時,有人提了一個問題:如何用一句話概括你們選擇國產算力平臺的理由?幾位開發者給出了各自不同的答案,但有一種共同的底色:不是沒有選擇,而是用過之後發現值得選。一個算力生態真正走向成熟,或許不會在某一次發佈會上被宣告,而是悄悄發生在開發者決定下次還選它的那一刻。當越來越多的清華、中科大、AIGCode們把自己的代碼、經驗和判斷押注在同一套生態之上,這場從"能用"到"好用易用"的轉變,或許就已經越過了最難的那段坡。雷峰網雷峰網

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

22 小時前