十年榜單首迎中國雙料冠軍:這次贏的不只是性能

2026年7月2日 06:16

重點摘要

6月,在德國漢堡ISC高性能計算大會的展臺上,GPU、液冷、量子計算的聲浪依舊洶湧,但今年,會場的主角悄悄換了人。IO500榜單——全球高性能計算存儲領域最權威的評測體系——公佈了最新一期結果:中科曙光ParaStor F9000分佈式全閃存儲系統,同時拿下生產型全節點和10節點兩大榜單的第一名。

站內 AI 整理稿

6月,在德國漢堡ISC高性能計算大會的展臺上,GPU、液冷、量子計算的聲浪依舊洶湧,但今年,會場的主角悄悄換了人。IO500榜單——全球高性能計算存儲領域最權威的評測體系——公佈了最新一期結果:中科曙光ParaStor F9000分佈式全閃存儲系統,同時拿下生產型全節點和10節點兩大榜單的第一名。在這一榜單近十年的歷史中,能夠同時統領這兩個維度的,此前只有少數幾家美國廠商,中科曙光成為首家達成此成就的中國公司。與研究性榜單不同,生產型榜單的評選有一條硬性要求:存儲系統必須已在真實業務環境中不間斷運行超過一年,這意味著F9000並非實驗室裡的測試樣機,而是一套正在產線上承擔生產任務、隨時會被業務中斷打擾的真實系統。中科曙光北京公司副總裁何振則將這一差異概括為評價標準的遷移:從“峰值性能”轉向“真實系統能力”,考核的重點變成了長期穩定性、複雜負載適配能力和大規模擴展時的一致性表現。在何振看來,這次奪冠的意義遠不止“拿了一個冠軍”:“這是國產高端存儲第一次在全球最嚴格的真實生產型評測體系中,形成了系統性領先。” ParaStor F9000憑什麼贏?中科曙光分佈式存儲總工程師袁清波,把F9000的技術壁壘歸納成三層,並坦言這三層的技術難度是遞進的。最顯性的差異在硬件形態上,市面上2U24盤位的NVMe全閃機型並不罕見,但F9000採用了一種業內稱為“雙子星”的特殊設計——在2U的空間裡塞進兩個完全獨立的物理節點,每個節點都有自己的主板、CPU、內存、網卡和SSD。更關鍵的創新藏在連接方式裡:CPU一側直連NVMe介質,另一側直連網卡,中間完全不經過PCIe Switch轉接。“這給我們提供了兩倍的PCIe Lane數量。”袁清波說。與此同時,這兩倍的Lane數量被有意識地“對半分”給了SSD和網卡,袁清波指出,“這種均衡恰恰是行業裡容易被忽視的地方,做標準服務器的人,對網絡和SSD這兩個硬件的定位是相同的,但對存儲系統來說,讀的時候數據從盤上讀出經網卡發出,寫的時候從網卡收進再下到盤上,數據流動方向剛好相反。”ParaStor圍繞每個CPU核心,把與之相關的內存、網卡、SSD綁定成一個獨立的IO子域,確保混合負載之間相互隔離又能靈活配置。“用戶發出的每一次IO,從發出那一刻起,我們就知道它要走哪個網卡、用哪塊內存、經哪個核,最後落在哪塊盤上。”袁清波說。效果體現在一個具體指標上:系統吞吐量已被推至內存帶寬的峰值。“基本上沒有傳統方案能做到這一點,”袁清波說,“一旦後面硬件有提升,比如網卡頻率提高10%,我們的性能也能同步提升10%。”在這套架構之上,還疊加了一層QoS調控機制,能針對不同業務分別設定帶寬和IOPS的上下限——這正是F9000在“業務不能停”的生產環境裡,額外完成打榜測試而不互相干擾的關鍵。硬件形態和軟件架構再往下走,是一層更難以複製的壁壘:全棧自研,石靜的體會很直接:如果軟硬件不是從底層設計的,跨層、跨參數的相互影響根本無從優化,只能在別人定好的邊界裡小修小補。從戰略的視角來看,何振表示:“全國產自研的意義,並不只是供應鏈層面的可靠保障,更重要的是帶來了體系級優化空間——核心軟硬件棧完全可控,使存儲系統可以在協議棧、數據路徑、調度機制等多個層面進行深度協同優化。”把存儲本身跑快,只是基礎。F9000面向AI場景,能夠做到“以存提算、以存代算、以存降本”三級協同——本質上是把存儲從被動的數據供給層,升級為參與計算路徑設計的一部分。在計算節點側,F9000做了三層加速:把節點本地內存和NVMe SSD池化為近算力緩存,在訓練前先將數據集“預熱”進來,避免每次跨網絡回源到後端存儲;再通過XDS技術,讓數據直接從網卡進入GPU顯存,繞開CPU內存轉發。“我們已經把內存帶寬跑到了峰值,但XDS可以進一步突破內存帶寬的限制——數據根本不走內存了。”袁清波解釋,這之所以關鍵,是因為AI訓練對數據供給的容錯率極低,一旦數據沒供到位,GPU集群就只能空轉等待。網絡側,F9000優先適配的是曙光自研的scaleFabric——一款400G原生無損RDMA網絡,中科曙光高速網絡互聯產品部總工程師萬偉透露,網卡設計之初就考慮了存儲的極端需求:在10萬卡集群規模下,存儲節點需要面向所有計算節點的併發訪問,現有IB的QP規模根本撐不住,團隊直接把這一指標擴展了一倍。存儲側的重心,則從“更快供給”轉向“主動分擔”。兩項能力承擔了這個角色:KV Cache offload自動將GPU閒置的KV緩存塊遷移到後端全閃存儲,推理時再通過XDS高速通路回傳顯存,實測降低60%以上GPU顯存佔用,單卡併發推理承載量提升2到10倍;存儲端AI算子加速庫則把數據清洗、向量編碼等預處理操作下沉到存儲側執行,跨節點數據傳輸量減少70%。袁清波把這套組合拳的意義概括為一句話:“未來存儲系統的競爭將從單一性能指標,轉向系統級綜合能力——數據路徑效率、端到端延遲控制能力、GPU利用率提升能力,以及高併發場景下的整體吞吐穩定性,這些指標共同決定系統在真實AI負載下的有效價值。” 把存儲從數據倉庫變成AI調度中樞大模型訓練進入萬卡、十萬卡規模之後,一個共識正在行業裡形成:瓶頸,已經從“算力不足”轉移到了“數據供給不足”。袁清波表示:“在大規模AI訓練體系中,算力本身已

Related

相關文章

MarkTechPost AI研究與前沿

...

Interfaze, a young YC’s startup, has open-sourced a new speech recognition model. It is called diffusion-gemma-asr-small.

9 小時前
何夕2077研究與前沿

BlockPilot解碼加速技術發佈

BlockPilot解碼加速技術發佈。 這套創新算法 ✨ 能夠自動預測推理過程的最佳分塊。研究團隊採用自適應生成策略來具體實現。它的推理速度 ⚡️ 竟然直接飆升了四倍多。這套新架構極其輕量並且支持無縫嵌入現有系統。

1 天前