十年榜單首迎中國雙料冠軍：這次贏的不只是性能

2026年7月2日 06:16

重點摘要

6月，在德國漢堡ISC高性能計算大會的展臺上，GPU、液冷、量子計算的聲浪依舊洶湧，但今年，會場的主角悄悄換了人。IO500榜單——全球高性能計算存儲領域最權威的評測體系——公佈了最新一期結果：中科曙光ParaStor F9000分佈式全閃存儲系統，同時拿下生產型全節點和10節點兩大榜單的第一名。

站內 AI 整理稿

6月，在德國漢堡ISC高性能計算大會的展臺上，GPU、液冷、量子計算的聲浪依舊洶湧，但今年，會場的主角悄悄換了人。IO500榜單——全球高性能計算存儲領域最權威的評測體系——公佈了最新一期結果：中科曙光ParaStor F9000分佈式全閃存儲系統，同時拿下生產型全節點和10節點兩大榜單的第一名。在這一榜單近十年的歷史中，能夠同時統領這兩個維度的，此前只有少數幾家美國廠商，中科曙光成為首家達成此成就的中國公司。與研究性榜單不同，生產型榜單的評選有一條硬性要求：存儲系統必須已在真實業務環境中不間斷運行超過一年，這意味著F9000並非實驗室裡的測試樣機，而是一套正在產線上承擔生產任務、隨時會被業務中斷打擾的真實系統。中科曙光北京公司副總裁何振則將這一差異概括為評價標準的遷移：從“峰值性能”轉向“真實系統能力”，考核的重點變成了長期穩定性、複雜負載適配能力和大規模擴展時的一致性表現。在何振看來，這次奪冠的意義遠不止“拿了一個冠軍”：“這是國產高端存儲第一次在全球最嚴格的真實生產型評測體系中，形成了系統性領先。” ParaStor F9000憑什麼贏？中科曙光分佈式存儲總工程師袁清波，把F9000的技術壁壘歸納成三層，並坦言這三層的技術難度是遞進的。最顯性的差異在硬件形態上，市面上2U24盤位的NVMe全閃機型並不罕見，但F9000採用了一種業內稱為“雙子星”的特殊設計——在2U的空間裡塞進兩個完全獨立的物理節點，每個節點都有自己的主板、CPU、內存、網卡和SSD。更關鍵的創新藏在連接方式裡：CPU一側直連NVMe介質，另一側直連網卡，中間完全不經過PCIe Switch轉接。“這給我們提供了兩倍的PCIe Lane數量。”袁清波說。與此同時，這兩倍的Lane數量被有意識地“對半分”給了SSD和網卡，袁清波指出，“這種均衡恰恰是行業裡容易被忽視的地方，做標準服務器的人，對網絡和SSD這兩個硬件的定位是相同的，但對存儲系統來說，讀的時候數據從盤上讀出經網卡發出，寫的時候從網卡收進再下到盤上，數據流動方向剛好相反。”ParaStor圍繞每個CPU核心，把與之相關的內存、網卡、SSD綁定成一個獨立的IO子域，確保混合負載之間相互隔離又能靈活配置。“用戶發出的每一次IO，從發出那一刻起，我們就知道它要走哪個網卡、用哪塊內存、經哪個核，最後落在哪塊盤上。”袁清波說。效果體現在一個具體指標上：系統吞吐量已被推至內存帶寬的峰值。“基本上沒有傳統方案能做到這一點，”袁清波說，“一旦後面硬件有提升，比如網卡頻率提高10%，我們的性能也能同步提升10%。”在這套架構之上，還疊加了一層QoS調控機制，能針對不同業務分別設定帶寬和IOPS的上下限——這正是F9000在“業務不能停”的生產環境裡，額外完成打榜測試而不互相干擾的關鍵。硬件形態和軟件架構再往下走，是一層更難以複製的壁壘：全棧自研，石靜的體會很直接：如果軟硬件不是從底層設計的，跨層、跨參數的相互影響根本無從優化，只能在別人定好的邊界裡小修小補。從戰略的視角來看，何振表示：“全國產自研的意義，並不只是供應鏈層面的可靠保障，更重要的是帶來了體系級優化空間——核心軟硬件棧完全可控，使存儲系統可以在協議棧、數據路徑、調度機制等多個層面進行深度協同優化。”把存儲本身跑快，只是基礎。F9000面向AI場景，能夠做到“以存提算、以存代算、以存降本”三級協同——本質上是把存儲從被動的數據供給層，升級為參與計算路徑設計的一部分。在計算節點側，F9000做了三層加速：把節點本地內存和NVMe SSD池化為近算力緩存，在訓練前先將數據集“預熱”進來，避免每次跨網絡回源到後端存儲；再通過XDS技術，讓數據直接從網卡進入GPU顯存，繞開CPU內存轉發。“我們已經把內存帶寬跑到了峰值，但XDS可以進一步突破內存帶寬的限制——數據根本不走內存了。”袁清波解釋，這之所以關鍵，是因為AI訓練對數據供給的容錯率極低，一旦數據沒供到位，GPU集群就只能空轉等待。網絡側，F9000優先適配的是曙光自研的scaleFabric——一款400G原生無損RDMA網絡，中科曙光高速網絡互聯產品部總工程師萬偉透露，網卡設計之初就考慮了存儲的極端需求：在10萬卡集群規模下，存儲節點需要面向所有計算節點的併發訪問，現有IB的QP規模根本撐不住，團隊直接把這一指標擴展了一倍。存儲側的重心，則從“更快供給”轉向“主動分擔”。兩項能力承擔了這個角色：KV Cache offload自動將GPU閒置的KV緩存塊遷移到後端全閃存儲，推理時再通過XDS高速通路回傳顯存，實測降低60%以上GPU顯存佔用，單卡併發推理承載量提升2到10倍；存儲端AI算子加速庫則把數據清洗、向量編碼等預處理操作下沉到存儲側執行，跨節點數據傳輸量減少70%。袁清波把這套組合拳的意義概括為一句話：“未來存儲系統的競爭將從單一性能指標，轉向系統級綜合能力——數據路徑效率、端到端延遲控制能力、GPU利用率提升能力，以及高併發場景下的整體吞吐穩定性，這些指標共同決定系統在真實AI負載下的有效價值。” 把存儲從數據倉庫變成AI調度中樞大模型訓練進入萬卡、十萬卡規模之後，一個共識正在行業裡形成：瓶頸，已經從“算力不足”轉移到了“數據供給不足”。袁清波表示：“在大規模AI訓練體系中，算力本身已

原始來源：雷峰網 ↗

查看原始來源

MarkTechPost AI研究與前沿

...

Interfaze, a young YC’s startup, has open-sourced a new speech recognition model. It is called diffusion-gemma-asr-small.

9 小時前閱讀分析

AIBase研究與前沿

OpenAI 發佈 GeneBench-Pro 基準測試，提升 AI 模型生物學分析能力！

OpenAI推出GeneBench-Pro基準，聚焦評估AI在基因組學、蛋白質組學等複雜生物數據分析中的實際研究能力，尤其檢驗模型處理混亂、不完整數據時的判斷與決策水平，與傳統基準截然不同。

1 天前6400閱讀分析

何夕2077研究與前沿

BlockPilot解碼加速技術發佈

BlockPilot解碼加速技術發佈。這套創新算法 ✨ 能夠自動預測推理過程的最佳分塊。研究團隊採用自適應生成策略來具體實現。它的推理速度 ⚡️ 竟然直接飆升了四倍多。這套新架構極其輕量並且支持無縫嵌入現有系統。

1 天前閱讀分析

IT之家研究與前沿

Meta 複用拆機內存：3:1 搭配 DDR5/DDR4，推理 AI 所需服務器最多減少 25%

科技媒體 The Register 昨日（6 月 29 日）發佈博文，報道稱 Meta 公司為減少採購新硬件需求，發佈自研 Vistara 定製芯片方案，讓新服務器複用拆機 DDR4 內存。

3 天前閱讀分析

36氪研究與前沿

30頁論文被判“98%由AI生成”，每年30萬獎學金也告吹？一名大學生"破防"：我寫了整整6個月

一名大學生花費6個月撰寫的30頁論文，被AI檢測工具判定有98%內容由AI生成，可能導致每年30萬元的獎學金被取消。學生對此感到相當沮喪，強調論文是自己親手完成，並非使用AI輔助。這起事件引發關於AI檢測工具準確性與學術公平性的討論。

3 天前閱讀分析

AIBase研究與前沿

圖靈獎得主加盟，曹操出行加速挺進“AI原生”新賽道

曹操出行任命圖靈獎得主約瑟夫·希發基思為AI創新中心首席科學顧問。這位形式化驗證與可信自主系統領域的頂尖學者將主導企業AI戰略與核心技術架構建設，此舉被視為曹操出行推進“AI原生”轉型的關鍵一步。

4 天前4400閱讀分析

相關文章

...

OpenAI 發佈 GeneBench-Pro 基準測試，提升 AI 模型生物學分析能力！

BlockPilot解碼加速技術發佈

Meta 複用拆機內存：3:1 搭配 DDR5/DDR4，推理 AI 所需服務器最多減少 25%

30頁論文被判“98%由AI生成”，每年30萬獎學金也告吹？一名大學生"破防"：我寫了整整6個月

圖靈獎得主加盟，曹操出行加速挺進“AI原生”新賽道