雷峰網生成式AI

中國信通院牽頭,首個智算運維智能體評測基準正式落地,覆蓋 5 款主流國產芯片

2026年6月30日 14:33

重點摘要

6月29日,在中國信通院人工智能軟硬件協同創新與適配驗證中心、中國人工智能產業發展聯盟、工信部人工智能標準化技術委員會聯合主辦的2026“眾智”大模型開放智算生態協同高級別研討會中,中國信通院副院長魏亮,正式發佈AISHPerf人工智能軟硬件基準體系3.0版本,包含兩項 AI Infra 領域核心評測基準——AISHPerf-智算運維智能體評測基準以及AISHPerf-算子生成智能體評測基準,兩大基準由國內頂尖AI原生基礎設施服務商無問芯穹及清華大學團隊作為重點技術支持方參與建設。前者是首個面向 AI Infra 的運維智能體評測基準,依託百億級真實運維數據構建,核心考核智算運維智能體在真實生產場景中解決實際問題的落地能力。後者則跳出 “模型能否生成可運行 GPU 算子” 的基礎維度,將評測重心錨定在 “模型生成的算子能否在真實量化推理部署中替代現有算子” 的工程可部署性上,更貼合產業實際落地需求。二者從底層算力優化到上層集群運維,共同為智算產業的標準化升級與高質量發展提供了統一的能力參照框架。 AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware)是中國信通院與人工智能大模型及軟硬件評測工業和信息化部重點實驗室,依託人工智能軟硬件協同創新與適配驗證中心(位於國家信創園)聯合構建的人工智能軟硬件基準體系,旨在設置多維度指標,考察端到端方案對模型及應用場景的真實承載能力,系統評估軟硬件各層級間的協同優化水平、兼容適配能力及整體交付效能。在此次發佈的兩項基準中,AISHPerf-智算運維智能體評測基準尤為引人注目,它不僅標誌著我國在智算集群運維智能體領域擁有了首個權威評測體系,更率先將國產芯片集群運維場景納入評測體系、填補了國產智算運維智能體評測領域的空白,為構建自主自治

站內 AI 整理稿

6月29日,在中國信通院人工智能軟硬件協同創新與適配驗證中心、中國人工智能產業發展聯盟、工信部人工智能標準化技術委員會聯合主辦的2026“眾智”大模型開放智算生態協同高級別研討會中,中國信通院副院長魏亮,正式發佈AISHPerf人工智能軟硬件基準體系3.0版本,包含兩項 AI Infra 領域核心評測基準——AISHPerf-智算運維智能體評測基準以及AISHPerf-算子生成智能體評測基準,兩大基準由國內頂尖AI原生基礎設施服務商無問芯穹及清華大學團隊作為重點技術支持方參與建設。前者是首個面向 AI Infra 的運維智能體評測基準,依託百億級真實運維數據構建,核心考核智算運維智能體在真實生產場景中解決實際問題的落地能力。後者則跳出 “模型能否生成可運行 GPU 算子” 的基礎維度,將評測重心錨定在 “模型生成的算子能否在真實量化推理部署中替代現有算子” 的工程可部署性上,更貼合產業實際落地需求。二者從底層算力優化到上層集群運維,共同為智算產業的標準化升級與高質量發展提供了統一的能力參照框架。 AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware)是中國信通院與人工智能大模型及軟硬件評測工業和信息化部重點實驗室,依託人工智能軟硬件協同創新與適配驗證中心(位於國家信創園)聯合構建的人工智能軟硬件基準體系,旨在設置多維度指標,考察端到端方案對模型及應用場景的真實承載能力,系統評估軟硬件各層級間的協同優化水平、兼容適配能力及整體交付效能。在此次發佈的兩項基準中,AISHPerf-智算運維智能體評測基準尤為引人注目,它不僅標誌著我國在智算集群運維智能體領域擁有了首個權威評測體系,更率先將國產芯片集群運維場景納入評測體系、填補了國產智算運維智能體評測領域的空白,為構建自主自治的新一代“Token工廠”提供了運維領域的技術方向與標準指引。 構建新標準:基於近百億條真實運維數據構造,從“紙上談兵”到“實戰考核”隨著AI發展從“堆算力、拼規模”邁入以“Token效能”為核心的新階段,算力與電力投入已成為AI基礎設施的“基礎常量”,高效率、高質量的運維能力,則是決定Token產出與生產力轉化的“核心變量”。依託智能運維提升算力利用效率、壓降運營成本,已是 AI 產業發展的必然方向。而當前業內對運維智能體的評估多停留在語言問答能力層面的“紙上談兵”,往往更像是筆試,側重考察知識記憶與標準答案複述,而缺乏針對真實運維場景的“實戰考核”,無法反映智能體“能否解決實際問題”。 AISHPerf-智算運維智能體評測基準正是一套錨定真實生產場景的實操型評測體系。它以無問芯穹沉澱的近百億條真實運維數據為底座,經資深運維專家脫敏並精細標註和嚴格篩選,最終抽象提煉出 103 條高保真、高質量的典型評測用例;同時打通從底層硬件故障到用戶側軟件 Bug 的全鏈路問題,構建起覆蓋5大技術棧、44種問題現象、22個細分故障領域、3種難度層級、6種國內外芯片(其中5種為國產芯片)的立體化科學評測體系。評測流程中不明確指出故障根因,只提供真實的集群環境和有限的問題現象描述,要求智能體完成自主探索、自主排查和自主修復。最終輸出時延、Token消耗、工具調用效率等關鍵維度的量化結果,全面客觀地評估運維智能體在真實生產環境中端到端解決問題的能力。 促進新發展:五種國產芯片覆蓋,為國產算力集群從“能用”邁向“好用”提供標準基礎作為我國智算產業自主可控的核心底座,國產芯片近年來實現了從 “跟跑” 到部分領域 “並跑” 的關鍵跨越,已成為全國算力基礎設施體系的核心組成部分。據 IDC 統計,2025 年中國市場 AI 加速卡國產化率已突破四成,國產 GPU 集群規模進入快速擴容期。但相較於成熟的通用 GPU 生態,國產芯片在硬件架構、驅動體系、通信協議及框架適配等層面存在顯著技術差異,運維複雜度與難度更大,直接制約國產算力的 Token 產出效率與投產效益,成為國產算力從 “規模落地” 向 “效能釋放” 進階的核心瓶頸。AISHPerf-智算運維智能體評測基準在設計之初便深度融入了對國產化生態的考量,率先在同類評測基準中納入包括“天數、壁仞、沐曦、摩爾、昇騰”5 種國產芯片集群運維的特定場景及典型問題測例,覆蓋國產 GPU 硬件故障、驅動適配、框架兼容、通信協議等典型運維痛點,首次為國產智算運維智能體建立起統一、可量化的評估標尺,填補了國產智算運維領域的標準空白。未來,中國信通院將持續從標準研製、測試驗證、生態培育等方面推動基準產業應用,結合無問芯穹海量真實運維數據積累與智算運維技術實戰能力,不斷豐富國產芯片相關評測用例,構建更加體系化、全棧化的國產智算運維評測體系,一方面精準定位國產芯片集群運維的共性痛點與工程難點,牽引產業鏈上下游協同攻關、補短板強弱項;另一方面以標準化評測驅動運維智能化能力升級,推動國產算力集群真正實現從 “能用” 到 “好用、高效、穩產” 的質變,為我國智算產業自主可控與高質量發展築牢底層標準支撐。 錨定新趨勢:指引AI基礎設施向自主自治的“Token工廠”升級運維智能體的深度應用,正在推動 AI 基礎設施自身向“智能體”形態升級。未來的 AI 基礎設施,將是能夠自我感知、自我修復、自我迭代的自主自治系統。內置的運維智能體將以“管理者”的角色,根據訓練與推理需求自動調度資源、優化系統,實現算法與基礎設施的深度協同。去年以來,無問芯穹已在推理訓練業務中率先部署運維智能體,使工單平均處理時間縮短 50%,關鍵故障處理效率提升約 6 倍,使綜合運維成本下降了約 30%,在算力和電能不變的前提下,實現了 Token 產能的顯著提升。AISHPerf-智算運維智能體評測基準將為 AI 基礎設施向更高階的“自主自治”範式演進奠定標準基礎。通過統一的評測體系,為構建高效、穩定、自主的智能運維體系提供指導,加速運維智能體在 AI 基礎設施中的規模化應用,實現 Token 產能的降本增效,讓每一度電、每一張 GPU 卡都能產出更多更高價值的 Token,助力打造持續輸出高質量、大規模、高效率AI生產力的“Token工廠”。 未來,中國信通院與無問芯穹、清華大學將深化產學研協同,迭代優化 AISHPerf-智算運維智能體評測基準,不斷擴充場景覆蓋維度、豐富數據集規模、提升評測結果的可靠性與權威性,推動其成為行業公認的 AI 集群運維智能體能力評估公共基線,牽引全行業優質運維智能體的技術迭代與規模化落地。與此同時,雙方也將持續拓展 AI Infra 全領域核心評測基準佈局,構建起全棧的標準矩陣,為建設高效、綠色、自治的新一代 AI 基礎設施築牢標準底座,助力我國智算產業穩步邁向高質量發展新階段。 開源地址:https://gitee.com/aishperf-caict/aishperf_openness配套故障模擬器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos運維數據集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl評測框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

Related

相關文章

軟件沒被AI殺死,但全球市場都捲上天了

AI寫程式能力崛起,但軟體並未被取代,反而在全球市場面臨更加激烈的競爭。軟體開發的門檻降低,促使各國廠商紛紛投入,導致市場「捲」上加「捲」。軟體業者需在效率與創新之間找到新平衡,才能應對這場無止境的挑戰。

剛剛

Token管夠的時代結束了

這篇消息聚焦「Token管夠的時代結束了」。原始導語提到:企業的錢也不是大風颳來的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
智東西生成式AI

Hermes新功能上線!比Opus 4.8和GPT-5.5還猛

AI應用風向標(公眾號:ZhidxcomAI) 作者|畢偉豪 編輯|漠影 智東西6月30日報道,現在,Fable 5和Mythos 5等頂尖閉源模型沒法使用,就算能用,單一模型也總有搞不定的問題,那麼,想要高質量輸出結果的用戶該怎麼辦呢? 近日,Hermes Agent上線了MoA(Mixture of Agents)功能,支持用戶自由組合多種模型作為虛擬模型使用,在Nous Research即將發佈的基準測試中,這個混合模型的評分超過了Opus 4.8 和GPT-5.5。 一、Fable 5、Mythos 5被禁,多模型組合成為潮流 Nous Research在官推上說了這樣一句話:“最強大的模型是受限的,只有少數人才能獲得訪問權限。”這句話明晃晃地指向了Fable 5等模型被封禁的事件。 在這種背景下,不難看出,MoA這個混合模型模式的終極目的,是用開源模型的組合達到頂尖閉源模型的水準,就像Hermes Agent聯合創始人Teknium說的,他們正在測試各種開源模型組合,看看是否能用更便宜的模型達到Opus的水平。 這種多模型組合比肩頂尖模型的思路,最近其實有不少實踐的例子,比如前段時間日本AI獨角獸Sakana AI發佈的Sakana Fugu系列編排器模型,會根據任務選擇最佳的模型來處理,和MoA的思路非常相似。 而MoA的技術也在很久之前就已存在了,2024年6月Together AI曾發表過一篇論文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心是多LLM組合,每一層模型都會參考上一層模型的輸出,再繼續生成自己的回答。同時,論文也將模型分成了兩類,也就是現在Hermes所用的參考模型和聚合模型。 當用戶提出問題時,參考模型會先對問題進行分析判斷,然後給出參考意見,隨後由聚合模型來

5 小時前
雷峰網生成式AI

獨家丨字節、大疆背景創業者入局AI運動訓練,APP排名進入多國榜單前列

一位前自動駕駛工程師,把創業方向選在網球場上。作者丨黃豔冰編輯丨姚單雷峰網·鯨犀獨家獲悉,AI體育創業項目“小球圈”已形成商業化與產品矩陣。目前小球圈APP已在全球上線,網球拍進入量產銷售階段,智能球拍、智能球搭子及球場攝像硬件處於原型機階段,整體產品形態仍在迭代中,但已明確以APP作為核心數據入口,並逐步向硬件延展。“小球圈”(運營主體為北京光躍極樞智能科技有限公司)成立於2025年7月,專注於為網球、羽毛球、乒乓球、匹克球等拍類運動愛好者打造一款AI教練軟件。據瞭解,“小球圈”創始人為楊光垚,曾先後在字節跳動、百度、大疆車載(後獨立為卓馭)和蔚來任職,從事自動駕駛相關工作。在卓馭期間,他主要負責視覺感知、系統決策以及軟硬件協同等方向。作為其首個創業項目,早期從產品定義、數據閉環架構、軟件設計到內容運營等均由楊光垚一人獨立完成,硬件端則採用與深圳成熟ODM廠商合作的模式。過往職業經歷成為其後續創業判斷的基礎。在他看來,自動駕駛和體育訓練本質上是同一類問題:都是基於多模態數據輸入,核心是大模型架構和數據算法飛輪,底層打通即可快速迭代。小球圈的誕生,來源於一個非常具體的日常場景。楊光垚在長期網球訓練過程中捕捉到一些穩定存在的用戶痛點:訓練視頻拍攝後人工剪輯效率低下,動作缺乏系統覆盤,進步無法量化,同時找球友與預約訓練的成本較高。最終,楊光垚萌生了用AI解決這些問題的創業想法。楊光垚對雷峰網·鯨犀表示,最終鎖定體育AI賽道,主要基於三個原因:一是AI智能依賴數據,體育場景的多模態數據長期未被數據化,一旦被數據化便可衍生多種商業服務;二是體育場景涉及到多模態理解、多模態生成、長期記憶、球員教練場地多方交互,非常適合Agent落地;三是在他看來,這個領域仍由Wilson、Head、Yonex等海外品牌主導,缺少一個真正由技術驅動的國產品牌。痛點背後,也映射出當前AI進入運動訓練賽道

9 小時前