智東西生成式AI

讓AI自己修服務器?先過了這場“火線測試”再說

2026年6月29日 11:00

重點摘要

智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理

站內 AI 整理稿

智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理時長縮短50%,關鍵故障處理效率提升約6倍,運維人效提升超過5倍,綜合運維成本下降約30%。然而在實踐過程中,他們也發現行業缺少一套能夠客觀衡量運維智能體能力的標準體系,這成為推動AISHPerf-智算運維智能體評測基準誕生的重要原因。 這一需求背後有著非常現實的行業背景。隨著AI基礎設施規模不斷擴大,許多故障已經超出了傳統監控系統和規則引擎的處理能力。運維工程師不僅需要理解硬件設備狀態,還需要掌握網絡通信、分佈式系統、容器平臺以及訓練框架等多層知識體系。智能體如果要進入這樣的場景,需要擁有相同的能力集合,並且要能真正將知識運用到實際問題解決中去。 為了構建高質量評測集,研究團隊從無問芯穹成立以來積累的百億條真實運維數據中進行篩選。他們收集了2024年至2026年初全部用戶工單、即時通信記錄、運維文檔以及線上集群監控告警數據,並通過多輪數據清洗剔除低質量內容。整個過程不僅包含去重和嚴格脫敏,還排除了與特定業務強綁定、無法泛化的問題案例,確保最終保留下來的樣本既真實可信,又具備普適評測價值。 經過嚴格篩選後,團隊從10萬條有效數據中進一步抽象整理,最終形成103個高保真評測用例。每一個案例都對應真實發生過的生產故障,包含完整的問題現象、排查路徑以及最終根因,確保評測結果能夠真實反映智能體在生產環境中的實際表現。 值得注意的是,AISHPerf-智算運維智能體評測基準覆蓋的問題範圍極其廣泛,按照技術棧層級將問題劃分為宿主機、高性能設備、容器平臺、訓推腳本、安全與運營商五大類,涵蓋44種問題現象和22個細分故障領域,基本覆蓋了真實運維場景中可能遇到的所有情況。 此外,所有問題共分為3種難度級別,平均人工處理耗時為1.5小時,充分保障了問題的複雜性與挑戰性。 對於智能體而言,這意味著它不僅需要理解單點故障,還要具備跨系統關聯分析能力,而這恰恰是現實運維工作中最具挑戰性的部分。 更有意義的是,該基準首次將國產算力平臺納入評測體系。天數智芯、壁仞科技、沐曦、摩爾線程以及昇騰等國產芯片相關問題均被覆蓋其中。 隨著國產GPU集群規模快速增長,越來越多企業開始部署異構算力環境,不同芯片架構帶來的兼容性和運維挑戰也隨之增加。將國產算力場景納入統一評測體系,不僅能夠提升基準的現實價值,也為未來國產智算生態建設提供了重要參考。 二、不考筆試考實操:故障模擬注入,智能體自主排障 如果說高質量數據決定了評測內容,那麼評測方式則決定了測試結果是否具有參考意義。 當前大多數模型Benchmark本質上仍屬於“筆試”模式。模型面對一道題目,通過知識記憶和推理給出答案即可獲得分數。然而運維工作並非如此。現實中的故障往往沒有明確線索,工程師需要不斷收集信息、驗證假設並逐步縮小排查範圍,最終找到真正原因。因此,對一個真正優秀的運維智能體而言,考察重點不應該是知道多少知識,而是能否把問題解決掉。 AISHPerf-智算運維智能體評測基準最大的創新之一,正是在於將評測從知識問答轉變為真實實操。測試開始後,系統不會直接告訴智能體故障原因,而只會提供有限的問題描述以及真實運行環境。智能體需要自行調用工具、查看日誌、執行命令、分析狀態,並在不斷探索過程中完成問題定位和修復。這種開放式測試模式更加接近真實生產環境,也對智能體提出了更高要求。 例如在“訓練任務卡死”場景中,評測系統會提前向環境中注入故障,同時提供一個包含訓練腳本的開發容器。智能體只能獲得來自用戶的一段問題反饋,之後需要獨立完成問題復現、原因分析和故障修復的全過程。整個過程對知識儲備、決策能力、工具使用能力以及長鏈路推理能力進行了全面的考察。 為了支撐這種實操評測,無問芯穹同時建設了配套工具AIops-Chaos。這是一套面向GPU集群的故障模擬工程,專門用於構造真實而可控的異常環境。在傳統運維測試中,直接製造硬件故障往往成本極高,而且存在設備損壞風險;而純軟件模擬又難以還原真實場景。AIops-Chaos則嘗試在兩者之間找到平衡。 通過軟件層面對GPU和RDMA等智算集群環境進行精準模擬,該系統能夠構造掉卡、顯存異常、NVLink故障以及網絡分區等多種典型問題,同時結合真實業務負載形成高保真測試環境。相比物理故障注入方式,這種方案既避免了設備損壞風險,又能夠實現快速重複測試,大幅降低驗證成本。 與此同時,團隊還推出了端到端評測工具鏈AIops-Eval。與現有評測框架相比,其最大的特點是能夠追蹤智能體整個決策過程。系統通過User、Agent、Env、Evaluator以及Tracing五大模塊,對智能體行為進行全流程記錄和分析,從而實現細粒度評測。 這種評測方式的重要性在於,運維智能體的價值既體現在最終能否解決問題,也體現在解決問題的路徑是否合理。如果智能體單純靠猜測來找到問題根因,其工程價值顯然遠低於真正與環境交互得到根因的智能體。因此,對過程進行評估成為衡量智能體實際能力的重要組成部分。 三、實測成績單出爐,三大失敗模式揭示智能體的“強項”與“死穴” 為了儘可能客觀衡量智能體能力,AISHPerf-智算運維智能體評測基準設計了一套結果導向的多維評估體系。 其中最核心指標是綜合得分。系統根據簡單、中等和困難三種難度的問題分別統計成功率,並按照不同權重計算總成績。這樣的設計避免了模型通過大量完成簡單任務獲得虛高分數,而是鼓勵其真正解決複雜問題。此外,評測還同時記錄平均耗時、Token消耗以及工具調用次數,從準確率、效率和成本多個維度進行綜合評價。 值得注意的是,評測明確規定智能體必須與環境發生真實交互。如果模型沒有調用工具而直接猜測答案,即使結果正確也不會得分。這一規則有效避免了投機行為,使評測結果更加真實可信。 在測試中,研究團隊選取了包括Claude Sonnet在內的多個國內外主流模型進行驗證,為了突出模型自身能力,測試環境僅開放Shell工具,同時禁止聯網搜索,所有問題都必須依靠自主分析完成。 測試結果顯示,雖然所有模型都展現出明顯高於人類運維工程師的處理速度,但總體得分仍然不高,全部低於50分。這意味著即使當前最先進的大模型,在複雜運維場景中依然遠未達到成熟可用階段。 進一步分析發現,隨著任務難度增加,各模型正確率迅速下降。在中等和困難問題上,大多數模型成功率不足50%。與此同時,工具調用時間佔比持續增加,但最終正確率卻沒有同步提升。這表明模型雖然願意收集更多信息,卻缺乏有效篩選和利用信息的能力,導致排查效率下降。 從技術棧維度來看,不同模型也呈現出明顯能力差異。整體而言,模型更擅長處理代碼邏輯和軟件層問題,而在GPU硬件、網絡設備等基礎設施故障上表現相對較弱。 面對硬件問題時,模型往往消耗更多Token進行分析,卻依然難以準確定位根因,反映出其技能與人類運維工程師存在差異。 這些差異恰恰證明了評測體系本身具備良好區分度。AISHPerf-智算運維智能體評測基準能夠清晰拉開不同模型之間的能力差距,說明其確實捕捉到了運維場景中的關鍵能力指標。 通過大量測試軌跡分析,研究團隊總結出當前運維智能體最典型的三類失敗模式。 第一類是穩定性不足,包括工具調用格式錯誤、執行流程異常終止以及違反規則等問題。 第二類是推理鏈質量不足,表現為只解決表面現象而未找到真正根因,或者在缺乏證據情況下直接下結論。 第三類則是安全性問題,一些模型可能執行危險命令,甚至導致環境崩潰,需要人工介入恢復。 這些失敗模式對於行業具有重要參考意義,為大模型在基礎設施場景後續的能力優化提供了明確依據。 結語:給運維Agent建立一把統一標尺 當AI進入大規模落地階段後,提升GPU利用率、縮短故障恢復時間以及降低運維成本,正在成為更加迫切的課題。運維智能體被寄予厚望,但其能力邊界究竟在哪裡,同樣需要被客觀衡量。 AISHPerf-智算運維智能體評測基準的價值,正在於為行業提供了這樣一把統一標尺。它不僅首次將真實生產環境引入智能體評測體系,也讓“智能體是否真正解決問題”成為核心評價標準。 隨著未來更多模型、Agent框架和國產算力生態加入這一體系,這套Benchmark有望逐步演變為AI基礎設施領域的重要公共基線,為整個行業探索“AI for Infra”的未來提供持續參考。

Related

相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?

這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜

這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
IT之家生成式AI

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 分鐘前
智東西生成式AI

OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用

智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A

3 小時前
IT之家生成式AI

曝中國移動設立 Token 辦公室,集團領導掛帥督戰

這篇消息聚焦「曝中國移動設立 Token 辦公室,集團領導掛帥督戰」。原始導語提到:業內人士透露,繼在集團層面設立數智事業部、算力辦之後,中國移動於近日設立 Token 辦公室。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

3 小時前