Hugging Face BlogAI Agent

開放式AI代理排行榜

2026年5月18日 14:12

重點摘要

IBM 研究團隊推出「開放式 AI 代理排行榜」,這是一個比較完整代理系統(而非僅模型)的開源基準,同時評估品質與成本,幫助判斷系統是否值得部署。該排行榜搭配 Exgentic 框架與完整方法論文,全部開放原始碼,旨在

站內 AI 整理稿

### 開放式AI代理排行榜:不只比模型,更比系統實戰力

AI代理(Agent)的效能究竟該怎麼比?過去我們習慣只看模型在單一基準上的分數,但真正部署時,代理的成敗往往取決於整個系統設計——它使用什麼工具、如何規劃步驟、能否記住前後對話、出錯時如何復原。Hugging Face 與 IBM Research 近期推出「開放式代理排行榜」(Open Agent Leaderboard),首次以完整系統為單位,同時衡量品質與成本,為開發者提供更務實的對照基準。這個排行榜不只揭露哪個方案表現最好,更讓大家看見「同一顆模型,不同系統設計」會帶來截然不同的結果。

### 為什麼需要這樣的排行榜?

現有評估往往只專注在模型本身的準確率,卻忽略代理真正的運作環境。舉例來說,同一個大型語言模型,配上不同的工具呼叫機制或錯誤處理邏輯,最終任務成功率可能差距甚大,運算成本也更懸殊。研究團隊因此認為,要判斷一個代理是否「值得部署」,不能只看模型分數,必須把代理系統視為一個整體來測試。這個排行榜正是為了解決這個缺口:它不只回報效能,還同時揭露每項任務的平均花費,讓你能在「好」與「划算」之間做出取捨。

### 什麼是「通用性」?一個頻譜而非標籤

團隊特別強調一個關鍵概念:**通用性(generality)**。一個好的代理不該只擅長單一任務(例如只在熟悉的程式庫裡寫程式),而是能適應多種不同場景——從客服對話、技術支援到個人助理,每種場景都有各自的操作規則與工具。通用性是一道光譜,不是非黑即白的標籤。真正的通用,必須在實際部署時依然保持效能,同時成本合理。如果一個代理什麼都能做,但每次運作都燒掉大筆經費,那就不算實質上的通用。排行榜正是要測量這種「跨場景、低成本」的通用能力。

### 六項基準測試,涵蓋真實工作場景

為了全面測試通用性,團隊選定六個既有且經學術界審查的基準,分別代表不同的任務類型:SWE-Bench Verified(在真實程式碼庫中除錯)、BrowseComp+(跨網路進行複雜研究)、AppWorld(在數百個應用與動作中完成個人任務)、tau2-Bench Airline & Retail(依公司政策處理客服)、tau2-Bench Telecom(技術支援對話)。這些基準原本各自獨立,共同的特色是都模擬了現實中的工作流程,但任務性質差異極大——從寫程式到打電話、從網頁瀏覽到應用操作。這樣的組合,才能真實考驗代理是否真的能「到處都管用」。

### 統一協議:讓基準與代理「說同一種語言」

要讓六個截然不同的基準能一起運作,並非易事。團隊設計了一套統一協議,將每個任務轉化為三元素:**任務(要做什麼)、背景(需要知道什麼)、動作(允許做什麼)**。代理不再需要為每個基準客製化介面,而是透過這個共同結構與所有基準溝通。這項標準化工作耗時費力,因為每個基準的假設與互動模式都不同,但成果是:代理可以保留原生工具與介面,基準也維持原始設計,兩者透過協議順暢對接。這也是為什麼排行榜上的結果,可能與單一基準的獨立排行榜數據不同——因為測試方式統一了。

### 排行榜怎麼看?系統才是關鍵

排行榜的每一行代表一組完整代理系統(特定代理軟體搭配特定模型),並呈現六項基準的平均成功率、每項任務的平均成本,以及各基準的細項成績。目前前三名都使用同一款模型,但分數與成本卻有明顯差異——原因就在於它們的系統設計不同。有的代理擅長規劃步驟、有的更善於錯誤復原,這些系統層面的差異,比模型本身的強弱更能決定最終結果。換句話說,如果你只想換模型而不調整系統架構,可能無法真正提升代理的表現。

### 對開發者與企業的影響

這個排行榜的出現,提醒業界:部署AI代理時,不該只把焦點放在模型選擇上,更應該花心力設計代理的架構——工具清單、記憶機制、任務規劃策略等。對於企業而言,成本與效能的平衡將越來越重要,排行榜同時揭露兩者,讓決策者能評估「這套系統真的值得上線嗎?」此外

Related

相關文章

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前
量子位AI Agent

騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding

這篇消息聚焦「騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding」。原始導語提到:已接入華為鴻蒙生態 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前

21年老牌企服公司的AI實驗:讓Agent跑一遍流程

這篇消息聚焦「21年老牌企服公司的AI實驗:讓Agent跑一遍流程」。原始導語提到:司盟企服接入騰訊雲WorkBuddy後,將海外郵件管理、審計理賬、訂單審核等高頻交付流程交給Agent先跑一遍 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前
TechWebAI Agent

曹操出行宣佈啟動全面AI轉型,組織升級向AI原生公司邁進

曹操出行在2026國際汽車及供應鏈博覽會 上宣佈啟動全面AI轉型,併發布RoboX戰略,打造全球領先的物理AI移動科技平臺。與此同時,公司正式啟動組織升級,加快向AI原生公司邁進。為推動全面AI轉型,今年上半年,公司推進戰略聚焦,持續優化業務結構,主動收縮非核心業務,加快向AI原生公司轉型。

20 小時前