Hugging Face BlogAI Agent

開放式AI代理排行榜

2026年5月18日 14:12

重點摘要

IBM 研究團隊推出「開放式 AI 代理排行榜」，這是一個比較完整代理系統（而非僅模型）的開源基準，同時評估品質與成本，幫助判斷系統是否值得部署。該排行榜搭配 Exgentic 框架與完整方法論文，全部開放原始碼，旨在

站內 AI 整理稿

### 開放式AI代理排行榜：不只比模型，更比系統實戰力

AI代理（Agent）的效能究竟該怎麼比？過去我們習慣只看模型在單一基準上的分數，但真正部署時，代理的成敗往往取決於整個系統設計——它使用什麼工具、如何規劃步驟、能否記住前後對話、出錯時如何復原。Hugging Face 與 IBM Research 近期推出「開放式代理排行榜」（Open Agent Leaderboard），首次以完整系統為單位，同時衡量品質與成本，為開發者提供更務實的對照基準。這個排行榜不只揭露哪個方案表現最好，更讓大家看見「同一顆模型，不同系統設計」會帶來截然不同的結果。

### 為什麼需要這樣的排行榜？

現有評估往往只專注在模型本身的準確率，卻忽略代理真正的運作環境。舉例來說，同一個大型語言模型，配上不同的工具呼叫機制或錯誤處理邏輯，最終任務成功率可能差距甚大，運算成本也更懸殊。研究團隊因此認為，要判斷一個代理是否「值得部署」，不能只看模型分數，必須把代理系統視為一個整體來測試。這個排行榜正是為了解決這個缺口：它不只回報效能，還同時揭露每項任務的平均花費，讓你能在「好」與「划算」之間做出取捨。

### 什麼是「通用性」？一個頻譜而非標籤

團隊特別強調一個關鍵概念：**通用性（generality）**。一個好的代理不該只擅長單一任務（例如只在熟悉的程式庫裡寫程式），而是能適應多種不同場景——從客服對話、技術支援到個人助理，每種場景都有各自的操作規則與工具。通用性是一道光譜，不是非黑即白的標籤。真正的通用，必須在實際部署時依然保持效能，同時成本合理。如果一個代理什麼都能做，但每次運作都燒掉大筆經費，那就不算實質上的通用。排行榜正是要測量這種「跨場景、低成本」的通用能力。

### 六項基準測試，涵蓋真實工作場景

為了全面測試通用性，團隊選定六個既有且經學術界審查的基準，分別代表不同的任務類型：SWE-Bench Verified（在真實程式碼庫中除錯）、BrowseComp+（跨網路進行複雜研究）、AppWorld（在數百個應用與動作中完成個人任務）、tau2-Bench Airline & Retail（依公司政策處理客服）、tau2-Bench Telecom（技術支援對話）。這些基準原本各自獨立，共同的特色是都模擬了現實中的工作流程，但任務性質差異極大——從寫程式到打電話、從網頁瀏覽到應用操作。這樣的組合，才能真實考驗代理是否真的能「到處都管用」。

### 統一協議：讓基準與代理「說同一種語言」

要讓六個截然不同的基準能一起運作，並非易事。團隊設計了一套統一協議，將每個任務轉化為三元素：**任務（要做什麼）、背景（需要知道什麼）、動作（允許做什麼）**。代理不再需要為每個基準客製化介面，而是透過這個共同結構與所有基準溝通。這項標準化工作耗時費力，因為每個基準的假設與互動模式都不同，但成果是：代理可以保留原生工具與介面，基準也維持原始設計，兩者透過協議順暢對接。這也是為什麼排行榜上的結果，可能與單一基準的獨立排行榜數據不同——因為測試方式統一了。

### 排行榜怎麼看？系統才是關鍵

排行榜的每一行代表一組完整代理系統（特定代理軟體搭配特定模型），並呈現六項基準的平均成功率、每項任務的平均成本，以及各基準的細項成績。目前前三名都使用同一款模型，但分數與成本卻有明顯差異——原因就在於它們的系統設計不同。有的代理擅長規劃步驟、有的更善於錯誤復原，這些系統層面的差異，比模型本身的強弱更能決定最終結果。換句話說，如果你只想換模型而不調整系統架構，可能無法真正提升代理的表現。

### 對開發者與企業的影響

這個排行榜的出現，提醒業界：部署AI代理時，不該只把焦點放在模型選擇上，更應該花心力設計代理的架構——工具清單、記憶機制、任務規劃策略等。對於企業而言，成本與效能的平衡將越來越重要，排行榜同時揭露兩者，讓決策者能評估「這套系統真的值得上線嗎？」此外

原始來源：Hugging Face Blog ↗

查看原始來源

TechWebAI Agent

網易有道全面向AI轉型全場景Agent矩陣亮相圖博會

{"id":"39ef5947-b77a-4904-bf03-ff6264f08dc4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":154,"output_tokens":200,"total_tokens":354}}

剛剛閱讀分析

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前閱讀分析