“Agent的最後一場考試”來了:最強模型得分率僅8.6%,Claude Code直接掛零

2026年6月10日 19:28
“Agent的最後一場考試”來了:最強模型得分率僅8.6%,Claude Code直接掛零

重點摘要

這篇消息聚焦「“Agent的最後一場考試”來了:最強模型得分率僅8.6%,Claude Code直接掛零」。原始導語提到:重新定義 AI 評估標準 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

### 重點整理:「Agent的最後一場考試」震撼AI圈,頂尖模型集體挫敗

近日一項名為「Agent的最後一場考試」的全新評測基準在AI社群引發熱議。根據曝光的結果,即便是目前性能最強的模型,在該測試中的得分率僅有8.6%,而備受關注的Claude Code更是直接掛零。這項評測被視為對AI Agent(自主智能體)能力的終極考驗,其嚴苛程度讓各大模型幾乎全軍覆沒,也再度挑戰了外界對AI自主能力的樂觀想像。

### 背景脈絡:為什麼需要「重新定義AI評估標準」?

過去兩年,AI Agent從學術概念迅速走向產品化,例如能自動寫程式、操作瀏覽器、執行多步驟任務的工具紛紛問世。然而,這些模型的實際表現往往難以量化,因為傳統的基準測試(如MMLU、GSM8K)側重於知識問答或單一任務,無法反映Agent在真實場景中的規劃、推理、工具調用與錯誤修正能力。因此,研究者開始設計更複雜的「綜合考場」,試圖模擬人類在工作流程中會遇到的動態挑戰。這次的「最後一場考試」正是此類嘗試的極致——它要求模型在高度不確定的環境中,自主完成一系列連環任務,任何一個環節失誤都可能導致全局失敗。

### 考試內容與結果:為何最強模型得分僅8.6%?

根據現有資訊,該評測涵蓋了多模態理解、長期規劃、工具協同、跨域推理等維度,題目設計刻意避開了模型常見的訓練數據模式。例如,任務可能要求Agent同時查閱多個網頁、解讀非結構化圖表、根據即時回饋調整策略,並在限定步驟內產生可執行的成果。8.6%的得分率意味著頂尖模型幾乎只能完成不到十分之一的任務;而Claude Code——被認為是程式碼助手領域的佼佼者——直接掛零,暗示它在需要即時決策與鏈式思考的場景中完全失靈。這樣的結果顯示,當前主流模型在「真正自主」的道路上仍有巨大鴻溝。

### 可能影響之一:AI Agent的商業化信心將受衝擊

這項評測對許多已投入Agent產品的企業無疑是當頭棒喝。目前市面上已有不少號稱「AI助理」或「自動化工具」的服務,但若連最先進的模型在綜合考場中都僅能拿到不到9%的分數,其日常使用的可靠性恐怕被嚴重高估。投資者可能會重新評估Agent賽道的估值,開發團隊也得重新審視「多步驟任務」的產品邊界——或許現階段更務實的做法是將Agent限制在高度範疇化的場景,而非追求通用能力。

### 可能影響之二:推動研究團隊反思訓練與評測方法

另一方面,這場考試也凸顯出既有訓練策略的盲點。主流模型透過大量互聯網文本進行預訓練,擅長模式匹配與知識檢索,但面對需要「組合性推理」與「容錯機制」的動態任務時,往往缺乏類似人類的試誤學習能力。研究人員可能得從以下方向突破:第一,引入更多具備中間狀態回饋的模擬環境;第二,強化模型的「內部監控」機制,讓它在執行過程中能自我檢驗與修正;第三,設計更貼近真實工作流的評測標準,避免模型針對特定題型過度最佳化。

### 讀者可關注的後續之一:評測基準是否會成為產業標配?

值得注意的是,原文提到「重新定義AI評估標準」,暗示這類考試可能不僅是一次性研究,而是試圖建立長期的標竿。讀者可關注主辦方是否會公開測試細節、開放提交結果,以及是否有其他團隊複現或質疑評分機制。如果未來類似「最後一場考試」成為業界共識,那麼模型之間的能力對比將不再僅憑單一榜單,而是需要通過這類高難度挑戰來驗證。

### 讀者可關注的後續之二:是否有模型能在短期內突破?

掛零的Claude Code與僅得8.6%的模型,是否會刺激OpenAI、Anthropic等公司推出針對性更新?我們可以觀察近期是否會有新版本模型特別強調「Agent穩定性」與「長序列規劃」,甚至出現專為這類考試設計的推理框架。此外,開源社群也可能針對評測缺陷開發替代方案,例如更輕量的訓練數據合成工具,協助中小團隊提升Agent能力。

### 結語

Related

相關文章

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前
量子位AI Agent

騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding

這篇消息聚焦「騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding」。原始導語提到:已接入華為鴻蒙生態 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前

21年老牌企服公司的AI實驗:讓Agent跑一遍流程

這篇消息聚焦「21年老牌企服公司的AI實驗:讓Agent跑一遍流程」。原始導語提到:司盟企服接入騰訊雲WorkBuddy後,將海外郵件管理、審計理賬、訂單審核等高頻交付流程交給Agent先跑一遍 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前
TechWebAI Agent

曹操出行宣佈啟動全面AI轉型,組織升級向AI原生公司邁進

曹操出行在2026國際汽車及供應鏈博覽會 上宣佈啟動全面AI轉型,併發布RoboX戰略,打造全球領先的物理AI移動科技平臺。與此同時,公司正式啟動組織升級,加快向AI原生公司邁進。為推動全面AI轉型,今年上半年,公司推進戰略聚焦,持續優化業務結構,主動收縮非核心業務,加快向AI原生公司轉型。

20 小時前