“Agent的最後一場考試”來了：最強模型得分率僅8.6%，Claude Code直接掛零

2026年6月10日 19:28

重點摘要

這篇消息聚焦「“Agent的最後一場考試”來了：最強模型得分率僅8.6%，Claude Code直接掛零」。原始導語提到：重新定義 AI 評估標準從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

### 重點整理：「Agent的最後一場考試」震撼AI圈，頂尖模型集體挫敗

近日一項名為「Agent的最後一場考試」的全新評測基準在AI社群引發熱議。根據曝光的結果，即便是目前性能最強的模型，在該測試中的得分率僅有8.6%，而備受關注的Claude Code更是直接掛零。這項評測被視為對AI Agent（自主智能體）能力的終極考驗，其嚴苛程度讓各大模型幾乎全軍覆沒，也再度挑戰了外界對AI自主能力的樂觀想像。

### 背景脈絡：為什麼需要「重新定義AI評估標準」？

過去兩年，AI Agent從學術概念迅速走向產品化，例如能自動寫程式、操作瀏覽器、執行多步驟任務的工具紛紛問世。然而，這些模型的實際表現往往難以量化，因為傳統的基準測試（如MMLU、GSM8K）側重於知識問答或單一任務，無法反映Agent在真實場景中的規劃、推理、工具調用與錯誤修正能力。因此，研究者開始設計更複雜的「綜合考場」，試圖模擬人類在工作流程中會遇到的動態挑戰。這次的「最後一場考試」正是此類嘗試的極致——它要求模型在高度不確定的環境中，自主完成一系列連環任務，任何一個環節失誤都可能導致全局失敗。

### 考試內容與結果：為何最強模型得分僅8.6%？

根據現有資訊，該評測涵蓋了多模態理解、長期規劃、工具協同、跨域推理等維度，題目設計刻意避開了模型常見的訓練數據模式。例如，任務可能要求Agent同時查閱多個網頁、解讀非結構化圖表、根據即時回饋調整策略，並在限定步驟內產生可執行的成果。8.6%的得分率意味著頂尖模型幾乎只能完成不到十分之一的任務；而Claude Code——被認為是程式碼助手領域的佼佼者——直接掛零，暗示它在需要即時決策與鏈式思考的場景中完全失靈。這樣的結果顯示，當前主流模型在「真正自主」的道路上仍有巨大鴻溝。

### 可能影響之一：AI Agent的商業化信心將受衝擊

這項評測對許多已投入Agent產品的企業無疑是當頭棒喝。目前市面上已有不少號稱「AI助理」或「自動化工具」的服務，但若連最先進的模型在綜合考場中都僅能拿到不到9%的分數，其日常使用的可靠性恐怕被嚴重高估。投資者可能會重新評估Agent賽道的估值，開發團隊也得重新審視「多步驟任務」的產品邊界——或許現階段更務實的做法是將Agent限制在高度範疇化的場景，而非追求通用能力。

### 可能影響之二：推動研究團隊反思訓練與評測方法

另一方面，這場考試也凸顯出既有訓練策略的盲點。主流模型透過大量互聯網文本進行預訓練，擅長模式匹配與知識檢索，但面對需要「組合性推理」與「容錯機制」的動態任務時，往往缺乏類似人類的試誤學習能力。研究人員可能得從以下方向突破：第一，引入更多具備中間狀態回饋的模擬環境；第二，強化模型的「內部監控」機制，讓它在執行過程中能自我檢驗與修正；第三，設計更貼近真實工作流的評測標準，避免模型針對特定題型過度最佳化。

### 讀者可關注的後續之一：評測基準是否會成為產業標配？

值得注意的是，原文提到「重新定義AI評估標準」，暗示這類考試可能不僅是一次性研究，而是試圖建立長期的標竿。讀者可關注主辦方是否會公開測試細節、開放提交結果，以及是否有其他團隊複現或質疑評分機制。如果未來類似「最後一場考試」成為業界共識，那麼模型之間的能力對比將不再僅憑單一榜單，而是需要通過這類高難度挑戰來驗證。

### 讀者可關注的後續之二：是否有模型能在短期內突破？

掛零的Claude Code與僅得8.6%的模型，是否會刺激OpenAI、Anthropic等公司推出針對性更新？我們可以觀察近期是否會有新版本模型特別強調「Agent穩定性」與「長序列規劃」，甚至出現專為這類考試設計的推理框架。此外，開源社群也可能針對評測缺陷開發替代方案，例如更輕量的訓練數據合成工具，協助中小團隊提升Agent能力。

### 結語

原始來源：36氪 ↗

查看原始來源

TechWebAI Agent

網易有道全面向AI轉型全場景Agent矩陣亮相圖博會

{"id":"39ef5947-b77a-4904-bf03-ff6264f08dc4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":154,"output_tokens":200,"total_tokens":354}}

剛剛閱讀分析

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前閱讀分析