Claude不到4%,全軍覆沒,一場大考撕碎Agent「全自動辦公」幻想

2026年5月25日 19:36
Claude不到4%,全軍覆沒,一場大考撕碎Agent「全自動辦公」幻想

重點摘要

36氪 這篇消息聚焦「Claude不到4%,全軍覆沒,一場大考撕碎Agent「全自動辦公」幻想」。原摘要指出:SaaS-Bench實測:當前Agent長程任務全軍覆沒,能力存短板。這則內容已被收錄為 AI 情報追蹤項目,後續可從技術進展、產品落地、產業競爭或市場影響等角度持續觀察。

站內 AI 整理稿

一份由第三方評測機構公布的 SaaS-Bench 實測結果,直接戳破了 AI 代理「全自動辦公」的過度樂觀想像。數據顯示,即便是目前表現最優的 Claude,在長程任務上的成功率也僅有不到 4%,其他主流模型更是全面敗北。

過去一年,業界不斷吹捧 AI Agent 能取代人類處理多步驟的複雜工作流程,從排程、填表到跨系統協作,彷彿辦公室即將進入無人工時代。但這份測試宛如當頭棒喝,點出實際落地時,代理在記憶、推理與容錯環節仍存在根本性缺陷。

重點在於,測試中的長程任務並非刻意刁難,而是模擬真實辦公中常見的「跨頁面操作」與「多層邏輯判斷」。代理往往在前半段步驟還能運作,一旦遭遇非預期回饋或需要追溯先前片段資訊,就會立刻斷線或執行錯誤指令。

對開發者與企業用戶而言,這項結果意味著短期內不能期待 AI 代理能獨立扛起完整辦公室流程。供應商的宣傳必須更務實,使用者也需要重新評估導入風險,尤其是在涉及隱私與財務決策的場景中。

後續值得觀察的面向包括:各家模型如何針對「長程記憶」與「錯誤復原」進行更新;SaaS-Bench 是否能成為業界標準測試;以及是否有新的混合人機分工模式出現,來補足代理當前的短板。

整體而言,這次大考撕碎了「一鍵自動化」的幻想,但也讓市場更清楚 AI 代理的真實能力邊界。與其追求全自動,不如先聚焦輔助性、局部重複任務的落地,才是現階段更可行的路徑。

Related

相關文章

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

11 分鐘前

AI越強,越要“殺死”過去的自己

這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前
MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

9 小時前

Transformer之父離開谷歌,奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前

Dario訪談首曝:Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前

用結構替代數據,因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前