Claude不到4%，全軍覆沒，一場大考撕碎Agent「全自動辦公」幻想

2026年5月25日 19:36

重點摘要

36氪這篇消息聚焦「Claude不到4%，全軍覆沒，一場大考撕碎Agent「全自動辦公」幻想」。原摘要指出：SaaS-Bench實測：當前Agent長程任務全軍覆沒，能力存短板。這則內容已被收錄為 AI 情報追蹤項目，後續可從技術進展、產品落地、產業競爭或市場影響等角度持續觀察。

站內 AI 整理稿

一份由第三方評測機構公布的 SaaS-Bench 實測結果，直接戳破了 AI 代理「全自動辦公」的過度樂觀想像。數據顯示，即便是目前表現最優的 Claude，在長程任務上的成功率也僅有不到 4%，其他主流模型更是全面敗北。

過去一年，業界不斷吹捧 AI Agent 能取代人類處理多步驟的複雜工作流程，從排程、填表到跨系統協作，彷彿辦公室即將進入無人工時代。但這份測試宛如當頭棒喝，點出實際落地時，代理在記憶、推理與容錯環節仍存在根本性缺陷。

重點在於，測試中的長程任務並非刻意刁難，而是模擬真實辦公中常見的「跨頁面操作」與「多層邏輯判斷」。代理往往在前半段步驟還能運作，一旦遭遇非預期回饋或需要追溯先前片段資訊，就會立刻斷線或執行錯誤指令。

對開發者與企業用戶而言，這項結果意味著短期內不能期待 AI 代理能獨立扛起完整辦公室流程。供應商的宣傳必須更務實，使用者也需要重新評估導入風險，尤其是在涉及隱私與財務決策的場景中。

後續值得觀察的面向包括：各家模型如何針對「長程記憶」與「錯誤復原」進行更新；SaaS-Bench 是否能成為業界標準測試；以及是否有新的混合人機分工模式出現，來補足代理當前的短板。

整體而言，這次大考撕碎了「一鍵自動化」的幻想，但也讓市場更清楚 AI 代理的真實能力邊界。與其追求全自動，不如先聚焦輔助性、局部重複任務的落地，才是現階段更可行的路徑。

原始來源：36氪 ↗

查看原始來源

量子位研究與前沿

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到：AI實現藥物全自動研發，還遠嗎？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

11 分鐘前閱讀分析

36氪研究與前沿

AI越強，越要“殺死”過去的自己

這篇消息聚焦「AI越強，越要“殺死”過去的自己」。原始導語提到：人類需要實現思維模式的轉變。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前閱讀分析

MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

9 小時前閱讀分析

36氪研究與前沿

Transformer之父離開谷歌，奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌，奧特曼等了他十年」。原始導語提到：27億美元也沒能留住，Noam Shazeer追尋下一代架構。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前閱讀分析

36氪研究與前沿

Dario訪談首曝：Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝：Mythos被稱為“超級武器”」。原始導語提到：在這場69分鐘完整訪談裡，Dario Amodei 說人類真正面對的不是某個突然降臨的奇點，而是一條已經開始垂直起飛的指數曲線。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前閱讀分析

鈦媒體研究與前沿

用結構替代數據，因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據，因果世界模型如何重塑具身智能大腦」。原始導語提到：因果世界模型需要一個標誌性的時刻來證明自己。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21 小時前閱讀分析

相關文章

GPT發AI原創新成果了

AI越強，越要“殺死”過去的自己

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

Transformer之父離開谷歌，奧特曼等了他十年

Dario訪談首曝：Mythos被稱為“超級武器”

用結構替代數據，因果世界模型如何重塑具身智能大腦