百度智能雲 DuMate 測評：辦公 Agent 教我用 Claude Code，效果如何？

2026年5月31日 06:41

重點摘要

站內 AI 整理稿

雷峰網訊百度針對企業級場景設計的桌面級 AI 智能體 DuMate 於今年 3 月 22 日全量上線。從我們對於 AI 辦公產品的以往測評來看，能夠真實進入辦公場景的產品還是不多見。DuMate 能否打破中看不中用的魔咒，成為一款真正能“抗活兒”的 AI 搭子？帶著這樣的疑問，我們設計了一項覆蓋項目研究、結果整理以及包括四種交付物的多形態輸出任務。看看百度智能雲 DuMate，究竟能把任務推進到什麼程度。01先看產品邏輯：解決真實工作流問題中國一眾 AI 玩家裡，百度的打法一直有自己的邏輯。文心一言打頭部認知市場，秒噠打無代碼應用搭建，而 DuMate 則試圖填補一個更具體的位置，個人及團隊的日常辦公場景中，真正替代那些需要“操作軟件、串聯文件、交付結果”的重複勞動。本質上，這就是桌面級 Agent 的生態位。AI 助手的價值，不在於“答得更好”，更在於“做得更多”。當大模型的推理能力逐漸同質化，真正拉開差距的，是誰能更好地把 AI 嵌入真實工作流，並交付可留存、可複用的結果。根據百度智能雲公開資料，DuMate 強調的不只是問答，而是“看見屏幕、操作軟件、處理文件、串聯業務系統”。看起來簡單的功能定位，實際上覆蓋了從桌面執行、工作區、技能擴展到本地安全、辦公交付的整條工作鏈。在技術邏輯上，這需要 DuMate 具備三個層次的能力。第一層是感知與理解。DuMate 需要理解用戶在說什麼、想做什麼，這背後是將自然語言指令映射為具體操作序列的能力。第二層是工具調用與執行，理解之後，DuMate 需要調起正確的工具，讀寫文件、操作瀏覽器、執行代碼、調用 API。這要求它對桌面環境有真實的感知和控制能力，而非只返回一個 API 調用建議。最後就是結果交付與歸檔。執行完成後，結果需要以正確的形態輸出，對於辦公助手來說，這往往是 Word 文檔、Excel 表格、PPT 演示或者網站頁面。而且交付物本身必須可留存、可複用。今年 3 月 22 日全量上線後，DuMate 迅速補齊了技能廣場、Word/PPT/Excel 優化、文件預覽解析、每日總結、消息渠道接入和正式計費等能力。在不到一個月的時間內，核心辦公能力已經基本完整。DuMate 辦公工作臺的產品邏輯已經越發清晰：即通過一個智能體，將用戶模糊的目標，直接轉化為可留存、可複用的最終交付物，從而真正嵌入並解決真實的工作流問題。02實測：一套事實底稿，四種交付物這次測試，我們沒有選擇常見的“寫一篇文章”或“整理一份表格”之類不痛不癢的輕任務，而是給 DuMate 佈置了一項更接近真實工作的複雜任務，圍繞某一個 GitHub 項目，完成一次“項目研究 + 多形態交付”任務。比如讓 AI 做一張 excel 或者生成一張 PPT，這類任務太簡單、太乾淨，現實中很少有人這樣工作，根本測不出來AI 的水平。但是用一個真實的、雜亂的、多源信息的任務來考核 AI，比如圍繞一個 GitHub 項目做任務，這正是研發、產品、技術寫作人員日常會碰到的工作。如果 AI 在這種任務上表現不錯，那它在真實辦公場景中大概率也能派上用場。這次我們選擇的 GitHub 項目叫做 everything-claude-code，給不熟悉的朋友介紹一下。這個項目在 GitHub 上的 Star 數已經超過了 14 萬。比起某種工具，它更像是一套專為 Claude Code 等 AI 編程工具設計的工程化配置系統，既能用來調教 AI，也能拿它學習怎麼跟 AI 打配合。Everything-claude-code 被設計出來的目的就是把 AI 從“聊天助手”升級成可遵循規範、沉澱經驗的智能工程系統。具體來說它解決的是四大痛點：▪ 持久化記憶：通過自動化鉤子實現跨會話上下文保存，避免換項目就失憶；▪ 規範化流程：將開發拆解為規劃、審查、測試等環節；▪ 自動化檢查：內置安全掃描工具 AgentShield，含 1282 項測試和 102 條安全規則；▪ 持續學習：AI 自動提取有效模式沉澱為團隊知識。整個項目組件像一個完整的“AI 開發流水線”，包括 30 多個各司其職的 Agent，150+ 個可複用 Skill 固化成的最佳實踐，70+ 條快捷命令一鍵觸發複雜流程，還有 30 餘條規則構成 AI 的行為底線。簡單來說，everything-claude-code 就是將一位資深工程師的一次性對話變成了可積累、可優化的“工程實踐”，並且能直接服務於你的私人 Agent 助理。我們為 DuMate 設計的測試任務，就是要求它對開源在 GitHub 上的 everything-claude-code 進行整理，並把這份“秘籍”以 Excel 內容目錄、Word 說明書、PPT 大綱與逐頁內容、網站四種形式進行輸出。測試題目：代碼塊請圍繞 GitHub 項目 everything-claude-code（https://github.com/affaan-m/everything-claude-code）完成一次“項目研究 + 多形態交付”任務。注意：該項目不是普通應用，而是一個面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增強系統。請重點分析其 commands、skills、hooks、rules、guides、install scripts、配置與集成方式，不要誤寫成傳統 SaaS 或單體軟件。請你先基於 GitHub 倉庫和公開網絡資料完成研究，形成一份“統一事實底稿”，再基於這同一套事實底稿輸出以下 4 項交付物：1. 一份可歸檔的正式 Word 說明書, 以計算機類專業書籍的格式呈現2. 一份適合介紹/彙報的 PPT 內容稿，面向計算機專業群體3. 一個可本地預覽的展示型靜態網站4. 一份 Excel 統計表，用於統計當前項目的組件/模塊/目錄/關鍵文件數量、名稱、作用說明及備註一、研究範圍至少覆蓋：- 項目定位、目標用戶、解決的問題、典型場景- commands / skills / hooks / rules / guides / scripts / 配置文件 / tests / integrations 的結構與作用- 安裝、配置、接入方式、典型用法- 架構或工作機制- 當前版本狀態、最近更新、維護活躍度- 風險、限制、不確定項- GitHub 之外的 guide、release、官網、文檔、博客、社區、教程、討論等資料二、統一事實底稿請先輸出一份結構化項目情報，作為後續全部交付物的唯一事實來源。要求：- 先輸出“統一事實底稿”，標註【已確認】【推斷】【待確認】，儘量附來源鏈接- 如有資料衝突，列出衝突點與判斷依據- 所有後續交付物必須嚴格基於同一套事實底稿，彼此不得矛盾- 不得編造項目中不存在的功能、組件、版本或官方信息三、交付物要求1）Word：面向首次接觸者，章節完整、專業正式，適合歸檔/培訓/對外說明；若不能直接生成 .docx，則提供完整正文、標題層級、封面建議、排版建議和文件名2）PPT：適合介紹/彙報，不照搬說明書；先大綱後逐頁；每頁含標題、3-6個要點、圖示建議、演講備註；10-18頁；若不能直接生成 .pptx，則提供完整逐頁內容和文件名3）網站：若不能直接發佈，則生成本地可運行的靜態網站目錄；至少包含首頁、項目介紹、核心能力、安裝使用、架構說明、FAQ、參考資料；提供目錄結構、全部文件內容、入口文件名和打開方法；優先使用無需複雜構建的 HTML/CSS/JS4）Excel：先說明統計口徑；統計當前項目的目錄、commands、skills、hooks、rules、scripts、docs/guides、配置文件、tests、integration targets 等數量、名稱、路徑、作用說明、所屬類別、備註、來源依據；若不能直接生成 .xlsx，則提供可直接導入 Excel 的 CSV 或表格內容及文件名四、輸出順序1. 研究方法與信息來源2. 統一事實底稿3. Excel 統計口徑與統計表4. Word 說明書5. PPT 大綱與逐頁內容6. 網站目錄結構與文件內容7. 風險說明、未確認項、受限項8. 最終交付清單與建議文件名五、全局約束- 所有產出必須基於同一套事實底稿，彼此不得矛盾- 不得編造 GitHub 倉庫中不存在的功能、組件、版本或官方信息- 對不確定內容必須明確標註- 不得在無法生成真實 .docx/.pptx/.xlsx 文件時謊稱“已生成完成”這項任務的難點在於，everything-claude-code 不是普通應用程序，而是一個面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增強系統，因此 DuMate 不能把它誤寫成傳統 SaaS 或單體軟件。此外由於超高的熱度，everything-claude-code 在網絡上有大量公開資料補充，DuMate 的研究不能侷限於 GitHub 倉庫。良莠不齊的公開資料又對交付質量提出了挑戰，即所有內容必須基於同一套”統一事實底稿”，DuMate 需要甄別、摒棄那些自相矛盾的錯誤信息。最終，它需要交付四樣東西：一份 Word 說明書、一份 PPT 內容稿、一個可本地預覽的靜態網站，以及一份 Excel 統計表。DuMate 的表現如何呢？下面來看看：▪ 搭底稿：先研究，後輸出第一步，DuMate 先讀懂 everything-claude-code 項目，並從公開網絡補充 guide、release、文檔、博客和社區資料，最終形成“統一事實底稿”。這一步最值得看的，不光是它會不會把倉庫 README 摘一遍，還有它有沒有能力把倉庫內信息和倉庫外信息合併起來，再組織成後續交付物共同依賴的底層材料。從實際界面看，DuMate 沒有停留在“對話框裡給一段總結”，而是把任務拆成了多個階段節點。右側“進程”欄會顯示當前正在生成的 Word、PPT、網站目錄與最終清單等內容，左側則能看到當前對話與工作區文件。這意味著它的執行過程不是黑箱，用戶能知道它正在做什麼、哪些文件已經生成、後續還會走到哪一步。對一款以“真幹活”為賣點的辦公 Agent 來說，可觀察、可控的使用體驗是必不可少的。更關鍵的是，DuMate 先搭底稿，再做輸出。這個動作的價值在於：一旦底稿成型，後面的 Word、PPT、網站和 Excel 才有可能保持前後一致。對有過真實項目經歷的人來說，最耗人的往往不是寫材料，而是來回核對材料之間是否矛盾。DuMate 表現出來的，是一種更接近項目工作的研究先行 + 一稿多用思路。▪ Excel 統計：統計口徑先行在事實底稿之後，DuMate 被要求生成 Excel 統計表。這裡的難點不是“做個表”，而是要明確統計口徑，梳理項目模塊、目錄、關鍵文件、數量、路徑、作用說明和備註，並且與前面的研究結論保持一致。實際任務中，它給出的不是一張臨時列表，而是一份更接近可二次使用的統計材料，包含統計口徑說明、各字段定義，以及能夠與後續文檔交叉核對的結構化數據。▪ Word 說明書：進入真實文件生成流程接著是 Word 說明書。這一步更像交付驗證，普通聊天助手往往只能給你一段“可以複製到 Word 裡”的正文，而 DuMate 則進入了真實文件生成流程，最後直接拿出一個可以直接預覽的 .docx 文檔。用戶看到的不再是“文本建議”，而是一個已經生成出來、可以繼續流轉和保存的文件。這其中的差距，遠比聽上去的大。到這一步，交付物已經展現出了不俗的落地價值。everything-claude-code 本身就是極具分享價值的實踐經驗，在此基礎上形成的技術說明書，更是把這份“大牛指南”掰開揉碎了餵給用戶。架構設計和核心組件介紹都是最基本的，這份 35 頁的文檔裡，一半以上都是可以直接指導 Agent 實踐的部署教程和最佳實踐案例。就連高頻出現的問題，都整理成了一份故障排除指南。▪ PPT + 網站：內容形態切換PPT 的呈現效果也不錯。事實上這個環節的難點從來不在於把文檔壓縮到幾個畫面上，而是要讓內容從書面敘述切換到視覺表達。DuMate 在這一環節繼續沿用同一套事實底稿，沒有重新發明一套邏輯，項目說明就此轉化為了更適合介紹和彙報的結構。最後一環是展示型網站。這裡考驗的就不再是文檔生成能力，而是信息架構遷移：項目介紹、核心能力、安裝使用、FAQ、參考資料等模塊，需要被重新組織成網頁表達。DuMate 最終生成了可本地預覽的靜態網站目錄。這意味著同一套事實底稿，已經不只是能被"寫成文檔"，而是能被“做成網站”。把這四項交付串起來看，DuMate 這次最有價值的表現，並不是某一個單項上做得比別人更漂亮，而是它在研究—整理—文件生成—展示化輸出這條鏈路上可靠地跑完了全程。對於辦公 Agent 來說，在多個任務步驟之間能順滑地銜接，恰恰是落地最關鍵的門檻。03 桌面級 AI 辦公工具的PMF分水嶺從“單次生成”到“任務閉環”，桌面級 AI 辦公工具正在經歷一場不容拒絕的範式轉移。回看過去一年的 AI 辦公賽道，大多數產品的邏輯依然是“提問-生成-複製”的三步循環。用戶在對話框裡輸入需求，AI 返回一段文字或一張圖表，用戶再手動把它搬到 Word、PPT 或郵件裡。但複製這個動作，恰恰是攔住辦公 Agent 落地的最後一道門檻，它讓 AI 只能扮演內容供應商的角色，而不是真正接手、執行這套工作流。這類產品無法嵌入日常辦公場景，也不能被稱為辦公助手。DuMate 這次展示的方向，就是辦公 Agent 從“內容提供商”到“辦公搭子”的轉向，這也是辦公 Agent 賽道此後真正的技術分水嶺。一位長期關注 AI 辦公賽道的投資人向我們透露，2025 年到 2026 年上半年，主流 AI 辦公產品其實都在做同一件事，那就是把對話交互做得更流暢、把模型幻覺率壓得更低、把生成速度壓到秒級。但這些指標的提升，本質上還是在優化“單次生成體驗”。而真正的戰場，已經在向“任務閉環能力”轉移。讓 AI 在真實工作流裡跑完全程，只是未來留在牌桌上的入場券。這是商業閉環邏輯之下的必然選擇，訂閱制的 AI 辦公產品最怕的不是用戶流失，而是“用不起來”。即使用戶付了月費，但如果只拿來寫週報，ROI 算不過來，最後還是會停掉續費，這樣的產品是沒有PMF可言的。換言之，而當 AI 能夠真正替代部分重複性辦公勞動時，用戶的付費意願和續費動力才會真正被喚起，這個市場才真的有可能出現。從被動的“生成-反饋”循環，進化到主動的“感知-規劃-執行-交付”，百度在這條路上的選擇很有意思。DuMate沒有去卷對話體驗或者試圖用模型參數解決一切，而是把賭注押在了“執行層”，也就是讓 AI 看見屏幕、操作軟件、串聯文件，把結果直接交付成可留存、可複用的形態。當然，這條路並不好走。它要求 AI 系統對桌面環境有更深的感知能力，對任務有更長的記憶和規劃能力，對交付形態有更靈活的支持能力。任何一個環節出現短板，閉環都會斷裂。這或許也是為什麼，大多數 AI 辦公產品仍然選擇停在“生成”這一層。“閉環”級別的穩定性，確實已經構成了技術門檻和護城河。在我們看來，這種能力很有可能是桌面級 AI 辦公工具達成 PMF 的分水嶺。DuMate 這次的壓力測試，固然也有不足。PPT 的設計、網站的交互仍有優化空間，但它已經無法用單純的生成質量進行評價，而是在任務完成度這個更靠近真實工作場景的維度上被審視。從幫你做得更快，到替你做得更多，這或許就是 AI 辦公賽道真正走向成熟的標誌。雷峰網文章

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前閱讀分析

相關文章