當我告訴 AI 把這事做完再下班，結果它真的通宵了

2026年7月1日 03:17

重點摘要

站內 AI 整理稿

雷峰網訊從第一性原理看生產力，我們會發現工具接管的越多，人們自然會把專注力往更上層去靠：做什麼、為什麼這麼做、做到什麼程度？稀缺性在隨著工具的變遷，逐步迴歸人本身。過去的個人很難自己產出規模的價值，你必須得掛靠一家公司，最少也得依靠一個團隊。生產力在這時候是「組織」，個人只是裡面的螺絲釘。所以 Agent 時代真正改變的，是生產力這個詞的所有權。它正在從組織手裡，回到個人手裡。說得再直白點，楊植麟的觀點或許可以理解成，Agent 讓我們自己成為了生產力本身。那麼，如果我是一個追求生產力的用戶，我最關心什麼呢？槓桿：我究竟被放大了多少，是否能產生更多的價值？主權和身份：產出是否和我的判斷、我的訴求和我的取捨相關？確定性：我能否把一部分活委託出去，結果可不可信，過程是否可控，出錯能否審計？說到底，一個好用的 Agent 工具，無非是在回答這三個問題。“讓 AI 替我加班”“給 AI 佈置一個任務，第二天來收菜”這些半玩笑的感慨背後，其實都是同一個我們盼了很久的未來：我能產出多少，不再被我一個人的時間和精力卡死。只是到了今天，這個念想第一次有了落地的可能。模型越來越聰明，產出質量越來越高。工程上的打磨，也就是把模型調用、工具執行、糾錯兜底這套串成一條可靠鏈路的 Harness 讓結果越來越穩。一個真正圍繞生產力的整合方案，正呼之欲出。這既是普通人的期待，也正在成為 AGI 公司越來越明確的選擇。一個最新的例子，就是最近迭代越發迅速的 Kimi Work。01一家 AGI 公司，讓打工人用好 Agent 的嘗試在所有走向執行層的模型公司裡，Kimi 是一個有點特別的樣本。對一家兩年來只談模型、只談 AGI 的公司來說，這是第一次把自己的願景做成了能擺在工位上的東西。Kimi Work 是 Kimi 電腦客戶端裡新增的本地通用 Agent 模式。它的內核來自 Kimi Code，面向程序員的命令行編程 Agent。Kimi Work 做的事，就是把為程序員準備的命令行界面，換成知識工作者熟悉的圖形界面，把幫程序員寫代碼擴展成幫所有知識工作者幹活。也就是從 Vibe Coding 到 Vibe Working。那什麼是 Kimi 理解的 Vibe Working？楊植麟在 2024 年初接受海外獨角獸專訪時，描述過一個特別具體的畫面。當模型足夠強、上下文足夠長，“你可以直接把硬盤上所有的東西都輸給它，它會變成你真正的新計算機，根據這些 context 採取行動。”同一組訪談裡，他還講過一個判斷，AGI 的入口應該直接幫用戶完成任務，而不是幫他們獲取信息。2025 年 8 月，他在張小珺商業訪談錄的播客裡，把 Agent 的定義講得更具體：“一個只會思考、不與外界交互的推理模型，像‘缸中之腦’。Agent 則是讓這個腦子長出手腳，能多輪使用工具、與外部世界交互。”同一期播客裡，楊植麟描述過的另一個場景是，“把一個代碼倉庫克隆下來，翻譯成另一種語言，調試、測試、修掉所有 bug，讓它正常運行，這樣的工作可以端到端完成，過程中不需要人工參與，可能要花幾個小時。”你會發現這些表達在今天的 Kimi Work 上開始兌現。一款本地的、能操作硬盤文件的、幫人直接完成任務而不是僅僅獲取信息的、能長時間無人值守推進的 Agent，這就是楊植麟一直在談論的東西。02Agent 下一站，圍繞目標而非流程工作現在很多 AI 公司都瞄準了 Coding 場景瘋狂迭代，因為代碼有 compile、有 test，對錯是客觀的，在此基礎上 Agent 就能自己跑、自己查、自己改。但 Coding 並不是泛化辦公的對立面。Agent 最先在 Coding 場景成熟，只是因為後者恰好同時滿足「可驗證 + 封閉世界 + 結構化」的特徵。如果我們把目光放寬到日常生產力的場景中，真正吃掉打工人時間和精力的是人和人、項目和項目之間的協作。比如工具是否能打通，不同平臺之間信息搬運和協同，還有 Agent 究竟能不能牢牢的聚焦在最終目標上，不被冗長和繁瑣的流程帶跑偏。因此所謂泛化辦公，就是人們持續縮小現狀和目標之間差距的努力。有的公司稱之為交付，有的團隊稱之為執行，有的又叫研究。但不管換成什麼說辭、崗位，生產力的終極形態都是圍繞目標把事情做成。在做 PPT、寫報告、整理報表這些單點能力之外，還需要有良好的協作橋樑和對生產資料的安全掌控。這恰恰是 Kimi Work 產品定位最準確的地方。Kimi Work 的插件中心，接的是釘釘、飛書、Notion 這些中國人最常用的軟件，還有內置了全球金融數據庫、同花順、天眼查等高質量數據源。我們經常說 garbage in，garbage out，擁有一個高質量、已經集成好的數據來源對辦公質量的提升毋庸多言。此外，我們還發現 Kimi 預置了一個相當豐富的技能庫並隨產品分發，這個技能庫甚至做了自動路由的設計。比如它會根據「研究當前某某行業」這類寬泛意圖，自己選中並加載對應 skill。AI 發燒友享受在技能庫中挖寶的樂趣，而好的 AI 產品，提供無需如此的選擇。03目標模式首秀，連續工作24小時Kimi Work 此次更新最重要的特性之一，是可連續工作 24 小時的「目標模式」。而在測試 Kimi Work 具體表現如何之前，我突然心生一計。測評需要先設計一個複雜任務，那能否讓 Kimi Work 先對自己進行一輪自測。我只告訴它最終的目的是什麼，成功標準、測試材料、執行、撰寫日誌和報告都由它自己制定、編寫和完成。雖然有自己做裁判和運動員的問題，但好在測評本身是一個真實場景的合理訴求。下面來看看 Kimi Work 的表現如何。根據我的測評訴求，它創建了三個任務：Case A：把一批雜亂資料整理成結構化知識庫Case B：把一份帶異常的數據，做成帶圖表的分析報告Case C：跨辦公軟件的工作流（需要用到飛書插件）Kimi Work 給出的結論很到位。特別是對執行失敗的第三個任務，它指出“插件安裝成功≠可用，技術能力是第一層，配置/授權是第二層瓶頸，業務理解是第三層。”有意思的是 Case C 失敗後它沒有目標導向地去找替代方案（比如純本地的 Excel+Word 工作流），而是任務導向地直接判定失敗。它自評：“我傾向於完成用戶明確要求的任務，而非探索用戶可能想要但未明確表述的解決方案。”如何評價這種選擇，見仁見智。但我的體驗其實還不錯，不為了完成而完成，與其徹底放飛，產出一堆我可能不需要的東西來分散注意力，不如停下來和我對齊。這才是真正可靠的辦公搭子。04目標不漂移：複雜信息環境下的真實材料整理對於目標模式面向的長程複雜任務，最需要驗證的就是 Agent 對自己的產出是否有判斷力，因此這項測試我沒有用現成的、它熟悉的材料，而是自己準備了一組真實的、它沒見過的素材，讓它在不知道標準答案的情況下做分析。任務設計：以金融投研這個 Kimi Work 官方主打的場景為殼，我準備了 12 份不同格式的真實材料，包括特斯拉 2026 Q1 和英偉達 FY2027 Q1 的業績公告（PDF）、電話會紀要（txt）、多空雙方研報（Word）、財經新聞（html）、同事整理的財務表（Excel），讓它整理成一份兩家對比的投資分析摘要。這個任務命中了目標模式宣稱的四個適用條件：目標清楚：出一份對比分析路徑不確定：材料雜、格式多需要多輪嘗試：讀取、提取、交叉比對結果可驗證：財報數字都是公開的值得一提的是，我在這 12 份材料裡埋了 7 個只有對照過真實財報才會發現的錯誤，並且單獨存了一份答案，放在不同的沙盒裡。這些坑包括，一則新聞把特斯拉營收同比 +16% 誤報成 -9%，特斯拉是“小幅超預期但交付量 miss”的喜憂參半，不能簡化成單邊，它的研報目標價從 25 美元誇張到 600 美元。英偉達幾乎全項超預期、股價卻不漲反跌，同一份數據在不同文件裡有約數和口徑的小衝突，一份純噪音材料混在裡面，以及最難的一層，兩家公司分歧結構本質有很大不同。我把 Kimi Work 產出的所有文檔和提前預設的答案給到 Claude code 分析後得出結論：Kimi Work 擁有了分析師級別的判斷力，不是隻會搬運內容的整理工。還有一個細節，我在任務最開始定義了一個格式約束，每個二級標題下要跟一句不超過 20 字的摘要。這份產出從頭到尾都守住了這個約束，沒有在後半段丟失。這說明，至少在一個有界的任務裡，官方宣稱的目標不漂移是站得住腳的。05長程不掛機：「連續工作 24 小時」是真能力還是誇張對於這種長程任務能力，我最想測試的其實是夜盤幫我盯美股動態。但可惜端午期間美股正好休市了（6 月 19 日剛好是美國六月節），因此我把測試任務換成了日常工作中也經常遇到的開源 Agent 項目跟蹤和監控任務。這確實是我工作中經常需要的數據。我讓 Kimi Work 每小時監控五個開源 Agent 項目（OpenCode、OpenClaw、Hermes Agent、OpenAI Codex、Claude Code）的 GitHub 動態，增量維護一張本地追蹤表，第二天早上產出一份隔夜簡報。這個任務有幾個好處：它要求的不是一次性交付，而是跨越整夜、按小時續接它的產出要落在本地文件裡，能順帶驗證操作本地硬盤這件事。對錯可以核查，GitHub 上的 Star、Issue、Commit 都是公開可查的同一個任務、同一段提示詞，我同時交給了 Kimi Work（本地）和 Manus（雲端）跑一夜，做一組對照。兩個產品都完成了整夜監控，並且完整輸出了報告。縱觀輸出質量，Kimi Work 有三大亮點：1.數據更嚴謹：它發現 GitHub 接口把 PR 也算進了 issues，主動把數字糾正成純 issue 口徑，而 Manus 報的 issue 數明顯偏高、更接近含 PR 的口徑卻沒作任何說明；2.交付物更有料：Kimi 每輪都記下了具體的 issue/PR 編號和標題（哪條 bug、哪條功能），但 Manus 的簡報基本只有數量變化加一條最新提交；3.落地更順：Kimi 的產物直接寫在本機、打開即用，Manus 是雲端打包成壓縮包導出、落回本地還卡了一下文件名編碼不過一個細節問題是，過程中 Kimi Work 客戶端報了一個錯，並把目標暫停了。它請求的上下文是 309,672 個 token，超過了 262,144 的模型上限。任務停下來，需要手動點個繼續。翻它自己留下的執行日誌能看到原因，它在前五個小時裡密集輪詢了約二十多輪，間隔從幾分鐘到幾十分鐘不等，日誌裡反覆寫著“因等待消耗大量 token 而提前執行”。也就是說，它不停地給自己找事做、把上下文越堆越長，直到撞上天花板。再看雲端的 Manus。從凌晨 00:39 跑到早上 08:08，約 7.5 小時、23 輪，全程無崩潰、無需我介入，早上交出完整簡報。它不會溢出，因為每一輪是雲端一個新建的、隔離的會話，而不是一條把上下文越堆越長的循環。有意思的是，Manus 交付的壓縮包裡，連帶導出了它自己的一份內部說明文檔。這份給 Agent 自己看的文檔裡寫道，定時任務“每次運行都新起一個完整會話”。它甚至有一條明確的“禁止輪詢”原則，不要用定時任務做小時級輪詢，因為每次都起一個完整會話。但是在我下載成本地文件的時候，Manus 的文件名編碼有報錯，又耽誤了幾分鐘。同一個監控任務，Kimi Work 的產出是直接寫在我本機文件夾裡的，雲端那邊則是把文件壓進 zip 再導出，落地時難免需要人工干預的隱性成本。這正是兩條路線的結構性差別，本地夠得著你真實的工作環境，雲端需要手動上傳材料，也碰不到桌面上的文件。哪條更適合，取決於任務到底要不要動你本地的東西。06認知能迭代：開放問題的自主研究試用了 Kimi Work 一段時間後，我突然在想，開頭我們說到作為生產力用戶最關心的三個東西，槓桿、歸屬、確定性，這三個核心訴求已經被現在的 Agent 產品完成的很好。放在之前，要盯這些開源項目的動態或者是整理一大堆亂七八糟的文件，是極其消耗時間和精力的。作為生產力工具的它們在迭代和變化，併為我們帶來諸多驚喜。那作為生產力本身的我們，又有哪些新的可能性呢。於是我順手讓 Kimi Work 做了一個 AI 時代工作機會和變化的研究，剛好可以補充最後一個類型，純研究/整理資料、用 deep-research-swarm→report-writing 的 skill 鏈 + 學術/世行/IMF/WebBridge 多插件、出 Word、出圖。整個研究完整交付、引用規範、矛盾並列三類人群真差異化：各自成章，現實/機會/關鍵行動分開寫，沒一鍋燴。數據有來源有時點：腳註 [^1]–[^51]+、帶 URL 和日期、數據儀表盤每行標來源、統一標"數據截止 2026-06-21"。宏觀錨點用的是真權威源（WEF Future of Jobs 2025、IMF 40%/60%、Stanford "Canaries in the Coal Mine" 真論文、McKinsey、Georgetown CSET）。矛盾預測並列而非取單邊：開篇就寫“WEF 的淨增敘事與背後的撕裂”，第 1050 行還專門點出“WEF 淨增預測與 McKinsey 替代預測並不矛盾，是一枚硬幣兩面”。這正是我們要的分析師式處理。07目標，Agent 比拼的新命題縱然能力不錯，Kimi Work 也不是一款石破天驚的產品。把視野拉到整個行業，會看到一個共同的動作。Kimi Work、ChatGPT Agent、Claude 的 CoWork，以及最近密集湧現的一批 Agent 產品，模型公司正在集體從「卷模型參數」轉向做「親自能幹活的產品」。這是一個能被推導出來的拐點。當各家模型能力的差距收窄，競爭的焦點就會從“誰的模型更強”，轉移到“誰能先把模型能力翻譯成把事做完”，讓用戶心甘情願掏錢。模型本身的邊際差異越小，智能水平向執行能力的轉化就越值錢。這種洞察，仍然能在楊植麟的訪談裡找到。2025 年 8 月在張小珺的播客裡，他堅持模型是主線，產品是其次，相信“當模型訓練完的時候，你的產品已經做完了”。但十個月後的 Kimi Work，已經是一個有著精心設計的圖形界面，並且以平均每三天一個版本的速度，迭代交互體驗的 to C 產品。可能是他的判斷隨著 Agent 時代的到來發生了演進，可能是商業現實的推力，也可能這本身就是“模型即產品”邏輯的延伸，模型能力到位了，把它包裝成 Kimi Work 只是順勢的最後一步。但無論哪種解釋，落點都是同一個，模型不再是唯一的勝負手，主要戰場最終仍會迴歸到用戶價值上。以 Kimi Work 為代表的 Agent 產品，已經能夠真正長時間、大批量、聚焦目標地執行工作。但另一個事實是，今天仍然沒有任何 Agent 能真正替人把工作全部做完。它們能替人做的，是那些路徑清楚、結果可驗證的部分，人們必須學會怎麼和 AI 協同工作，瞭解一個 Agent 的邊界，比幻想“AI 全替我幹了”更接近真實。當你接受這一點，Kimi Work 的 slogan 就變得更加值得深思。“你的工作，分我一半”，這並非一個精準狙擊打工人的爽文敘事，更為我們所觸動的，是其中呈現的邊界。只有承認自己現在能分走的是哪一半，分不走的又是哪一半，一款辦公 Agent 才能真正走進打工人的身邊，落在他們能用得上的地方。雷峰網文章

原始來源：雷峰網 ↗

查看原始來源