當我告訴 AI 把這事做完再下班,結果它真的通宵了
重點摘要
雷峰網訊 從第一性原理看生產力,我們會發現工具接管的越多,人們自然會把專注力往更上層去靠:做什麼、為什麼這麼做、做到什麼程度?稀缺性在隨著工具的變遷,逐步迴歸人本身。過去的個人很難自己產出規模的價值,你必須得掛靠一家公司,最少也得依靠一個團隊。生產力在這時候是「組織」,個人只是裡面的螺絲釘。所以 Agent 時代真正改變的,是生產力這個詞的所有權。它正在從組織手裡,回到個人手裡。說得再直白點,楊植麟的觀點或許可以理解成,Agent 讓我們自己成為了生產力本身。那麼,如果我是一個追求生產力的用戶,我最關心什麼呢?槓桿:我究竟被放大了多少,是否能產生更多的價值?主權和身份:產出是否和我的判斷、我的訴求和我的取捨相關?確定性:我能否把一部分活委託出去,結果可不可信,過程是否可控,出錯能否審計?說到底,一個好用的 Agent 工具,無非是在回答這三個問題。“讓 AI 替我加班”“給 AI 佈置一個任務,第二天來收菜”這些半玩笑的感慨背後,其實都是同一個我們盼了很久的未來:我能產出多少,不再被我一個人的時間和精力卡死。只是到了今天,這個念想第一次有了落地的可能。模型越來越聰明,產出質量越來越高。工程上的打磨,也就是把模型調用、工具執行、糾錯兜底這套串成一條可靠鏈路的 Harness 讓結果越來越穩。一個真正圍繞生產力的整合方案,正呼之欲出。這既是普通人的期待,也正在成為 AGI 公司越來越明確的選擇。一個最新的例子,就是最近迭代越發迅速的 Kimi Work。01一家 AGI 公司,讓打工人用好 Agent 的嘗試在所有走向執行層的模型公司裡,Kimi 是一個有點特別的樣本。對一家兩年來只談模型、只談 AGI 的公司來說,這是第一次把自己的願景做成了能擺在工位上的東西。Kimi Work 是 Kimi 電腦客戶端裡新增的本地通用 Agent 模式。它的內核來自 Kimi Code,面
雷峰網訊 從第一性原理看生產力,我們會發現工具接管的越多,人們自然會把專注力往更上層去靠:做什麼、為什麼這麼做、做到什麼程度?稀缺性在隨著工具的變遷,逐步迴歸人本身。過去的個人很難自己產出規模的價值,你必須得掛靠一家公司,最少也得依靠一個團隊。生產力在這時候是「組織」,個人只是裡面的螺絲釘。所以 Agent 時代真正改變的,是生產力這個詞的所有權。它正在從組織手裡,回到個人手裡。說得再直白點,楊植麟的觀點或許可以理解成,Agent 讓我們自己成為了生產力本身。那麼,如果我是一個追求生產力的用戶,我最關心什麼呢?槓桿:我究竟被放大了多少,是否能產生更多的價值?主權和身份:產出是否和我的判斷、我的訴求和我的取捨相關?確定性:我能否把一部分活委託出去,結果可不可信,過程是否可控,出錯能否審計?說到底,一個好用的 Agent 工具,無非是在回答這三個問題。“讓 AI 替我加班”“給 AI 佈置一個任務,第二天來收菜”這些半玩笑的感慨背後,其實都是同一個我們盼了很久的未來:我能產出多少,不再被我一個人的時間和精力卡死。只是到了今天,這個念想第一次有了落地的可能。模型越來越聰明,產出質量越來越高。工程上的打磨,也就是把模型調用、工具執行、糾錯兜底這套串成一條可靠鏈路的 Harness 讓結果越來越穩。一個真正圍繞生產力的整合方案,正呼之欲出。這既是普通人的期待,也正在成為 AGI 公司越來越明確的選擇。一個最新的例子,就是最近迭代越發迅速的 Kimi Work。01一家 AGI 公司,讓打工人用好 Agent 的嘗試在所有走向執行層的模型公司裡,Kimi 是一個有點特別的樣本。對一家兩年來只談模型、只談 AGI 的公司來說,這是第一次把自己的願景做成了能擺在工位上的東西。Kimi Work 是 Kimi 電腦客戶端裡新增的本地通用 Agent 模式。它的內核來自 Kimi Code,面向程序員的命令行編程 Agent。Kimi Work 做的事,就是把為程序員準備的命令行界面,換成知識工作者熟悉的圖形界面,把幫程序員寫代碼擴展成幫所有知識工作者幹活。也就是從 Vibe Coding 到 Vibe Working。那什麼是 Kimi 理解的 Vibe Working?楊植麟在 2024 年初接受海外獨角獸專訪時,描述過一個特別具體的畫面。當模型足夠強、上下文足夠長,“你可以直接把硬盤上所有的東西都輸給它,它會變成你真正的新計算機,根據這些 context 採取行動。”同一組訪談裡,他還講過一個判斷,AGI 的入口應該直接幫用戶完成任務,而不是幫他們獲取信息。2025 年 8 月,他在張小珺商業訪談錄的播客裡,把 Agent 的定義講得更具體:“一個只會思考、不與外界交互的推理模型,像‘缸中之腦’。Agent 則是讓這個腦子長出手腳,能多輪使用工具、與外部世界交互。”同一期播客裡,楊植麟描述過的另一個場景是,“把一個代碼倉庫克隆下來,翻譯成另一種語言,調試、測試、修掉所有 bug,讓它正常運行,這樣的工作可以端到端完成,過程中不需要人工參與,可能要花幾個小時。”你會發現這些表達在今天的 Kimi Work 上開始兌現。一款本地的、能操作硬盤文件的、幫人直接完成任務而不是僅僅獲取信息的、能長時間無人值守推進的 Agent,這就是楊植麟一直在談論的東西。02Agent 下一站,圍繞目標而非流程工作現在很多 AI 公司都瞄準了 Coding 場景瘋狂迭代,因為代碼有 compile、有 test,對錯是客觀的,在此基礎上 Agent 就能自己跑、自己查、自己改。但 Coding 並不是泛化辦公的對立面。Agent 最先在 Coding 場景成熟,只是因為後者恰好同時滿足「可驗證 + 封閉世界 + 結構化」的特徵。如果我們把目光放寬到日常生產力的場景中,真正吃掉打工人時間和精力的是人和人、項目和項目之間的協作。比如工具是否能打通,不同平臺之間信息搬運和協同,還有 Agent 究竟能不能牢牢的聚焦在最終目標上,不被冗長和繁瑣的流程帶跑偏。因此所謂泛化辦公,就是人們持續縮小現狀和目標之間差距的努力。有的公司稱之為交付,有的團隊稱之為執行,有的又叫研究。但不管換成什麼說辭、崗位,生產力的終極形態都是圍繞目標把事情做成。在做 PPT、寫報告、整理報表這些單點能力之外,還需要有良好的協作橋樑和對生產資料的安全掌控。這恰恰是 Kimi Work 產品定位最準確的地方。Kimi Work 的插件中心,接的是釘釘、飛書、Notion 這些中國人最常用的軟件,還有內置了全球金融數據庫、同花順、天眼查等高質量數據源。我們經常說 garbage in,garbage out,擁有一個高質量、已經集成好的數據來源對辦公質量的提升毋庸多言。此外,我們還發現 Kimi 預置了一個相當豐富的技能庫並隨產品分發,這個技能庫甚至做了自動路由的設計。比如它會根據「研究當前某某行業」這類寬泛意圖,自己選中並加載對應 skill。AI 發燒友享受在技能庫中挖寶的樂趣,而好的 AI 產品,提供無需如此的選擇。03目標模式首秀,連續工作24小時Kimi Work 此次更新最重要的特性之一,是可連續工作 24 小時的「目標模式」。而在測試 Kimi Work 具體表現如何之前,我突然心生一計。測評需要先設計一個複雜任務,那能否讓 Kimi Work 先對自己進行一輪自測。我只告訴它最終的目的是什麼,成功標準、測試材料、執行、撰寫日誌和報告都由它自己制定、編寫和完成。雖然有自己做裁判和運動員的問題,但好在測評本身是一個真實場景的合理訴求。下面來看看 Kimi Work 的表現如何。根據我的測評訴求,它創建了三個任務:Case A:把一批雜亂資料整理成結構化知識庫Case B:把一份帶異常的數據,做成帶圖表的分析報告Case C:跨辦公軟件的工作流(需要用到飛書插件)Kimi Work 給出的結論很到位。特別是對執行失敗的第三個任務,它指出“插件安裝成功≠可用,技術能力是第一層,配置/授權是第二層瓶頸,業務理解是第三層。”有意思的是 Case C 失敗後它沒有目標導向地去找替代方案(比如純本地的 Excel+Word 工作流),而是任務導向地直接判定失敗。它自評:“我傾向於完成用戶明確要求的任務,而非探索用戶可能想要但未明確表述的解決方案。”如何評價這種選擇,見仁見智。但我的體驗其實還不錯,不為了完成而完成,與其徹底放飛,產出一堆我可能不需要的東西來分散注意力,不如停下來和我對齊。這才是真正可靠的辦公搭子。04目標不漂移:複雜信息環境下的真實材料整理對於目標模式面向的長程複雜任務,最需要驗證的就是 Agent 對自己的產出是否有判斷力,因此這項測試我沒有用現成的、它熟悉的材料,而是自己準備了一組真實的、它沒見過的素材,讓它在不知道標準答案的情況下做分析。任務設計:以金融投研這個 Kimi Work 官方主打的場景為殼,我準備了 12 份不同格式的真實材料,包括特斯拉 2026 Q1 和英偉達 FY2027 Q1 的業績公告(PDF)、電話會紀要(txt)、多空雙方研報(Word)、財經新聞(html)、同事整理的財務表(Excel),讓它整理成一份兩家對比的投資分析摘要。這個任務命中了目標模式宣稱的四個適用條件:目標清楚:出一份對比分析路徑不確定:材料雜、格式多需要多輪嘗試:讀取、提取、交叉比對結果可驗證:財報數字都是公開的值得一提的是,我在這 12 份材料裡埋了 7 個只有對照過真實財報才會發現的錯誤,並且單獨存了一份答案,放在不同的沙盒裡。這些坑包括,一則新聞把特斯拉營收同比 +16% 誤報成 -9%,特斯拉是“小幅超預期但交付量 miss”的喜憂參半,不能簡化成單邊,它的研報目標價從 25 美元誇張到 600 美元。英偉達幾乎全項超預期、股價卻不漲反跌,同一份數據在不同文件裡有約數和口徑的小衝突,一份純噪音材料混在裡面,以及最難的一層,兩家公司分歧結構本質有很大不同。我把 Kimi Work 產出的所有文檔和提前預設的答案給到 Claude code 分析後得出結論:Kimi Work 擁有了分析師級別的判斷力,不是隻會搬運內容的整理工。還有一個細節,我在任務最開始定義了一個格式約束,每個二級標題下要跟一句不超過 20 字的摘要。這份產出從頭到尾都守住了這個約束,沒有在後半段丟失。這說明,至少在一個有界的任務裡,官方宣稱的目標不漂移是站得住腳的。05長程不掛機:「連續工作 24 小時」是真能力還是誇張對於這種長程任務能力,我最想測試的其實是夜盤幫我盯美股動態。但可惜端午期間美股正好休市了(6 月 19 日剛好是美國六月節),因此我把測試任務換成了日常工作中也經常遇到的開源 Agent 項目跟蹤和監控任務。這確實是我工作中經常需要的數據。我讓 Kimi Work 每小時監控五個開源 Agent 項目(OpenCode、OpenClaw、Hermes Agent、OpenAI Codex、Claude Code)的 GitHub 動態,增量維護一張本地追蹤表,第二天早上產出一份隔夜簡報。這個任務有幾個好處:它要求的不是一次性交付,而是跨越整夜、按小時續接它的產出要落在本地文件裡,能順帶驗證操作本地硬盤這件事。對錯可以核查,GitHub 上的 Star、Issue、Commit 都是公開可查的同一個任務、同一段提示詞,我同時交給了 Kimi Work(本地)和 Manus(雲端)跑一夜,做一組對照。兩個產品都完成了整夜監控,並且完整輸出了報告。縱觀輸出質量,Kimi Work 有三大亮點:1.數據更嚴謹:它發現 GitHub 接口把 PR 也算進了 issues,主動把數字糾正成純 issue 口徑,而 Manus 報的 issue 數明顯偏高、更接近含 PR 的口徑卻沒作任何說明;2.交付物更有料:Kimi 每輪都記下了具體的 issue/PR 編號和標題(哪條 bug、哪條功能),但 Manus 的簡報基本只有數量變化加一條最新提交;3.落地更順:Kimi 的產物直接寫在本機、打開即用,Manus 是雲端打包成壓縮包導出、落回本地還卡了一下文件名編碼不過一個細節問題是,過程中 Kimi Work 客戶端報了一個錯,並把目標暫停了。它請求的上下文是 309,672 個 token,超過了 262,144 的模型上限。任務停下來,需要手動點個繼續。翻它自己留下的執行日誌能看到原因,它在前五個小時裡密集輪詢了約二十多輪,間隔從幾分鐘到幾十分鐘不等,日誌裡反覆寫著“因等待消耗大量 token 而提前執行”。也就是說,它不停地給自己找事做、把上下文越堆越長,直到撞上天花板。再看雲端的 Manus。從凌晨 00:39 跑到早上 08:08,約 7.5 小時、23 輪,全程無崩潰、無需我介入,早上交出完整簡報。它不會溢出,因為每一輪是雲端一個新建的、隔離的會話,而不是一條把上下文越堆越長的循環。有意思的是,Manus 交付的壓縮包裡,連帶導出了它自己的一份內部說明文檔。這份給 Agent 自己看的文檔裡寫道,定時任務“每次運行都新起一個完整會話”。它甚至有一條明確的“禁止輪詢”原則,不要用定時任務做小時級輪詢,因為每次都起一個完整會話。但是在我下載成本地文件的時候,Manus 的文件名編碼有報錯,又耽誤了幾分鐘。同一個監控任務,Kimi Work 的產出是直接寫在我本機文件夾裡的,雲端那邊則是把文件壓進 zip 再導出,落地時難免需要人工干預的隱性成本。這正是兩條路線的結構性差別,本地夠得著你真實的工作環境,雲端需要手動上傳材料,也碰不到桌面上的文件。 哪條更適合,取決於任務到底要不要動你本地的東西。06認知能迭代:開放問題的自主研究試用了 Kimi Work 一段時間後,我突然在想,開頭我們說到作為生產力用戶最關心的三個東西,槓桿、歸屬、確定性,這三個核心訴求已經被現在的 Agent 產品完成的很好。放在之前,要盯這些開源項目的動態或者是整理一大堆亂七八糟的文件,是極其消耗時間和精力的。作為生產力工具的它們在迭代和變化,併為我們帶來諸多驚喜。那作為生產力本身的我們,又有哪些新的可能性呢。於是我順手讓 Kimi Work 做了一個 AI 時代工作機會和變化的研究,剛好可以補充最後一個類型,純研究/整理資料、用 deep-research-swarm→report-writing 的 skill 鏈 + 學術/世行/IMF/WebBridge 多插件、出 Word、出圖。整個研究完整交付、引用規範、矛盾並列三類人群真差異化:各自成章,現實/機會/關鍵行動分開寫,沒一鍋燴。數據有來源有時點:腳註 [^1]–[^51]+、帶 URL 和日期、數據儀表盤每行標來源、統一標"數據截止 2026-06-21"。宏觀錨點用的是真權威源(WEF Future of Jobs 2025、IMF 40%/60%、Stanford "Canaries in the Coal Mine" 真論文、McKinsey、Georgetown CSET)。矛盾預測並列而非取單邊 :開篇就寫“WEF 的淨增敘事與背後的撕裂”,第 1050 行還專門點出“WEF 淨增預測與 McKinsey 替代預測並不矛盾,是一枚硬幣兩面”。這正是我們要的分析師式處理。07目標,Agent 比拼的新命題縱然能力不錯,Kimi Work 也不是一款石破天驚的產品。把視野拉到整個行業,會看到一個共同的動作。Kimi Work、ChatGPT Agent、Claude 的 CoWork,以及最近密集湧現的一批 Agent 產品,模型公司正在集體從「卷模型參數」轉向做「親自能幹活的產品」。這是一個能被推導出來的拐點。當各家模型能力的差距收窄,競爭的焦點就會從“誰的模型更強”,轉移到“誰能先把模型能力翻譯成把事做完”,讓用戶心甘情願掏錢。模型本身的邊際差異越小,智能水平向執行能力的轉化就越值錢。這種洞察,仍然能在楊植麟的訪談裡找到。2025 年 8 月在張小珺的播客裡,他堅持模型是主線,產品是其次,相信“當模型訓練完的時候,你的產品已經做完了”。但十個月後的 Kimi Work,已經是一個有著精心設計的圖形界面,並且以平均每三天一個版本的速度,迭代交互體驗的 to C 產品。可能是他的判斷隨著 Agent 時代的到來發生了演進,可能是商業現實的推力,也可能這本身就是“模型即產品”邏輯的延伸,模型能力到位了,把它包裝成 Kimi Work 只是順勢的最後一步。但無論哪種解釋,落點都是同一個,模型不再是唯一的勝負手,主要戰場最終仍會迴歸到用戶價值上。以 Kimi Work 為代表的 Agent 產品,已經能夠真正長時間、大批量、聚焦目標地執行工作。但另一個事實是,今天仍然沒有任何 Agent 能真正替人把工作全部做完。它們能替人做的,是那些路徑清楚、結果可驗證的部分,人們必須學會怎麼和 AI 協同工作,瞭解一個 Agent 的邊界,比幻想“AI 全替我幹了”更接近真實。當你接受這一點,Kimi Work 的 slogan 就變得更加值得深思。“你的工作,分我一半”,這並非一個精準狙擊打工人的爽文敘事,更為我們所觸動的,是其中呈現的邊界。只有承認自己現在能分走的是哪一半,分不走的又是哪一半,一款辦公 Agent 才能真正走進打工人的身邊,落在他們能用得上的地方。雷峰網文章
Related
相關文章

英偉達刷新 DeepSeek V4 推理紀錄:單 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍
英偉達昨日(6 月 30 日)發佈博文,宣佈在英偉達 Blackwell 平臺上,通過優化推理軟件棧,相比較 DeepSeek V4 模型 1 個月前上線初期,單 Token 成本最多降至五分之一。

A社你解釋下,啥叫Sonnet 5比Fable 5還貴?
這篇消息聚焦「A社你解釋下,啥叫Sonnet 5比Fable 5還貴?」。原始導語提到:“性價比模型”價格明降暗漲 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛,Fable 5解禁!Anthropic連夜發“性價比”新模型,網友:感謝中國開源嚴父
這篇消息聚焦「剛剛,Fable 5解禁!Anthropic連夜發“性價比”新模型,網友:感謝中國開源嚴父」。原始導語提到:Claude Sonnet 5深夜來襲!但全網只等Fable 5? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛,Anthropic發佈Sonnet 5,性能接近Opus 4.8,但不一定更便宜
Anthropic 今日發布 Sonnet 5,官方稱其為「迄今為止最具 Agent 屬性的 Sonnet 模型」。該模型性能接近 Opus 4.8,但價格不一定更低。

大規模封號後,Claude 突然發佈更便宜的新模型
Anthropic 在大規模封號後,突然推出更便宜的 Claude 新模型,旨在擴大用戶基礎。新模型以較低成本提供服務,可能吸引更多開發者與企業採用。此舉顯示 Anthropic 正積極調整策略,以應對市場競爭與用戶反饋。

復旦邱錫鵬團隊提出「上下文世界建模」:無需微調,VLA即可適應新環境
復旦大學邱錫鵬團隊提出「上下文世界建模」方法,讓視覺-語言-動作(VLA)模型無需微調即可適應新環境。該研究直接針對VLA模型難以泛化的核心問題,提供無需額外訓練的適應方案。