Claude Code 修了幾個小 bug,卻揭開了 Agent 落地的大麻煩
重點摘要
工具狀態、權限邊界和後臺任務,正在成為 AI 編程產品的新考驗。 作者丨鄭佳美 編輯丨馬曉寧 剛剛,Anthropic 給 Claude Code 發了一次看起來並不起眼的更新。沒有新模型,沒有新的 benchmark,也沒有代碼能力提升多少的宣傳。Claude Code 2.1.179 的 changelog 裡,主要是一些細碎的 bug fix:連接中斷後保留 partial response,工具執行的 spinner 不再卡住,Linux sandbox 裡的 denyRead / allowRead glob 不再把 Bash tool description 撐到巨大,遠程 session 裡的後臺任務也不會在多個 turn 之間一直顯示 still running。如果只看字面,這些都像是產品使用過程中的小毛病。但放在 AI 編程產品的演進裡,它們其實指向同一個變化:Claude Code 這樣一類 coding agent,已經不只是“幫你寫代碼的聊天框”,而是在變成一個真正替你執行任務的系統。雷峰網過去我們討論 AI 編程產品,最常看的還是模型能力。誰的代碼生成更強,誰能理解更長的上下文,誰在 SWE-bench 上拿到更高分,誰能一次性給出更完整的修復方案。這些當然重要,但它們主要回答的是一個問題:模型夠不夠聰明。而 Claude Code 這次修的幾個問題,回答的是另一個問題:當模型真的開始替用戶幹活,外層系統能不能穩定地把這件事做完。雷峰網01Bug 之外 ,是 Agent 落地的執行問題傳統聊天機器人主要是在“回答”。用戶問一句,它回一句。即使回答中途斷了,或者內容不夠完整,通常也只是重新生成一次。但 coding agent 面對的是另一種任務。用戶不是問“這段代碼是什麼意思”,而是讓它“幫我修這個 bug”“跑一下測試”“把這個模塊重構掉”“看
工具狀態、權限邊界和後臺任務,正在成為 AI 編程產品的新考驗。 作者丨鄭佳美 編輯丨馬曉寧 剛剛,Anthropic 給 Claude Code 發了一次看起來並不起眼的更新。沒有新模型,沒有新的 benchmark,也沒有代碼能力提升多少的宣傳。Claude Code 2.1.179 的 changelog 裡,主要是一些細碎的 bug fix:連接中斷後保留 partial response,工具執行的 spinner 不再卡住,Linux sandbox 裡的 denyRead / allowRead glob 不再把 Bash tool description 撐到巨大,遠程 session 裡的後臺任務也不會在多個 turn 之間一直顯示 still running。如果只看字面,這些都像是產品使用過程中的小毛病。但放在 AI 編程產品的演進裡,它們其實指向同一個變化:Claude Code 這樣一類 coding agent,已經不只是“幫你寫代碼的聊天框”,而是在變成一個真正替你執行任務的系統。雷峰網過去我們討論 AI 編程產品,最常看的還是模型能力。誰的代碼生成更強,誰能理解更長的上下文,誰在 SWE-bench 上拿到更高分,誰能一次性給出更完整的修復方案。這些當然重要,但它們主要回答的是一個問題:模型夠不夠聰明。而 Claude Code 這次修的幾個問題,回答的是另一個問題:當模型真的開始替用戶幹活,外層系統能不能穩定地把這件事做完。雷峰網01Bug 之外 ,是 Agent 落地的執行問題傳統聊天機器人主要是在“回答”。用戶問一句,它回一句。即使回答中途斷了,或者內容不夠完整,通常也只是重新生成一次。但 coding agent 面對的是另一種任務。用戶不是問“這段代碼是什麼意思”,而是讓它“幫我修這個 bug”“跑一下測試”“把這個模塊重構掉”“看看為什麼 CI 失敗了”。這時 Agent 要做的事情就不只是生成文字,而是要讀文件、理解項目結構、調用工具、修改代碼、執行命令、分析報錯,再繼續修復。也就是說,用戶交給它的不再是一個問題,而是一段真實的開發流程。一旦進入這個階段,產品要解決的問題就變了。模型會不會寫代碼,仍然重要;但連接會不會斷、工具會不會卡、權限會不會衝突、後臺任務狀態準不準,也會直接決定任務能不能完成。這就是 Claude Code 這次更新真正暴露出來的變化:AI 編程產品的競爭,正在從“模型會不會寫代碼”,轉向“Agent 能不能穩定地完成任務”。連接中斷,是這次更新裡最容易理解的一個問題。對普通聊天產品來說,中途斷了,最多是回答沒有顯示完整。用戶刷新一下,重新問一遍,通常就能繼續。但對 coding agent 來說,中途斷掉就麻煩得多。因為在斷開之前,Agent 可能已經讀了幾十個文件,調用了幾次工具,改了一部分代碼,甚至已經跑過測試。這個時候,系統必須知道:哪些內容已經返回給用戶,哪些工具已經真正執行,哪些文件已經被修改,哪些動作只是模型準備做但還沒有發生。如果這些狀態沒有被保存下來,恢復就會變得很尷尬。Agent 可能不知道該從哪裡繼續,也可能重複執行已經做過的操作。對於一個真正會改代碼、跑命令的產品來說,這不是簡單的網絡問題,而是任務現場有沒有被保住的問題。所以,Claude Code 修復 mid-stream connection drops,並保留 partial response,本質上是在補一件事:讓任務中途出問題後,用戶不至於完全丟掉進度。這也是 coding agent 和普通聊天機器人的關鍵差別。聊天機器人主要處理文本,文本斷了可以重來;Agent 處理的是任務,任務斷了就要恢復現場。另一個問題是工具執行狀態。Claude Code 這次修復了 spinner 卡在 “running tool” 的問題。表面上看,這像是一個很小的前端顯示問題。但在 Agent 產品裡,它其實很關鍵。因為 Agent 調用工具,不是“說一句我要調用工具”那麼簡單,而是在真實執行環境裡做動作。它可能是在讀取文件,可能是在跑 Bash,可能是在執行測試,也可能是在遠程 session 裡等待結果。用戶看到 “running tool” 的時候,真正想知道的是:它到底還在不在做事?工具有沒有啟動?運行到哪一步?是不是已經失敗了?能不能取消?如果失敗了,錯誤有沒有返回給模型?如果已經結束了,為什麼界面還顯示正在運行?這些狀態如果說不清楚,用戶就會失去控制感。它看起來像是在工作,但用戶不知道它是在思考、在等待、在卡死,還是已經出錯。對 AI 編程產品來說,這種不確定性會非常影響信任。因為用戶一旦把任務交給 Agent,就需要知道它現在到底在做什麼。如果系統連工具調用狀態都無法準確展示,用戶就很難放心讓它處理更長、更復雜的任務。所以,工具 spinner 卡住不是一個孤立的小 bug。它背後是一個更大的問題:Agent 不僅要能調用工具,還要能追蹤工具、解釋狀態,並在工具失敗時把任務帶回可控狀態。02權限規則太細,也可能拖垮上下文換個角度看,這次 changelog 裡最有工程含義的一條,是 Linux sandbox 裡的 denyRead / allowRead glob 掃過大目錄樹後,會把 Bash tool description 撐得很大,最後讓 session 不可用。這句話看起來有點技術,但換成人話就是:為了限制 Agent 能讀哪些文件、不能讀哪些文件,系統會給它一套權限規則。可是當這些規則太細、太多,並且被展開進工具說明裡時,它們本身就會變成負擔。Agent 當然需要權限系統。尤其是 coding agent,它面對的是用戶真實的代碼倉庫。倉庫裡可能有密鑰、配置文件、內部邏輯和敏感數據。系統必須限制 Agent 能看什麼、能改什麼、能執行什麼。但問題在於,權限規則不是免費的。為了讓模型知道自己能做什麼、不能做什麼,這些規則往往會以某種形式進入上下文,或者進入工具描述裡。規則越細,說明越長;說明越長,就越占上下文;上下文越重,token 成本越高,模型處理任務時也越容易被幹擾。這次 denyRead / allowRead glob 把 Bash tool description 撐得巨大,就是這個矛盾的一個縮影。安全規則本來是為了讓 Agent 更可控,但如果表達方式處理不好,它反而會拖慢甚至拖垮整個任務。模型還沒開始解決代碼問題,就先被大量路徑、權限信息和工具說明擠佔了空間。嚴重時,整個 session 都會不可用。這說明 Agent 安全不能只是簡單地“加限制”。它還要考慮這些限制怎麼表達,哪些信息需要給模型看,哪些應該留在系統底層執行,怎麼在安全、成本和可用性之間做平衡。Agent 越能幹,權限邊界就越重要;權限越細,規則管理就越複雜;規則越複雜,就越容易影響上下文和執行效率。這會成為 AI 編程產品越來越繞不開的問題。除此之外,Claude Code 這次還修復了 remote session background tasks 在多個 turn 之間一直顯示 “still running” 的問題。這條修復說明,coding agent 已經不只是同步問答了。早期 AI 助手的交互很簡單:用戶問一句,模型答一句。即使中間調用工具,通常也發生在一次對話裡。但現在的 coding agent 不一樣。它可能在遠程環境裡跑測試,等待命令返回,讀取日誌,繼續修復錯誤,甚至讓子 Agent 並行處理不同任務。這時候,一個任務就不一定和一次對話綁定了。它可能跨多個 turn,也可能在用戶暫時離開後繼續運行。一旦進入這種模式,系統就必須清楚地記錄每個後臺任務的狀態:什麼時候開始,什麼時候結束,是否失敗,能不能取消,結果有沒有同步回來,下一輪對話能不能繼續接上。如果任務實際上已經結束,但界面還顯示 “still running”,用戶就不知道該繼續等,還是該取消,還是該重新發起。更麻煩的是,如果任務已經失敗但狀態沒有更新,Agent 可能會在錯誤的前提下繼續行動。所以,這不是簡單的顯示問題,而是任務管理問題。當 coding agent 開始處理更長的任務,它就需要更像一個任務系統:能啟動任務,追蹤任務,恢復任務,結束任務,並把狀態清楚地告訴用戶。03從模型能力到 runtime 穩定性不過這些問題在 demo 階段不會特別明顯。因為 demo 往往是短任務、單工具、單輪交互。只要模型回答得像樣,看起來就足夠驚豔。但真實開發工作不是這樣。真實開發任務會更長,環境會更復雜,代碼倉庫會更大,權限會更多,測試會失敗,工具會超時,網絡會斷,用戶也可能中途切走。Agent 如果要進入這樣的工作流,就必須處理這些不穩定因素。這也是 AI 編程產品正在發生的變化。 第一階段,產品拼的是模型能力。誰能寫出更好的代碼,誰能理解更大的上下文,誰能在 benchmark 上拿到更高分。但下一階段,產品還要拼執行穩定性。也就是:Agent 能不能持續幹活,能不能處理失敗,能不能讓用戶看懂它在做什麼,能不能在權限受控的情況下完成任務,能不能在長時間運行後不丟狀態。模型仍然重要。沒有強模型,Agent 不可能完成複雜開發任務。但只有模型已經不夠了。真正進入開發者日常工作流的產品,必須有一套可靠的 runtime 來支撐模型。這套 runtime 包括上下文管理、工具調用、權限控制、沙箱、遠程 session、後臺任務、錯誤恢復和可觀測性。它們看起來不像模型發佈那樣容易傳播,也很少有一個漂亮的分數,但它們決定了用戶是否真的敢把任務交給 Agent。整體來看,Claude Code 2.1.179 沒有發佈一個更強的 Claude,也沒有宣佈新的 AI 編程能力。但這些小修復說明,coding agent 的競爭已經進入了更現實的階段:模型要能想,系統也要能做;模型要生成計劃,runtime 要負責把計劃穩定地執行下去。 未來的 AI 編程產品,不會只比誰更聰明,還會比誰更可靠。誰能更好地處理中斷、工具狀態、權限邊界、後臺任務和上下文成本,誰就更可能把 Agent 從演示產品變成真正的開發工具。參考鏈接:https://code.claude.com/docs/en/changelog上車,帶你看遍全球 AI 頂會精華可獨家暢覽:專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。
Related
相關文章

Claude下一代神級模型秘密出爐,Sonnet-5被曝下週上線
這篇消息聚焦「Claude下一代神級模型秘密出爐,Sonnet-5被曝下週上線」。原始導語提到:封禁,反而讓Anthropic更快了? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
LiblibAI 母公司完成近 3 億美元融資:AI 應用層開始進入「收入說話」的階段
演語科技,正在成為這一輪變化中最值得觀察的中國樣本之一。 作者丨鄭佳美 編輯丨馬曉寧 AI 應用公司的競爭,正在發生變化。過去兩年,行業最關心的是誰能率先做出令人眼前一亮的產品,誰能更快抓住大模型帶來的流量紅利。但到了 2026 年,問題開始變得更現實:用戶會不會持續使用?客戶願不願意付費?一家公司能不能從單個產品,長成一個真正有收入、有生態、有複利的業務體系?演語科技(Evoken)最近完成的這輪融資,正好提供了一個觀察窗口。近日,演語科技正式對外披露近 3 億美元 B+ 輪融資。該輪融資實際已於今年上半年早些時候完成,投後估值超過 20 億美元。本輪融資由 Granite Asia、騰訊、順為資本聯合領投,HT Investment、時代資本共同參與投資。高榕資本、螞蟻集團、渶策資本、明勢創投、源碼資本、紅杉中國以及其他數家知名投資機構等現有股東持續加碼支持。這也是目前國內 AI 應用層金額最大的單輪融資之一。但相比融資金額本身,更值得注意的是,這家公司已經不再只是講一個“AI 產品”的故事。演語科技正在把 LiblibAI、LibTV、星流等業務整合到同一個更大的敘事裡:圍繞 AI 創意內容生產,構建一個從社區、素材、視頻到設計 Agent 的應用矩陣。這也是演語科技首次以集團品牌 Evoken 統一對外發聲的重要背景。01AI 應用層到了拼商業化的時候過去一段時間,AI 行業的焦點大多集中在模型公司身上。誰的模型能力更強,誰的生成效果更好,誰能把成本降下來,往往決定了外界對一家公司的想象空間。但應用層的邏輯並不完全一樣。應用公司最終要回答的問題,不只是“能不能生成”,而是“生成之後是否真的進入了生產流程”。一個 AI 產品如果只是被用戶嚐鮮,它很難形成長期價值。但如果它進入設計師、短劇團隊、廣告公司、品牌方和影視製作機構的日常工作流,就意味著 AI 不再只是工具,而
AI 太燒錢!微軟選擇「倒戈」DeepSeek
Claude、GPT 不再獨佔 Copilot。 作者丨樊天驕、鄭佳美 編輯丨鄭佳美 這兩天,微軟連續釋放了兩條重磅消息。第一條來自產品層面。微軟宣佈 Copilot Cowork 在全球正式上線。這款能夠跨 Outlook、Teams、Excel 等應用自主執行任務的 AI Agent 系統將正式商用。據微軟披露,超過一半的《財富》500 強企業已經在預覽期進行了部署。第二條則來自商業模式層面。Copilot Cowork 將不再完全沿用每月 30 美元的固定訂閱模式,而是開始引入按使用量計費機制。幾乎在同一時間,Axios 又披露了一則消息:微軟正評估將 DeepSeek V4 引入 Copilot Cowork,作為低成本模型選項。如果最終落地,這將成為美國大型科技公司首次在核心企業級 AI 產品中引入中國大模型。這兩條消息似乎釋放出一個信號,即Agent 的普及正在讓 AI 的成本問題變得前所未有地突出。過去的聊天機器人更像一次性服務。用戶提問,模型回答,任務到此結束。而在 Agent 模式下,一個任務往往需要經歷任務拆解、數據檢索、工具調用、結果生成和反覆修正等多個環節。用戶看到的是一次任務交付,系統背後卻可能已經完成了數十次甚至上百次模型調用。當下的模型市場價格體系也在迅速拉開差距。從 Anthropic 高端模型每百萬 Token 數十美元的推理成本,到 DeepSeek V4 Flash 每百萬 Token 不足 0.3 美元,價格跨度已經達到數百倍。當任務量持續增長、模型價格不斷分化,企業需要解決的問題便不再是“選擇哪個模型”,而是“什麼任務應該使用什麼模型”。模型路由、成本控制和資源調度,也因此開始從後臺基礎設施問題,走向 AI 產品競爭的核心位置。01算力成本為何激增要理解微軟此次架構重構的必要性,首先需要看到一個正在發生的變化:Agent 正在改變
從代碼到產線:恩和發佈 BPL 協議語言,定義生物製造的“工業級編譯器”
雷峰網訊。近日,恩和科技在《bioRxiv》發佈Biology Protocol Language(BPL)及其生成管線BPL-COGEN,首次為生物實驗協議建立了一套形式化的語言體系,打通了Physical AI進入物理世界的標準接口。BPL是專為生物實驗協議設計的可編譯、可驗證的形式化語言。BPL-COGEN把自然語言協議自動翻譯為BPL程序,由一個300億參數微調大語言模型與確定性編譯器構成“生成—驗證—修復”閉環。在基於300篇《Nature Protocols》論文的基準測試中,BPL-COGEN實現95.1%的首輪一致性,通過2輪編譯-仿真閉環將正確率推進至98.6%。目前,相關代碼已在GitLab完全開源(MIT License)。AI已會“思考”,但還不會“動手”當前,AI已經能在數字世界生成假設與設計實驗。材料科學領域已經出現自主驅動的Self-driving Lab。但在生物學領域,無論上游AI多麼強大,其輸出最終仍須被翻譯為物理操作,而這一過程,至今仍依賴自然語言文本這是一個半導體和軟件行業幾十年前就已跨越的問題。半導體設計通過Verilog和VHDL完成了從自然語言向硬件描述語言的躍遷,軟件工程通過類型化語言確立了可驗證的穩定性。生物學一直缺少與之對應的、具備編譯器驗證能力的底層語言,這正是當前AI驅動實驗設計與可復現物理執行之間的速率限制環節。代價是清晰的。《Nature》在2016年針對1,576名研究者的調查顯示,超過70%的人無法復現他人實驗,超過一半的人無法復現自己的實驗(Baker, *Nature*, 2016)。恩和團隊的論文進一步將問題歸納為三個維度:協議精確度。典型指令中常隱藏濃度、時間、體積等多處未明分支點。幾十條此類指令疊加,使實驗可復現性完全依賴於人員的經驗補全。協議驗證。自然語言缺乏在執行前模擬物理一致性的機制,內部邏輯錯
Snap分拆生成式AI視頻團隊成立新公司Dotmo 緩解高昂研發成本壓力
Snap因內部生成式AI成本高昂,將AI視頻團隊分拆為獨立公司Dotmo,以減輕財務壓力並提升運營靈活性。新公司專注開發可生成互動遊戲體驗的AI模型,核心團隊由Snap離職員工組成。Dotmo雖架構獨立,但與Snap仍保持緊密的資本和技術紐帶。
視覺盛宴接入 AI:Getty Images 與 OpenAI 達成戰略授權合作
Getty Images與OpenAI達成合作,將龐大授權圖片庫接入ChatGPT,為用戶搜索提供視覺化內容支持。作為全球視覺素材巨頭,Getty此前已與英偉達在生成式AI領域佈局,此次合作進一步深化其AI賦能戰略。