80%代碼由Claude合併，Anthropic內部人員點破Agent真相：「Close the Loop」

2026年6月25日 10:46

重點摘要

Anthropic內部人員透露，Claude已成功合併80%的程式碼，並點破AI Agent的關鍵在於「Close the Loop」（閉環）。同時提醒開發者，不要再用過時的測試方法來評估當前的Claude。

站內 AI 整理稿

### 重點整理

近期業界討論焦點落在 Anthropic 內部人員的一則觀點：所謂 AI Agent（代理）的真正關鍵並非技術炫技，而在於「Close the Loop」（閉合回饋迴路）。據了解，該公司內部開發過程中，已有約 80% 的程式碼是由 Claude 自行合併完成。這項數據雖然未經官方證實，卻反映了語言模型在實際軟體開發中的滲透程度已遠超去年水準。訊息同時提醒開發者，不該再用「去年的測試方式」來衡量「今天的 Claude」，因為模型能力迭代速度極快，過去判斷效能的基準已不再適用。

### 背景脈絡

「Close the Loop」一詞源於控制理論與系統工程，指系統能根據執行結果自動調整後續行為，形成自我修正的循環。在 AI Agent 的語境下，這意味著模型不僅要能生成程式碼或提供答案，還要能監控自己輸出的品質、回饋錯誤，並在沒有外部介入的情況下持續優化。過去一年，許多團隊熱衷於打造「能自動完成任務」的代理，卻往往忽略了「如何讓它知道自己做錯了」的關鍵環節。Anthropic 內部員工點破這點，無異於對當前 Agent 熱潮潑了一盆冷水——若無法閉環，再華麗的代理也只是單向的指令執行器。

### 可能影響

這項觀點的影響層面相當廣泛。首先，對開發者社群而言，他們需要重新審視自己設計的 Agent 是否真的具備「閉環」能力，還是僅止於呼叫 API 然後等待人類除錯。其次，對於企業導入 AI 自動化，過去只看模型產出品質的做法可能必須升級——真正可靠的代理應能自動偵測異常並修正，否則將大幅增加人工監管成本。此外，Claude 自身合併 80% 程式碼的現象，也暗示了 AI 撰寫的程式碼已達到相當高的可靠度，未來軟體開發流程可能從「人寫機器審」過渡到「機器寫人審」，甚至逐步走向全自動閉環。

### 讀者可關注的後續

讀者可以留意以下幾個方向：第一，Anthropic 是否會正式公開「Close the Loop」的實作框架或最佳實踐，這將影響整個 Agent 生態的工程標準。第二，其他大型語言模型（如 GPT-4、Gemini）是否也能達到類似的程式碼合併比例，以及它們的閉環能力是否與 Claude 相容。第三，測試方法論的變革——隨著模型能力快速躍進，原有 benchmark（性能基準）與測試流程勢必需要迭代，如何設計出能評估「閉環」而非僅是「一次性推理」的測試，將成為新的課題。最後，若 Claude 的程式碼合併比例屬實，代表 AI 已能在版本控制流程中擔任實質貢獻者，開發者應思考如何調整團隊協作模式與驗收標準，以適應這波「Agent 深入開發實務」的浪潮。

原始來源：36氪 ↗

查看原始來源

鈦媒體生成式AI

GPT設計GPT

這篇消息聚焦「GPT設計GPT」。原始導語提到：如果說英偉達賣鏟子，那麼OpenAI想擁有礦山。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

雷峰網生成式AI

GAIR Paper 107｜高校聯合騰訊發佈 GameCraft-Bench：AI已能端到端開發遊戲，Claude Opus 四成達到可玩水平

Coding Agent 的下一站，是動態交互系統的構建。作者丨GameCraft-Bench Team 過去一年，代碼智能體（Coding Agent）發展迅速。從編寫簡單的單一腳本、修復局部 BUG，到跨文件完成長序開發任務，模型能力正在不斷提升。以“一句話生成遊戲”為代表，AI 正在大幅降低遊戲構建門檻。過去需要開發者熟練掌握引擎架構、手寫邏輯代碼的開發工作，現在可以通過自然語言快速生成原型，甚至生成可運行的遊戲項目。這也讓規模化由 AI 創造交互式體驗變得前所未有地現實。但問題是：這些從零自動生成的遊戲，真的“能玩”嗎？如果生成的代碼只是“看起來邏輯合理”，但在真實的引擎環境中根本跑不起來，或者視覺表現與玩家交互一塌糊塗，那麼在這些只看靜態代碼的基準裡刷出高分的 Agent，就很難真正勝任現實中的遊戲開發場景。香港中文大學（深圳）、深圳河套學院等高校聯合騰訊的最新研究 GameCraft-Bench 正是要解決這個問題：如何構建一個基於真實遊戲引擎、產物完整可運行、且能通過真實玩家多模態交互來驗證的 AI 遊戲生成評測基準。論文鏈接：https://arxiv.org/abs/2606.17861項目主頁：https://tongxuluo.github.io/gamecraft-bench-website評估代碼：https://github.com/tongxuluo/gamecraft-bench01為什麼不直接用現有的評測基準？過去已經提出了一些與遊戲生成相關的評估基準，那我們為什麼還要重新確立一個新的評估基準 GameCraft-Bench 呢？核心原因是：現有的基準很難全面、真實地衡量端到端的可玩性。表. GameCraft-Bench與已有的遊戲生成評估基準的對比。1. 真實引擎的整合難度被低估。像 OpenGame-Bench 主要針對 Web

2 小時前閱讀分析

雷峰網生成式AI

元點Zeroth迎來拉美首秀全球首款自主回充機器人掀起全球具身新熱潮

從巴西展會走向全球家庭元點Zeroth持續引領全球具身智能落地應用2026年6月22日，巴西聖保羅——當消費級機器人逐步從實驗室走向真實家庭，具身智能產業正在進入全球化落地的關鍵階段。全球具身智能全棧品牌元點Zeroth正式亮相拉丁美洲規模最大、影響力最強的消費電子展會 Eletrolar Show 2026，首次向拉美市場展示其面向未來家庭生活打造的完整消費級具身智能產品矩陣。此次亮相不僅標誌著元點Zeroth全球化佈局的重要一步，也意味著具身智能正在從“功能設備”向“家庭智能體”加速演進。元點Zeroth 創始人兼 CEO 郭人傑表示：“在 Zeroth，我們的使命是引領具身智能的全球創新與應用。拉丁美洲市場正處於變革前夜，擁有巨大的技術潛力，能夠顯著提升人們的日常生活質量。通過讓先進技術變得更易獲取、更易使用，我們希望賦能整個地區的社區，重新定義未來人們如何藉助具身 AI 生活與工作。”本次參展，元點Zeroth 以前沿具身智能全棧產品矩陣首次進入拉美市場，展示其在家庭服務機器人、移動智能助手、核心執行器等領域的最新突破，標誌著其全球化佈局邁出關鍵一步。M1家庭人形機器人：全球首款“自主回充”的家庭人形機器人本次展會最受關注的產品，是元點Zeroth最新發布的家庭人形機器人 M1。M1專為家庭環境設計，機身高度約50cm，是一款面向真實生活場景的具身智能家庭終端。M1實現了全球首個家庭人形機器人的自主能源閉環能力這一重大突破。當電量不足時，M1能夠自主完成移動、路徑規劃，並通過小車完成自動回充過程，從而減少對人工充電與外部幹預的依賴。這一能力使機器人從“需要照顧的設備”，首次邁向“具備自維護能力的智能體”。無論是面對多孩家庭還是老年獨居場景，M1的多模態感知與持續學習的能力，使其可在日常生活中承擔包括生活提醒、基礎陪伴、家庭節奏協助以及個性化互動等多種角色，使其逐步

3 小時前閱讀分析

雷峰網生成式AI

ICML 2026 | 面向視覺語言模型的語義魯棒性認證

原文作者：公眾號“專知”原文鏈接：https://mp.weixin.qq.com/s/8GZParVJfj9fBuflTFTzlA 雷峰網轉載ICML 2026 | 面向視覺語言模型的語義魯棒性認證：用文本提示刻畫可證的語義變化區間論文題目：Semantic Robustness Certification for Vision-Language Models論文鏈接：https://arxiv.org/abs/2606.18839論文作者：Peiyu Yang、Paul Montague、Feng Liu、Andrew C. Cullen、Amardeep Kaur、Christopher Leckie、Sarah M. Erfani論文機構：The University of Melbourne、Defence Science and Technology Group代碼地址：https://github.com/ypeiyu/vlm-semantic-cert視覺語言模型（VLM）已經成為開放詞表識別、圖文檢索、檢測、分割和視覺問答等任務的基礎組件。但在真實應用中，輸入圖像經常發生語義層面的變化：物體形狀變了、尺寸變了、風格變了、背景變了、視角變了、光照變了。傳統魯棒性認證多關注像素擾動、幾何變換或生成模型潛空間變化，很難直接回答一個更貼近日常部署的問題：當圖像沿著某個“語義方向”變化時，VLM 的預測在多大範圍內保持不變？這篇 ICML 2026 論文提出了一個新的語義魯棒性認證框架。核心想法非常漂亮：利用 VLM 的開放詞表能力，把文本提示作為語義代理，用一對 source/target prompt 在圖文共享嵌入空間中定義語義變化方向；再利用 VLM 分類器決策邊界的閉式幾何結構，精確計算預測類別保持不變的 semantic extent interval。

4 小時前閱讀分析

雷峰網生成式AI

AI生成的圖片正在反向對齊人類的審美？ICML 2026觀點論文Spotlight

原文作者：公眾號“機器之心”原文鏈接：https://mp.weixin.qq.com/s/JJMSTq6O-QLy9FO-Os6SMAUBC 和 Weathon Software 的研究提出，圖像的美學對齊正在削弱藝術表達。論文標題：Position: Universal Aesthetic Alignment Narrows Artistic Expression作者：郭聞起，錢青雲，Khalad Hasan，Shan Du論文地址：https://arxiv.org/abs/2512.11883代碼和數據（已開源）：https://github.com/weathon/icml2026_position展覽網站：https://weathon.github.io/icml2026_position/ICML Event Page：https://icml.cc/virtual/2026/poster/67242本文第一作者郭聞起是 University of British Columbia（UBC）的計算機系碩士生，主攻 AI 生成模型的安全和隱私問題。他和共同作者錢青雲（法學系畢業生，UBC 計算機系本科在讀）一起提出了對 AI 模型普遍追求單一價值對齊的擔憂。此前兩人曾批判模型在醫學方向過度謹慎的情況。本文主要討論圖像生成模型在美學對齊中對藝術表達的限制問題。本文的指導教授是 UBC 的 Khalad Hasan，主攻人機交互方向，以及 Shan Du，主要研究計算機視覺和計算機圖形學。該論文在 ICML 上的海報：一定程度上擺脫了傳統學術海報的風格束縛。當「更好看」成為默認目標AI 圖片生成模型最開始只能生成 8 根手指、扭曲面部等不符合正常生理結構的圖片，而現在已經進化到了可以生成正常、符合人類生理結構的圖片。在解決了此類圖像生成的正確性問題後，AI 開發

4 小時前閱讀分析

AIBase生成式AI

AI賽道上演“極速追趕”：谷歌重組代碼團隊，強化Gemini底層基本功

谷歌“AI代碼突擊隊”成立不足兩月即重組，DeepMind團隊職責從編碼工具與智能代理優化擴展至模型“中期訓練”，即預訓練後、指令對齊與微調前的關鍵階段，旨在縮小與Anthropic在生成式AI編程領域的差距。

5 小時前6000閱讀分析

相關文章

GPT設計GPT

GAIR Paper 107｜高校聯合騰訊發佈 GameCraft-Bench：AI已能端到端開發遊戲，Claude Opus 四成達到可玩水平

元點Zeroth迎來拉美首秀 全球首款自主回充機器人掀起全球具身新熱潮

ICML 2026 | 面向視覺語言模型的語義魯棒性認證

AI生成的圖片正在反向對齊人類的審美？ICML 2026觀點論文Spotlight

AI賽道上演“極速追趕”：谷歌重組代碼團隊，強化Gemini底層基本功

元點Zeroth迎來拉美首秀全球首款自主回充機器人掀起全球具身新熱潮