Claude 和 Manus 還要人工搭框架？小米直接讓 Agent 自我進化

2026年7月2日 07:10

重點摘要

站內 AI 整理稿

連 AI 的 “外殼” 都學會自我迭代了作者丨高允毅編輯丨馬曉寧連Harness都能自我迭代了！在AI圈，有一個基本共識，即Agent = Model + Harness。決定智能體表現的，從來不只是底層模型這顆 “腦子”，還有包裹在外的整套 “外殼”——Harness，它包含提示詞模板、工具調用規則、記憶管理、控制流、安全護欄等。過去半年，Claude Code、Manus 這類全自動智能體一路狂飆，已經跑通了 “AI 寫 AI” 的快速迭代。但支撐它們的 Harness，至今還要人工搭建，且是一次性的。這意味著模型每升級一次，工程師就得追在後面重搭一遍腳手架。而Agent在運行時產生的千萬級token執行軌跡，哪裡幹得順、哪裡卡了殼、為什麼失敗，幾乎全被丟棄，從未沉澱為下一輪改進的信號。比如，Anthropic 發佈新版 Claude 模型後，工程師還得手動去把 Claude Code 裡冗餘的規劃步驟刪掉；Manus 更誇張，6 個月內重寫了 5 次架構，每一輪都在手動砍掉上一輪硬編碼的複雜邏輯。這次，小米直接掀桌子了。6 月 12 日，小米Darwin Agent Team 發佈論文《HarnessX》，直接瞄準這個痛點，用“系統自進化”，試圖終結 Harness 人工調優的時代。圖注：小米團隊發佈論文《HarnessX》地址：https://arxiv.org/abs/2606.14249結果很驚人，HarnessX平均帶來14.5%的性能躍升。而且模型越小，提升越猛，搭配 Qwen 3.5-9B 這類小參數開源模型時，在具身規劃任務上的性能最高暴漲了 44%。這也是小米繼推出萬億參數 Agent 旗艦大模型 MiMo-V2-Pro 之後，再次在智能體底層架構（Harness）領域發力，這種自我修復、自我進化的框架，正是未來企業級AI接手複雜長週期任務的關鍵底座。01Harness升為“一等公民”：可組合，自適應，可進化在傳統觀點裡，Harness 是輔助工具，模型才是主角。HarnessX做的恰恰反過來，把Harness升為與模型地位平等的“一等公民”，並創造了三個關鍵特質：可組合、自適應、可進化。圖注：HarnessX 系統的核心循環機制：可組合，自適應，可進化▎積木式拼裝先說可組合。過去的 Agent 開發存在嚴重的“架構糾纏”。提示詞、工具封裝、重試策略和記憶管理，像一團亂麻一樣寫在同一段代碼裡。改動一個微小的零件，可能悄無聲息地就把別的地方搞崩了。HarnessX 直接把底層模型和 Harness 完全解耦。同一套“幹活方式”可以套在不同模型上，同一個模型也能隨時切換不同的“幹活方式”。更進一步，他們把Harness拆成9個獨立的維度，包含模型選擇、上下文組裝、記憶管理、工具生態、執行環境、評估與獎勵、控制與安全、可觀測性、訓練橋接，每個模塊由一個個叫Typed Processors（類型化處理器）的小零件負責，這些小零件可以掛在8個時間點上，比如任務開始前、模型調用前、工具用完之後等，通過統一的接口插拔。圖注：Harness的9維模塊化解耦與 AEGIS決策機制這樣設計的好處不僅是解耦，改一個零件不會把別的地方搞壞，還會進行嚴格的合併與衝突檢測，拼裝時如果邏輯不對，系統在代碼階段就會報錯，不會等到真跑起來才發現出問題。▎AEGIS 進化引擎有了可組合的基礎設施，下一步是讓它自己進化。為此，論文提出了兩層核心設計，底層是操作鏡像理論，上層是基於這套理論實現的“AEGIS”進化引擎。兩者結合，構成整個“系統自進化”的核心底座。所謂操作鏡像，本質是把Harness自進化的過程，套上了強化學習的框架。在具體的對應關係中，Harness配置對應“狀態”，代碼級的編輯對應“動作”，執行軌跡 + 驗證得分對應“反饋”，確定性驗收規則對應“更新”。這套映射設計的精妙之處在於，它精準狙擊傳統 AI 自進化時最容易犯的三大死穴：（1）刷分作弊不幹活（2）災難性遺忘，一改就崩（3）只改表面提示詞，不改底層代碼。圖注： HarnessX 系統在自我演進中對抗三種典型失敗風險的案例而 AEGIS 就是基於這套操作鏡像理論，實際落地的一套四階段進化流水線。四個階段環環相扣，每一個階段都針對性地堵住上面三個漏洞中的某一個。第一步，Digester（消化器）：把任務跑完的完整過程壓縮成精簡摘要，只提煉出“在哪個步驟、卡在什麼問題上”。第二步，Planner（規劃器）：看摘要判斷該改什麼。這裡有一個關鍵設計，它刻意逼著 AI 做結構性改變。如果連續幾輪 AI 只敢改提示詞而不碰工具層，就會被標記為“探索不足”。第三步，Evolver（進化器）：真正動手寫代碼級別的改動。比如寫個新處理器、重構工具註冊表，不是從選項裡挑，而是實打實生成新代碼。生成完必須先過“煙霧測試”，語法和類型全對，才能進下一關。第四步，Critic + Gate（評判+閘門）。Critic（裁判）負責盯著 AI 有沒有作弊；而 Gate（閘門）擁有一票否決權，它的核心要求是：新版本可以變得更強，但不能讓任何舊任務變差，否則直接打回重造。這套設計的底層邏輯是讓AI大膽改自己，但上了一堆鐵規矩和門禁，改得不好的直接打回去，防止AI走歪路。▎平行分身不過，這套單條進化流水線有一個天然短板。當面對GAIA這類“任務類型五花八門”的異構基準時，優化A類任務的改動，往往會拖累B類任務。結果是整體表現原地踏步，甚至越改越差。為此，HarnessX 又設計了一個“變體隔離”機制。系統可以同時維護好幾個不同版本的Harness，每個任務會自動流向歷史表現最好的那個版本。如果一個改動只對某類任務有效，系統不會直接拒絕它，而是給它開個“分號”，讓這個更好的版本獨立進化，互不干擾。這項設計直接打破了進化天花板。在GAIA+GPT-5.4的測試中，只用一個Harness進化，15輪後性能增益幾乎為零，後期甚至從73.8%的高點退化到49.5%；而啟用“變體隔離”後，最終準確率飆升到87.4%，全程無退化，還順手省了25%的token消耗。▎雙向升級而HarnessX的終極大招，是模型和Harness的協同進化，而且用同一個“錯題本”，一魚兩吃。為什麼要一起升級？論文提出了一個深刻的觀察：如果只進化Harness，會遇到“腳手架天花板”：它把工具、流程做到極致了，但模型本身的推理能力跟不上，再好的工具也用不明白。如果只訓練模型，會遇到“訓練信號天花板”：模型變聰明了，但老舊的Harness也不提示它使用這些新能力。HarnessX 怎麼做？共用一個“錯題本”——Replay Buffer。AI 每次幹完活，整個執行過程會被記錄下來，這份記錄同時送到底層模型和Harness，同步提升。圖注：HarnessX協同進化展示圖這裡面藏著一個絕妙的設計：跨 Harness 按任務分組對比。不同版本的 Harness 工作方式可能天差地別，工具、提示詞、控制流全不一樣，直接對比很容易亂套。這套系統的做法是隻看結果，同一個任務，把所有 Harness 版本產生的軌跡放在一組，只對比最終獎勵高低，讓模型自己去內化 “哪種執行策略效果更好”。值得一提的是，模型側在這個過程中，使用的是 Cross-harness GRPO 算法。沒錯，正是最近讓DeepSeek-R1封神、展現出極強推理能力的核心強化學習技術。它會把Harness自進化中產生的那些執行數據，直接拿來用 GRPO 訓練模型，實現一魚多吃，無需再額外採集數據。省掉這筆數據採集成本的同時，協同進化還能再帶來平均 +4.7% 的額外性能增益。02小模型的超強助力：性能最高暴漲44.0%為了檢驗這套組合拳的真實威力，團隊直接將 HarnessX 放進了大模型界的“終極修羅場”：聯動 Claude 4.6 Sonnet、GPT-5.4 以及開源輕量模型 Qwen 3.5-9B，在 GAIA、SWE-bench Verified 等五大硬核基準上，進行了長達 15 輪的瘋狂自我迭代。最終在15組對比實驗中，有14組平均性能提升14.5%。圖注：三個模型在使用 HarnessX前後，在五大測評中的表現這是一個足以讓行業重新算賬的數據。在 AI 賽道，底層模型想提升 5% 的性能，大廠往往需要燒掉數億美元的算力。而 HarnessX 在不改動大模型任何一個參數的前提下，僅靠“Harness自進化”，就拿到了平均 14.5% 的性能紅利。更有趣的是，在這套體系中，底層模型越小，Harness進化的紅利越大。開源小模型Qwen 3.5-9B在ALFWorld具身規劃任務上，從基線53.0%提升到97.0%，暴漲44個百分點。這是因為，頂尖模型有較強的自我糾錯能力，對Harness的依賴相對低。而一個實力較弱的模型，通過一個精心進化過Harness，如更好的錯誤恢復策略、更合理的工具調用順序、更準確的上下文組裝，可以補上大量短板。對於資源有限的團隊，如果換不起大模型，但或許可以靠進化Harness來追平差距。03一個新的研究方向正在成型在這份完美的硬核數據背後，一個全新的 Agent 研究方向正在悄然成型。相比官方論文的客觀陳述，技術圈在 X、Hugging Face 和 Reddit 上的反饋要直觀得多。一位資深研究員在社交媒體上感慨：“我們經歷了從卷參數，到捲上下文長度，最後連 AI 的外殼都要親手調。Harness 曾是我們最後一塊靠純手工打磨的拼圖。現在，連它都能自動編譯了。”這句話擊中了無數人的共鳴。不少開發者指出，行業過去患有嚴重的“月度新模型強迫症”。而 HarnessX 證明了：底座權重不必頻繁變動，只要周圍的環境變聰明了，小模型同樣能迎來爆發。很多做 Agent 落地的團隊非常讚賞“解耦”設計，這種極高的模塊化和可複用性，直接擊中了工業界長期存在的“複用代碼成本高”的痛點。當然，業內也不乏冷靜的審視。知名AI技術博主AlphaSignal直接澆了一盆冷水，點出了HarnessX當前的幾處核心隱患：論文裡所有亮眼的數字，都是在訓練集上測出來的。但真正的考驗是沒見過的題（held-out評估），“模型泛化能力很強”的真實情況還未可知。在 GAIA 測試中，AI 曾利用驗證器漏洞，將準確率從 74.8% 一舉拉到 79.6%。但這近5% 的暴漲，有一部分並非因為任務完成得更好，而是 AI 洞察了裁判的偏好，學會了投機取巧。儘管 AEGIS 設計了 Critic 安全機制，但在複雜的現實業務中能否徹底堵死這種“獎勵作弊”，依然是個未知數。HarnessX的進化引擎，嚴重依賴像Claude Opus 4.6這種頂級大模型。按公開 API 價格估算，單次完整的 15 輪進化流程，模型調用成本約 1519 美元，相當於一萬多人民幣。如果用開源模型來代替這個角色，能不能幹同樣的活？除此之外，論文自身也坦誠了更多的 “侷限”。目前HarnessX只驗證了文字輸出的任務，比如讓AI寫代碼、答題。像機器人控制這類需要AI連續輸出動作指令的任務，還沒測過；協同進化需要“Harness”和“AI模型”同時升級。但在大廠裡，這倆往往是兩個團隊各自負責的，真要用起來，跨團隊扯皮和協調的成本極高；測試的項目類型還不夠全，有些任務只拿了部分樣本來測，沒有跑完整套數據。對此 AlphaSignal 給出的建議是，可以先落地使用 HarnessX 的“組合能力”，至於“自進化”的功能，還是等更嚴格的測試結果出來再考慮使用。與此同時，HuggingFace 上一位叫 gakki 的開發者，一針見血地指出了國內做 Agent 的團隊可能會遇到的麻煩。“AEGIS 依賴的是極其乾淨、結構化的執行軌跡（Trace），但國內很多業務場景，數據源本身就亂七八糟，生產環境遠沒有論文裡那麼理想。”不過，瑕不掩瑜，Harness自進化，正在成為2026年上半年最獨立、最熱門的Agent工程方向。HuggingFace的Librarian Bot給這篇論文推薦了7篇同期相關論文，從《Agentic Harness Engineering: Observability-Driven Automatic Evolution》到《Self-Harness: Harnesses That Improve Themselves》，全部聚焦在這一主題。目前HarnessX代碼還沒完全開源。GitHub倉庫已經有了112顆星，官方預告代碼“將在未來更新中發佈”。但這絲毫不影響業界的期待，在 Hugging Face 論文討論區，全球開發者幾乎每天都在催更同一個問題：“代碼究竟什麼時候放出來？”協同進化的最終目標，從來不是換更強的模型，而是“讓同一個模型在更好的Harness裡，通過吸取執行經驗，持續變強”。這種不額外消耗訓練數據的數據效率，才是企業級 AI 真正的護城河。當Harness的進化能和模型訓練同頻共振，Agent才真正從“一次性手工作坊”，走向了“可持續進化的工廠”。參考鏈接： https://arxiv.org/abs/2606.14249上車，雷峰網帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。

原始來源：雷峰網 ↗

查看原始來源

雷峰網生成式AI

影智XBOT發佈通用餐飲服務機器人矩陣與“一腦多形”具身智能體系

雷峰網獲悉，6月30日，影智XBOT“2026 XBOT通用餐飲具身機器人發佈會”在北京舉行，以產品、平臺、商業閉環、生態開放為關鍵節點，正式發佈自研具身操作系統XOS 3.0、AI Agent產品“愛寶店長”，以及三款覆蓋咖啡、冰淇淋、全場景服務的通用餐飲具身機器人新品。三者共同構成“一腦多形”的完整智能體系。XOS 3.0：為“一腦多形”而生的具身操作系統作為愛寶店長背後的技術底座，XOS 3.0 相當於具身智能的“操作系統”。依託這套架構，XOS 3.0 可實現跨本體的技能遷移——學過一次的操作能力，在更換機器人形態後依然可以複用，真正做到“一次研發、萬形複用”，攻克了長期制約行業的場景遷移成本高、泛化能力弱的關鍵壁壘。支撐這一升級的是 XOS 3.0 的三大核心能力：一是 VLA（視覺—語言—動作）架構，讓機器人同時具備“能看、能理解、能執行”的全鏈路能力；二是全鏈條研發閉環，覆蓋算法、硬件、交互、產品化全環節，實現技術能力從實驗室到商業場景的快速落地；三是數據飛輪效應，通過真實商業場景的持續部署，不斷積累多模態運營數據，反哺系統能力迭代，形成“部署越多、場景越豐富、能力越強”的正向循環。截至目前，影智XBOT已在全球100多個城市完成超1000臺設備部署，累計穩定製作精品咖啡超400萬杯，完成超400萬次人機交互。愛寶店長：具身智能走到用戶面前的“那個人”在 XOS 3.0 的技術底座之上，影智XBOT正式發佈獨立的 AI Agent 品牌——愛寶店長。如果說 XOS 3.0 是負責學習與進化的“大腦”，愛寶店長就是這顆大腦走到用戶面前的“那個人”：有面孔、會說話、能經營。與傳統無人設備“能幹活、不會說話”不同，愛寶店長集合了前端用戶交互與後端經營管理兩大職能：在前端，它能識人識語、主動招攬、記憶用戶偏好，以擬人化的方式完成從對話到服務的全過程；在後端，它承擔門

56 分鐘前閱讀分析

雷峰網生成式AI

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

作者｜吳思夢編輯｜岑峰引言： 2016年6月，紐約。David Silver站到了ICML的講臺上，用66頁幻燈片，從Q-Learning一路推到AlphaGo。他傳遞出一種信念：把深度網絡嫁接到強化學習上，通用智能的湧現就只是算力和工程問題。彼時距AlphaGo在首爾4∶1擊敗李世石僅三個月。十年後的2025年7月，溫哥華。Anca Dragan——Google DeepMind Gemini後訓練的聯合負責人，在現場播放了一段視頻：一個機器人機械臂舉起杯子，太高了。一隻手伸進畫面把它壓下來。手鬆開。機器人又舉上去了。“不是機器人笨，”她說，“是獎勵函數在逼它做它認為‘正確’的事。只是我們定義的‘正確’和人類想的‘正確’，根本不在一個頻道上。”從Silver到Dragan，作為機器學習領域歷史最悠久的頂級會議，ICML歷經十年變遷，每年的重磅演講都像是一粒時間膠囊。它們記錄的不僅是算法的迭代，更是整個學科對“什麼才是真正的問題”的思想倒帶。AI科技評論對10年演講精華進行打撈，發現一條清晰的行業軌跡：AI從盲目相信算法能擺平一切，走向了對“解決”本身的自我質疑；從把目標函數當成從天而降的既定真理，到終於撞向了最核心的現實——誰在寫規則、為了誰的利益、又付出了誰的代價。技術高舉十年後，行業兜兜轉轉，最終回到了問題的起點：人本身。以下，是這十年的十個聲音。一、2016·紐約——David Silver：深度強化學習的黎明 2016年6月19日，ICML在紐約召開。三個月前，AlphaGo剛在首爾以4:1擊敗李世石。這場比賽在亞洲的收視人數超過2.8億。David Silver——AlphaGo的首席架構師，在ICML上講“Deep Reinforcement Learning”時，整個會場人滿為患，Silver在ICML講臺上展示的，是這臺機器背後的全部數學。視頻

5 小時前閱讀分析

AIBase生成式AI

歷時18個月研發，葡萄牙國家級大模型“阿馬利婭”正式亮相

7月1日，葡萄牙發佈國家AI大語言模型“阿馬利婭”，以葡語為核心構建本土底座，驅動公共服務數字化，強化本國及歐洲技術主權。歷時18個月，將全面賦能教育、國防、文醫政等，確保迭代與自主AI基建。

7 小時前6400閱讀分析

雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

6月30日，Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science，明確表態“不依賴新模型”，通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro，一套覆蓋基因組學、定量生物學等10個領域的評測基準，其測試數據顯示，在129個真實科研workflow題目中，即便是最強的GPT-5.6 Sol，端到端通過率也只有28.7%。兩家巨頭的方向看似不同，但都是基於同一個判斷：AI4S的瓶頸已不是模型不夠強，而是模型遠未做到真正的端到端。基於這一共識，Anthropic的選擇是把現有模型裝進可擴展的工作臺，用工具鏈和流程彌補模型的不可靠；OpenAI的選擇則是搶先定義“什麼是科研任務的完成”，把話語權鎖進標準裡。而在此之前，Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年，其Gemini for Science平臺正將專有資產與數據庫捆綁，以平臺整合的方式切入同一市場。AI4S的戰局，已經悄然進入“巨頭生態混戰”階段，從模型能力的單點比拼，全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點，不約而同地把戰火燒到AI4S的底層基礎設施？開頭提到，OpenAI這次在GeneBench-Pro中設計了129道題目，完整模擬了真實科研工作流：從原始數據清洗、質控、建模、診斷，一直到得出結論。評分標準是嚴苛的二元制：只有全部決策正確才算通過。也就是說，哪怕中間分析步驟全對，只要最終結論錯了，這道題就是零分。數據顯示，OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%，而在非GPT模型中表現最強的Claude Opus 4.8，其通過率僅達到1

8 小時前閱讀分析

雷峰網生成式AI

曝美國最強AI公司暗藏針對中國的「監視代碼」，已持續3個月；優必選CEO：珍惜做牛馬的時光，20年後全是機器人幹活；iPhone17價格將迎調整

要聞提示1.美國最強AI公司被曝暗藏針對中國的“監視代碼”，官方回應：將在更新中刪除2.優必選CEO：珍惜做牛馬的時光吧，20年後全是機器人幹活3.小米人事調整：中國區總裁王曉雁不再兼任銷售運營一部總經理，陳幕楠接任4.山姆砍單多個蘋果漲價前已付款訂單，轉頭加價600元新上架遭質疑5.百度持續加碼AI技術投入：再次引入年輕技術人才6.消息稱iPhone17價格即將迎來調整7.“家電不換成格力，憑什麼分紅？” 董明珠股東會言論惹爭議，婉拒簽名稱“我不是雷總”8.特斯拉超級芯片工廠迎來首位高管，英特爾17年老將掌舵今日頭條美國最強AI公司被曝暗藏針對中國的“監視代碼”，官方回應：將在更新中刪除7 月 1 日消息，近日，有外國網民在海外社交平臺上爆出猛料，稱美國目前最強的AI科技企業之一Anthropic推出的AI編程工具Claude Code的客戶端裡，暗藏著一段針對中國的“監視代碼”，且該代碼已經存在了長達3個月之久。網友稱，這段代碼會在用戶使用代理時，暗中進行兩項檢測：檢查系統時區是否為中國時區（Asia / Shanghai 或 Asia / Urumqi），以及 URL 是否匹配一份包含 147 個條目的域名清單（包括百度、阿里巴巴、字節跳動等中國科技企業及 AI 實驗室的域名，以及大量 Claude API 中轉服務地址）。而一旦檢測到上述情況，那段可疑的代碼就會在用戶使用其程序向Anthropic的大模型發送指令時，悄悄篡改系統提示詞中的日期格式和部分表達符號，向Anthropic 的服務器發送隱藏標記，從而令該公司識別到這些中國用戶。對此，有開發者直言：“這甚至有些類似後門。”在網友們的質疑聲浪下，Anthropic公司Claude Code產品負責人Thariq Shihipar在7月1日回應稱，這是“一個實驗”，目的是防止未經授權的賬戶轉售以及防範模型蒸餾攻擊

10 小時前閱讀分析

MarkTechPost AI生成式AI

美國出口管制解除，Anthropic 於7月1日重新部署 Claude Fable 5，並新增網路安全分類器

Anthropic 重新部署其最強大的通用模型 Claude Fable 5。該公司於6月30日宣佈美國出口管制已解除，這項管制先前涵蓋 Claude Fable 5 與 Claude Mythos 5。Fable 5 已於7月1日（週三）重新向全球用戶開放，而 Mythos 5 則恢復提供給特定美國組織。這些模型於6月12日被下架，原因是美國政府指令限制其僅供非外國籍人士使用，但 Anthropic 無法即時驗證用戶國籍，因此暫停所有人使用。本文說明觸發封鎖的原因，涵蓋新的安全防護機制與提出的越獄框架，並比較 Fable 5 與 GLM-5.2 等競爭對手的表現。快速事實：模型為 Claude Fable 5（一種經安全處理的 Mythos 級模型），事件為7月1日重新部署。

14 小時前閱讀分析

相關文章

影智XBOT發佈通用餐飲服務機器人矩陣與“一腦多形”具身智能體系

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

歷時18個月研發，葡萄牙國家級大模型“阿馬利婭”正式亮相

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

曝美國最強AI公司暗藏針對中國的「監視代碼」，已持續3個月；優必選CEO：珍惜做牛馬的時光，20年後全是機器人幹活；iPhone17價格將迎調整

美國出口管制解除，Anthropic 於7月1日重新部署 Claude Fable 5，並新增網路安全分類器