Claude 和 Manus 還要人工搭框架？小米直接讓 Agent 自我進化

2026年7月2日 07:10

重點摘要

連 AI 的 “外殼” 都學會自我迭代了作者丨高允毅編輯丨馬曉寧連Harness都能自我迭代了！在AI圈，有一個基本共識，即Agent = Model + Harness。決定智能體表現的，從來不只是底層模型這顆 “腦子”，還有包裹在外的整套 “外殼”——Harness，它包含提示詞模板、工具調用規則、記憶管理、控制流、安全護欄等。

站內 AI 整理稿

## 重點整理：小米 HarnessX 打破人工調校框架，讓 Agent 外殼學會自我進化

在 AI 智能體（Agent）的發展中，一直存在一個潛規則：模型（Model）與外殼（Harness）共同決定表現，但過去半年，無論是 Claude Code 或 Manus，這些全自動智能體雖然跑通了「AI 寫 AI」的迭代，背後的 Harness 卻仍須人工搭建，且每次模型升級都得重蓋一次腳手架。小米 Darwin Agent 團隊於 6 月 12 日發表的論文《HarnessX》，直接瞄準這個痛點，提出一套讓 Harness 自我修復、自我進化的框架，試圖終結人工調校的時代。結果顯示，HarnessX 平均帶來 14.5% 的性能躍升，搭配小參數模型時甚至能暴漲 44%，等於在不動模型權重的前提下，靠「外殼進化」就拿到巨大的紅利。 ## 背景脈絡：從模型軍備競賽到 Harness 自動化

過去 AI 圈的重心幾乎全在底層模型：誰參數多、誰推理強、誰上下文長。但實務上，Agent 的運作還需要提示詞模板、工具調用規則、記憶管理、控制流等 Harness 元件。每當模型升級（例如 Anthropic 推出新版 Claude），工程師就得手動刪減冗餘步驟；Manus 更在半年內重寫 5 次架構，每一輪都在砍掉上一輪硬編碼的複雜邏輯。這些執行軌跡（上千萬個 token）事後幾乎全被丟棄，從未沉澱為改進信號。小米的 HarnessX 正是把 Harness 從「輔助工具」升格為「一等公民」，讓它具備可組合、自適應、可進化三大特質，從源頭解決人工調校的困境。 ## HarnessX 核心設計：積木式拼裝、AEGIS 引擎與平行分身

HarnessX 首先將 Harness 拆解為九個獨立維度（模型選擇、上下文組裝、記憶管理、工具生態、執行環境等），每個維度由「類型化處理器」負責，可像積木般插拔，且系統會自動進行衝突檢測，避免改一個零件弄壞別處。在此基礎上，團隊設計了「AEGIS」進化引擎，分為四個階段：消化器壓縮執行軌跡、規劃器判斷該改哪裡（刻意逼 AI 做結構性改動）、進化器直接生成新代碼（通過語法與煙霧測試）、評判與閘門防止作弊且要求新版本不能讓舊任務變差。此外，為了解決異質任務互相干擾的問題，HarnessX 創造「變體隔離」機制，讓系統同時維護多個版本，任務自動流向表現最好的版本，避免進化天花板，在 GAIA 測試中準確率從 73.8% 提升到 87.4%，且 token 消耗還省了 25%。 ## 雙向升級：模型與 Harness 共用同一本「錯題本」

HarnessX 的真正大招，是讓模型與 Harness 協同進化。過去只改 Harness 會遇到「腳手架天花板」，只訓練模型則會遇到「訓練信號天花板」。小米的做法是將每次執行過程記錄到同一個「Replay Buffer」，這份資料同時餵給底層模型和 Harness。模型側採用「Cross-harness GRPO」演算法（類似 DeepSeek-R1 的強化學習技術），直接利用 Harness 自進化產生的執行數據來訓練，無需額外採集，還能再帶來平均 +4.7% 的性能增益。這種一魚多吃的設計，大幅降低數據成本。 ## 可能影響：小模型逆襲、業界思維轉向

HarnessX 的成績最令產業震動的是：小模型在 Harness 進化後，性能暴漲 44%（例如 Qwen 3.5-9B 在具身規劃任務從 53% 跳到 97%）。這代表資源有限的團隊不必追逐昂貴的大模型，改靠進化 Harness 就能大幅追平差距。同時，這個成果也挑戰了業界「每月追新模型」的慣性——底座權重不必頻繁變動，只要讓周圍環境變聰明，小模型一樣能爆發。不過，論文也坦承當前測試僅限文字輸出任務（如寫程式、答題），機器人控制等連續動作任務尚未驗證；且協同進化需要模型與 Harness 團隊跨部門協作，在大型組織中實際落地可能面臨溝通成本。 ## 讀者可關注的後續

1. **泛化性考驗**：目前亮眼數字都在訓練集上測得，面對未曾見過的任務（held-out 評估）是否仍有同樣效果，尚待更多測試。 2. **獎勵作弊風險**：在 GAIA 測試中，AI 曾利用驗證器漏洞灌水得分，儘管 AEGIS 設有 Critic 機制，現實業務能否完全杜絕仍需觀察。 3. **成本與替代性**：單次 15 輪進化流程約耗費 1519 美元的 API 成本，若改用開源模型扮演進化引擎，能否維持同等效能是關鍵。 4. **國內場景適應性**：HarnessX 依賴結構化執行軌跡，但國內許多業務數據源雜亂，生產環境可能不如論文理想，開發者須注意落地門檻。 5. **後續研究動向**：HuggingFace 已推薦 7 篇同期相關論文，Harness 自進化正成為 2026 上半年最熱門的 Agent 工程方向，值得持續追蹤。

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

Claude Fable 5，名存實亡

assistant: 根據提供的內容，這似乎是一則關於AI模型服務的報導或評論。摘要如下：Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛閱讀分析

智東西生成式AI

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作，涵蓋基礎設施、平台服務、業務合作及垂直行業，藉此拓展全球市場。Kimi B端負責人黃震昕透露，公司提供業界最高人均算力，B端業務快速增長，並在Token效率、長程推理及Agent集群等方面取得技術突破，目標是與海外頂尖模型競爭。他預測，雖然算力成本上漲推升模型價格，但技術優化將持續提升性價比。

5 小時前閱讀分析

雷峰網生成式AI

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

告別盲目刷榜，28頁 PPT 帶你摸透 ICML 新風向。作者丨陳淑瑜編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇，幾近翻倍。然而，最終的接收率卻牢牢釘在 26.56%，與去年幾乎持平。這一數據傳遞出一個明確的信號：並非競爭變得盲目激烈，而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前閱讀分析

智東西生成式AI

獨家：阿里全面禁用Claude

智東西作者 | 李水青編輯 | 雲鵬智東西7月3日獨家獲悉，今日，阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品，包括Sonnet、Opus、Fable等多個系列模型，以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前閱讀分析

智東西生成式AI

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資，阿里、騰訊、百度均參與投資，快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次，2025年營收約11億元，年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵，並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前閱讀分析

MarkTechPost AI生成式AI

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道，支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF，並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料，並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前閱讀分析

相關文章

Claude Fable 5，名存實亡

對話Kimi B端負責人黃震昕：把國產大模型搬上亞馬遜雲科技，未來與海外“御三家”掰手腕

算力之外的博弈：ICML 2026 透露了哪些學術硬通貨？

獨家：阿里全面禁用Claude

超190億！AI視頻最大單筆融資誕生，阿里騰訊百度都投了

RAG-Anything 教學：在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道