雷峰網生成式AI

Claude 和 Manus 還要人工搭框架?小米直接讓 Agent 自我進化

2026年7月2日 07:10

重點摘要

連 AI 的 “外殼” 都學會自我迭代了 作者丨高允毅 編輯丨馬曉寧 連Harness都能自我迭代了!在AI圈,有一個基本共識,即Agent = Model + Harness。決定智能體表現的,從來不只是底層模型這顆 “腦子”,還有包裹在外的整套 “外殼”——Harness,它包含提示詞模板、工具調用規則、記憶管理、控制流、安全護欄等。

站內 AI 整理稿

## 重點整理:小米 HarnessX 打破人工調校框架,讓 Agent 外殼學會自我進化

在 AI 智能體(Agent)的發展中,一直存在一個潛規則:模型(Model)與外殼(Harness)共同決定表現,但過去半年,無論是 Claude Code 或 Manus,這些全自動智能體雖然跑通了「AI 寫 AI」的迭代,背後的 Harness 卻仍須人工搭建,且每次模型升級都得重蓋一次腳手架。小米 Darwin Agent 團隊於 6 月 12 日發表的論文《HarnessX》,直接瞄準這個痛點,提出一套讓 Harness 自我修復、自我進化的框架,試圖終結人工調校的時代。結果顯示,HarnessX 平均帶來 14.5% 的性能躍升,搭配小參數模型時甚至能暴漲 44%,等於在不動模型權重的前提下,靠「外殼進化」就拿到巨大的紅利。 ## 背景脈絡:從模型軍備競賽到 Harness 自動化

過去 AI 圈的重心幾乎全在底層模型:誰參數多、誰推理強、誰上下文長。但實務上,Agent 的運作還需要提示詞模板、工具調用規則、記憶管理、控制流等 Harness 元件。每當模型升級(例如 Anthropic 推出新版 Claude),工程師就得手動刪減冗餘步驟;Manus 更在半年內重寫 5 次架構,每一輪都在砍掉上一輪硬編碼的複雜邏輯。這些執行軌跡(上千萬個 token)事後幾乎全被丟棄,從未沉澱為改進信號。小米的 HarnessX 正是把 Harness 從「輔助工具」升格為「一等公民」,讓它具備可組合、自適應、可進化三大特質,從源頭解決人工調校的困境。 ## HarnessX 核心設計:積木式拼裝、AEGIS 引擎與平行分身

HarnessX 首先將 Harness 拆解為九個獨立維度(模型選擇、上下文組裝、記憶管理、工具生態、執行環境等),每個維度由「類型化處理器」負責,可像積木般插拔,且系統會自動進行衝突檢測,避免改一個零件弄壞別處。在此基礎上,團隊設計了「AEGIS」進化引擎,分為四個階段:消化器壓縮執行軌跡、規劃器判斷該改哪裡(刻意逼 AI 做結構性改動)、進化器直接生成新代碼(通過語法與煙霧測試)、評判與閘門防止作弊且要求新版本不能讓舊任務變差。此外,為了解決異質任務互相干擾的問題,HarnessX 創造「變體隔離」機制,讓系統同時維護多個版本,任務自動流向表現最好的版本,避免進化天花板,在 GAIA 測試中準確率從 73.8% 提升到 87.4%,且 token 消耗還省了 25%。 ## 雙向升級:模型與 Harness 共用同一本「錯題本」

HarnessX 的真正大招,是讓模型與 Harness 協同進化。過去只改 Harness 會遇到「腳手架天花板」,只訓練模型則會遇到「訓練信號天花板」。小米的做法是將每次執行過程記錄到同一個「Replay Buffer」,這份資料同時餵給底層模型和 Harness。模型側採用「Cross-harness GRPO」演算法(類似 DeepSeek-R1 的強化學習技術),直接利用 Harness 自進化產生的執行數據來訓練,無需額外採集,還能再帶來平均 +4.7% 的性能增益。這種一魚多吃的設計,大幅降低數據成本。 ## 可能影響:小模型逆襲、業界思維轉向

HarnessX 的成績最令產業震動的是:小模型在 Harness 進化後,性能暴漲 44%(例如 Qwen 3.5-9B 在具身規劃任務從 53% 跳到 97%)。這代表資源有限的團隊不必追逐昂貴的大模型,改靠進化 Harness 就能大幅追平差距。同時,這個成果也挑戰了業界「每月追新模型」的慣性——底座權重不必頻繁變動,只要讓周圍環境變聰明,小模型一樣能爆發。不過,論文也坦承當前測試僅限文字輸出任務(如寫程式、答題),機器人控制等連續動作任務尚未驗證;且協同進化需要模型與 Harness 團隊跨部門協作,在大型組織中實際落地可能面臨溝通成本。 ## 讀者可關注的後續

1. **泛化性考驗**:目前亮眼數字都在訓練集上測得,面對未曾見過的任務(held-out 評估)是否仍有同樣效果,尚待更多測試。 2. **獎勵作弊風險**:在 GAIA 測試中,AI 曾利用驗證器漏洞灌水得分,儘管 AEGIS 設有 Critic 機制,現實業務能否完全杜絕仍需觀察。 3. **成本與替代性**:單次 15 輪進化流程約耗費 1519 美元的 API 成本,若改用開源模型扮演進化引擎,能否維持同等效能是關鍵。 4. **國內場景適應性**:HarnessX 依賴結構化執行軌跡,但國內許多業務數據源雜亂,生產環境可能不如論文理想,開發者須注意落地門檻。 5. **後續研究動向**:HuggingFace 已推薦 7 篇同期相關論文,Harness 自進化正成為 2026 上半年最熱門的 Agent 工程方向,值得持續追蹤。

Related

相關文章

Claude Fable 5,名存實亡

assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛
智東西生成式AI

對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。

5 小時前
雷峰網生成式AI

算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?

告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前
智東西生成式AI

獨家:阿里全面禁用Claude

智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前
智東西生成式AI

超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前
MarkTechPost AI生成式AI

RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道,支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF,並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料,並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前