智東西生成式AI

一文看懂AI Agent的13大概念:涵蓋Harness、Scaffold、Tool和Skill等

2026年6月3日 11:16

重點摘要

AI應用風向標(公眾號:ZhidxcomAI) 編譯|畢偉豪 編輯|漠影 智東西6月3日報道,AI Agent圈子有個很尷尬的問題:大家在聊同一件事,用的卻是不同的詞;用同一個詞,指的卻是不同的東西。 ICLR 2026結束之後,Hugging Face工程師Aritra Roy Gosthipaty發了一條帖子,精準戳中了這個問題:“在Agent語境下,harness和scaffold到底是什麼意思?我在ICLR聽到過很多種解釋,但始終不明白為什麼沒有收斂到一個統一的定義。” 這個問題很快引起共鳴,Hugging Face的兩位工程師Sergio Paniego和Aritra,聯手發佈了一篇博客,這是一份專門解讀最容易被混用的那些概念的手冊,我通讀並編譯了全文,把其中最核心的框架拎了出來。 一、Model、Scaffolding和Harness,Agent的三層骨架 先把三個最容易搞混的概念區分開: Model,就是那個裸的大語言模型。Claude、GPT、Qwen、DeepSeek、Kimi,文本進去,文本出來。沒有記憶,沒有循環,不會主動做任何事。它可以“表達”調用工具的意圖,但真正去執行,需要別人幫它。 Scaffolding,是模型所“看到”的一切。系統提示詞怎麼寫、工具怎麼描述、輸出按什麼格式解析、跨步驟記住什麼,這些構成模型眼裡的世界,它塑造了模型的行為邊界,但本身不負責運行。 Harness,是真正讓模型“跑起來”的東西。調用模型、處理它返回的工具請求、判斷什麼時候停止,這個循環的引擎就是Harness。 對於Scaffolding和Harness的區別,文章給了一句極其簡潔的區分:Scaffolding是模型可感知的部分(提示詞、工具定義、輸出格式),Harness是驅動模型運行的部分(調用循環、工具執行、停止判斷)。 所以,精確定義下,Agent由三層構

站內 AI 整理稿

AI應用風向標(公眾號:ZhidxcomAI) 編譯|畢偉豪 編輯|漠影 智東西6月3日報道,AI Agent圈子有個很尷尬的問題:大家在聊同一件事,用的卻是不同的詞;用同一個詞,指的卻是不同的東西。 ICLR 2026結束之後,Hugging Face工程師Aritra Roy Gosthipaty發了一條帖子,精準戳中了這個問題:“在Agent語境下,harness和scaffold到底是什麼意思?我在ICLR聽到過很多種解釋,但始終不明白為什麼沒有收斂到一個統一的定義。” 這個問題很快引起共鳴,Hugging Face的兩位工程師Sergio Paniego和Aritra,聯手發佈了一篇博客,這是一份專門解讀最容易被混用的那些概念的手冊,我通讀並編譯了全文,把其中最核心的框架拎了出來。 一、Model、Scaffolding和Harness,Agent的三層骨架 先把三個最容易搞混的概念區分開: Model,就是那個裸的大語言模型。Claude、GPT、Qwen、DeepSeek、Kimi,文本進去,文本出來。沒有記憶,沒有循環,不會主動做任何事。它可以“表達”調用工具的意圖,但真正去執行,需要別人幫它。 Scaffolding,是模型所“看到”的一切。系統提示詞怎麼寫、工具怎麼描述、輸出按什麼格式解析、跨步驟記住什麼,這些構成模型眼裡的世界,它塑造了模型的行為邊界,但本身不負責運行。 Harness,是真正讓模型“跑起來”的東西。調用模型、處理它返回的工具請求、判斷什麼時候停止,這個循環的引擎就是Harness。 對於Scaffolding和Harness的區別,文章給了一句極其簡潔的區分:Scaffolding是模型可感知的部分(提示詞、工具定義、輸出格式),Harness是驅動模型運行的部分(調用循環、工具執行、停止判斷)。 所以,精確定義下,Agent由三層構成:Agent=Model+Scaffolding+Harness。 不過在社區日常討論中,有一個更簡化的說法:Agent=Model+Harness。Claude Code官方自己也說“Claude Code is the agentic harness around Claude”,這裡的Harness被當成了“除了模型以外的一切”來用。 兩位作者也坦率表示,日常聊天這麼講無傷大雅。但一旦進入訓練,把Scaffolding和Harness拆開審視就變得至關重要,訓練時,Scaffolding決定了模型學到什麼;推理時,Harness決定了模型怎麼跑。 Agent這個詞本身源自強化學習,在RL裡,Agent就是一個函數:接收觀察,返回動作。環境接收動作去執行,返還觀察結果,循環繼續。這個循環,就是今天所有LLM Agent的底層邏輯。 用編程Agent當例子最直觀:系統提示詞和工具描述是Scaffolding,真正完成調用模型、執行git diff、運行測試、判斷何時停止那個循環的,是Harness。訓練的時候,Harness還要並行跑成百上千個這樣的循環,把結果喂回去更新模型權重。 Sergio和Aritra特別點出了一件事:當人們聊Claude Code、Codex、Cursor這些產品時,他們說的是“一個特定的Harness+一個特定的模型”,兩者被一起設計、一起優化。 兩個產品就算底層用的是同一個模型,體感可以完全不同,因為它們的Harness做了不同選擇。反過來,同一個Harness換一個更強的模型,體驗也會變。 模型、Harness、產品,三個東西,不是一回事。 在這個框架之上,還有一個更高的概念叫Orchestrator。它是把多個Agent當作單元來調度,每個Agent跑自己的Harness,這對應到現在很火的多Agent協作模式。 二、Context Engineering決定Agent看什麼,Policy定義Agent的行為 Context Engineering(上下文工程)的核心問題是,Agent每一步看到什麼。除了寫系統提示詞,還要動態管理整個上下文窗口:系統提示詞、工具描述、對話歷史、檢索到的知識,每一步都可能不一樣。 它和Prompt Engineering的關鍵區別在於:不是一次性寫好就完了。隨著Agent運行,前幾輪的輸出會影響在後續調用中放入什麼,Harness需要在整個運行過程中主動管理上下文,包括刪什麼、留什麼、從哪裡檢索補充,不是寫個prompt而已。 對於上下文工程,訓練和推理的出錯代價天差地別,訓練時搞錯上下文,模型學到錯誤的東西,代價是重新訓練,推理時搞錯,可以修改提示詞然後重新開始即可。 記憶體系也被納入了上下文工程的框架。短期記憶是單次運行中留在上下文窗口裡的內容:對話歷史、工具返回結果、之前的推理鏈。長期記憶跨會話持久化,存在外部,需要時檢索回來注入上下文。兩者由Harness在同一套上下文管理邏輯中統一調度。 Policy是另一個容易被當成Agent同義詞的概念,文章明確做了切割,Policy是行為概率分佈,定義了Agent採取每種動作的概率。 Policy部分受模型權重影響,但最終行為也取決於Scaffolding和Harness,同一個模型,換一套提示詞、工具或執行循環,行為可以截然不同,Policy不是Agent,Policy定義行為。 三、Tool、Skills、Sub-agent層層遞進,以及訓練Agent的四個關鍵詞 Agent的能力體系是按層級遞進的,這三個詞雖然容易被混用,但代表了三個層級。 Tool Use是最底層。諸如API、代碼解釋器、數據庫、網絡搜索、文件系統等等,Agent通過這些接口觸及外部世界。模型只會以結構化的格式表達調用工具的意圖,API將其作為一等對象呈現,Harness接收調用並路由到正確的位置,返回結果進上下文,然後繼續循環。 Skills高一層。如果說Tool是最原始的一個動作,Skill就是一套可行的完整方案,比如研究這個bug、寫修復方案等。Skill可以跨Agent移植,按需加載。 Sub-agent是最高層。很多人把它當高級工具來用,但文章給了明確區分:Sub-agent有自己單獨的模型和Scaffold,能獨立推理、自己調工具,甚至能再調用新的Sub-agent,這是它和Tool以及Skill的本質差異。 文章也坦率承認:Tool、Skills、Sub-agent之間的邊界,在不同框架裡不太一樣。 如果切換到訓練視角,還有四個概念是訓練Agent過程的關鍵所在: RL Environment,指Agent在訓練時可以與之交互的任何系統。它的工作方式是:Agent向它發出一個動作(比如執行一條命令),它執行這個動作、更新自身狀態,然後把新的狀態信息返回給Agent。 一個文件系統就是最直觀的例子:Agent發出touch foo.txt這個動作,環境執行它、創建了文件,然後把更新後的文件列表作為反饋返回。 Trainer,負責讓Agent的能力逐步提升。它做的事情分三步:第一,讓Agent反覆執行完整任務,跑很多輪;第二,對每一輪的結果打分;第三,用這些分數來更新Agent內部模型的權重參數,讓下一次執行更接近正確答案。整個過程是自動循環的。 Rollout,指Agent完成一次完整任務的全程記錄。裡面包含三個部分:Agent在每一步看到了什麼信息、它據此做出了什麼動作、每一步得到了多少分。這份記錄也被稱為trajectory或trace,本質上就是算法通過分析大量這樣的記錄,找到讓分數變高的行為模式。 Reward,一個數值分數,用來告訴訓練算法“這次做得怎麼樣”。它有好幾種形式。 可驗證獎勵:有標準答案,比如代碼測試跑通了就是1,跑不通就是0。 學習型獎勵:沒有標準答案,需要人來打分或讓另一個LLM來評判。 稀疏獎勵:整個任務做完才給一個總分。 密集獎勵:任務過程中每一步都給一個分數。 結語:Agent爆火的時代,講清楚基礎概念尤為重要 這篇文章不是什麼顛覆性研究,它是那種早就該有人做,但一直沒人做的基礎工作。 Sergio和Aritra在文章中寫道:“這篇文章的目標不是推行唯一正確的詞彙,而是提供一個實用的思維模式。”當一個領域快速發展時,其術語的演變速度往往超過其共識的形成速度。 在Claude Code、Codex、Hermes Agent、Cursor等等,用各自的詞說各自的事的時候,一份中立的術語手冊的價值就凸顯出來了。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前