一文看懂AI Agent的13大概念：涵蓋Harness、Scaffold、Tool和Skill等

2026年6月3日 11:16

重點摘要

站內 AI 整理稿

AI應用風向標（公眾號：ZhidxcomAI）編譯｜畢偉豪編輯｜漠影智東西6月3日報道，AI Agent圈子有個很尷尬的問題：大家在聊同一件事，用的卻是不同的詞；用同一個詞，指的卻是不同的東西。 ICLR 2026結束之後，Hugging Face工程師Aritra Roy Gosthipaty發了一條帖子，精準戳中了這個問題：“在Agent語境下，harness和scaffold到底是什麼意思？我在ICLR聽到過很多種解釋，但始終不明白為什麼沒有收斂到一個統一的定義。” 這個問題很快引起共鳴，Hugging Face的兩位工程師Sergio Paniego和Aritra，聯手發佈了一篇博客，這是一份專門解讀最容易被混用的那些概念的手冊，我通讀並編譯了全文，把其中最核心的框架拎了出來。一、Model、Scaffolding和Harness，Agent的三層骨架先把三個最容易搞混的概念區分開： Model，就是那個裸的大語言模型。Claude、GPT、Qwen、DeepSeek、Kimi，文本進去，文本出來。沒有記憶，沒有循環，不會主動做任何事。它可以“表達”調用工具的意圖，但真正去執行，需要別人幫它。 Scaffolding，是模型所“看到”的一切。系統提示詞怎麼寫、工具怎麼描述、輸出按什麼格式解析、跨步驟記住什麼，這些構成模型眼裡的世界，它塑造了模型的行為邊界，但本身不負責運行。 Harness，是真正讓模型“跑起來”的東西。調用模型、處理它返回的工具請求、判斷什麼時候停止，這個循環的引擎就是Harness。對於Scaffolding和Harness的區別，文章給了一句極其簡潔的區分：Scaffolding是模型可感知的部分（提示詞、工具定義、輸出格式），Harness是驅動模型運行的部分（調用循環、工具執行、停止判斷）。所以，精確定義下，Agent由三層構成：Agent=Model+Scaffolding+Harness。不過在社區日常討論中，有一個更簡化的說法：Agent=Model+Harness。Claude Code官方自己也說“Claude Code is the agentic harness around Claude”，這裡的Harness被當成了“除了模型以外的一切”來用。兩位作者也坦率表示，日常聊天這麼講無傷大雅。但一旦進入訓練，把Scaffolding和Harness拆開審視就變得至關重要，訓練時，Scaffolding決定了模型學到什麼；推理時，Harness決定了模型怎麼跑。 Agent這個詞本身源自強化學習，在RL裡，Agent就是一個函數：接收觀察，返回動作。環境接收動作去執行，返還觀察結果，循環繼續。這個循環，就是今天所有LLM Agent的底層邏輯。用編程Agent當例子最直觀：系統提示詞和工具描述是Scaffolding，真正完成調用模型、執行git diff、運行測試、判斷何時停止那個循環的，是Harness。訓練的時候，Harness還要並行跑成百上千個這樣的循環，把結果喂回去更新模型權重。 Sergio和Aritra特別點出了一件事：當人們聊Claude Code、Codex、Cursor這些產品時，他們說的是“一個特定的Harness+一個特定的模型”，兩者被一起設計、一起優化。兩個產品就算底層用的是同一個模型，體感可以完全不同，因為它們的Harness做了不同選擇。反過來，同一個Harness換一個更強的模型，體驗也會變。模型、Harness、產品，三個東西，不是一回事。在這個框架之上，還有一個更高的概念叫Orchestrator。它是把多個Agent當作單元來調度，每個Agent跑自己的Harness，這對應到現在很火的多Agent協作模式。二、Context Engineering決定Agent看什麼，Policy定義Agent的行為 Context Engineering（上下文工程）的核心問題是，Agent每一步看到什麼。除了寫系統提示詞，還要動態管理整個上下文窗口：系統提示詞、工具描述、對話歷史、檢索到的知識，每一步都可能不一樣。它和Prompt Engineering的關鍵區別在於：不是一次性寫好就完了。隨著Agent運行，前幾輪的輸出會影響在後續調用中放入什麼，Harness需要在整個運行過程中主動管理上下文，包括刪什麼、留什麼、從哪裡檢索補充，不是寫個prompt而已。對於上下文工程，訓練和推理的出錯代價天差地別，訓練時搞錯上下文，模型學到錯誤的東西，代價是重新訓練，推理時搞錯，可以修改提示詞然後重新開始即可。記憶體系也被納入了上下文工程的框架。短期記憶是單次運行中留在上下文窗口裡的內容：對話歷史、工具返回結果、之前的推理鏈。長期記憶跨會話持久化，存在外部，需要時檢索回來注入上下文。兩者由Harness在同一套上下文管理邏輯中統一調度。 Policy是另一個容易被當成Agent同義詞的概念，文章明確做了切割，Policy是行為概率分佈，定義了Agent採取每種動作的概率。 Policy部分受模型權重影響，但最終行為也取決於Scaffolding和Harness，同一個模型，換一套提示詞、工具或執行循環，行為可以截然不同，Policy不是Agent，Policy定義行為。三、Tool、Skills、Sub-agent層層遞進，以及訓練Agent的四個關鍵詞 Agent的能力體系是按層級遞進的，這三個詞雖然容易被混用，但代表了三個層級。 Tool Use是最底層。諸如API、代碼解釋器、數據庫、網絡搜索、文件系統等等，Agent通過這些接口觸及外部世界。模型只會以結構化的格式表達調用工具的意圖，API將其作為一等對象呈現，Harness接收調用並路由到正確的位置，返回結果進上下文，然後繼續循環。 Skills高一層。如果說Tool是最原始的一個動作，Skill就是一套可行的完整方案，比如研究這個bug、寫修復方案等。Skill可以跨Agent移植，按需加載。 Sub-agent是最高層。很多人把它當高級工具來用，但文章給了明確區分：Sub-agent有自己單獨的模型和Scaffold，能獨立推理、自己調工具，甚至能再調用新的Sub-agent，這是它和Tool以及Skill的本質差異。文章也坦率承認：Tool、Skills、Sub-agent之間的邊界，在不同框架裡不太一樣。如果切換到訓練視角，還有四個概念是訓練Agent過程的關鍵所在： RL Environment，指Agent在訓練時可以與之交互的任何系統。它的工作方式是：Agent向它發出一個動作（比如執行一條命令），它執行這個動作、更新自身狀態，然後把新的狀態信息返回給Agent。一個文件系統就是最直觀的例子：Agent發出touch foo.txt這個動作，環境執行它、創建了文件，然後把更新後的文件列表作為反饋返回。 Trainer，負責讓Agent的能力逐步提升。它做的事情分三步：第一，讓Agent反覆執行完整任務，跑很多輪；第二，對每一輪的結果打分；第三，用這些分數來更新Agent內部模型的權重參數，讓下一次執行更接近正確答案。整個過程是自動循環的。 Rollout，指Agent完成一次完整任務的全程記錄。裡面包含三個部分：Agent在每一步看到了什麼信息、它據此做出了什麼動作、每一步得到了多少分。這份記錄也被稱為trajectory或trace，本質上就是算法通過分析大量這樣的記錄，找到讓分數變高的行為模式。 Reward，一個數值分數，用來告訴訓練算法“這次做得怎麼樣”。它有好幾種形式。可驗證獎勵：有標準答案，比如代碼測試跑通了就是1，跑不通就是0。學習型獎勵：沒有標準答案，需要人來打分或讓另一個LLM來評判。稀疏獎勵：整個任務做完才給一個總分。密集獎勵：任務過程中每一步都給一個分數。結語：Agent爆火的時代，講清楚基礎概念尤為重要這篇文章不是什麼顛覆性研究，它是那種早就該有人做，但一直沒人做的基礎工作。 Sergio和Aritra在文章中寫道：“這篇文章的目標不是推行唯一正確的詞彙，而是提供一個實用的思維模式。”當一個領域快速發展時，其術語的演變速度往往超過其共識的形成速度。在Claude Code、Codex、Hermes Agent、Cursor等等，用各自的詞說各自的事的時候，一份中立的術語手冊的價值就凸顯出來了。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析