Agent自進化新範式：孫立超團隊提出OpenSkill，刷新多項基準SOTA

2026年6月8日 21:29

重點摘要

這篇消息聚焦「Agent自進化新範式：孫立超團隊提出OpenSkill，刷新多項基準SOTA」。原始導語提到：讓Agent自進化不再依賴目標任務監督從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

# 讓AI不再只能「餵答案」：孫立超團隊提出OpenSkill，開創Agent自進化全新範式

## 一個困住AI多年的難題，終於迎來突破

在過去的幾年間，讓AI Agent擁有持續學習與自我進化的能力，一直是人工智慧領域最受矚目的研究方向之一。然而，絕大多數現有的自進化方法都建立在一個不太現實的假設之上：它們需要大量「事先準備好的學習素材」，像是人工標註的成功軌跡、現成的技能庫，或是明確的驗證反饋信號。

但問題在於，當一個AI Agent真正被部署到真實世界之後，這些「學習前提」往往難以同時滿足。沒有現成技能可以參考，沒有標準答案可以對照，更沒有老師在旁邊即時告訴它「這樣做是對的還是錯的」。這使得大多數自進化Agent一旦離開實驗室環境，就失去了繼續累積經驗與迭代進步的能力，形成了一個難以突破的瓶頸。

里海大學電腦科學與工程系助理教授孫立超，帶領團隊針對這個問題提出了名為OpenSkill的全新框架，並在論文預印本平台arXiv上公開發表，同時開放GitHub資源供學術社群下載使用。

## OpenSkill的核心突破：從「老師給答案」到「自己找方法」

OpenSkill最核心的突破在於——它完全擺脫了對目標任務監督信號的依賴。換句話說，Agent不再需要任何人告訴它「正確答案是什麼」，而是自己從開放的網路世界中尋找線索、建構驗證機制，並在反覆試錯中讓能力逐步成長。

這種「開放世界自進化」的設定，更貼近真實世界的運作方式。團隊將OpenSkill設計為一套完整的三階段流程：首先，從網路上的文件、程式碼儲存庫、API使用說明和最佳實踐範例中，檢索出與任務相關的背景知識與驗證參考點；接著，基於這些知識自動生成候選的「技能」，並透過自己建立的虛擬測試來反覆驗證、找出問題、修補漏洞；最後，將完成進化的技能以顯式檔案的形式部署到目標Agent上，並在真實測試集中進行最終驗證。

整個過程中，真實測試集的標準答案從未進入技能的建構與迭代階段，形成了一道嚴格的「資訊隔離牆」，確保學到的技能並非來自於對答案的記憶或過度擬合，而是真正經由自主探索與實證檢驗所得。

## 多項基準全面刷新，表現逼近人類上限

OpenSkill的有效性已經在多個極具挑戰性的基準測試上獲得驗證。根據團隊公布的研究結果，在SkillsBench這個涵蓋11個不同領域的綜合性測試平台上，OpenSkill協助Opus 4.6模型將整體通過率提升至43.6%，協助GPT 5.2提升至42.1%，比起當時最強的閉源基線方法，分別高出8.9和8.8個百分點。

更值得關注的是，OpenSkill在Opus 4.6上的表現，距離人類參考上限僅差1至3個百分點。換言之，一個完全不需要任務目標監督的自進化Agent，已經在部分任務上幾乎追上了人類專家的水準。同樣亮眼的成績也出現在SocialMaze與ScienceWorld這兩個基準測試上，Opus 4.6的通過率分別達到82.7%與90.0%。在四組不同的設置中，OpenSkill都是所有自動化方法中表現最佳的那一個。

## 跨模型遷移能力：讓強者練出來的技能，弱者也用得上

除了「學會新技能」之外，OpenSkill還展現了另一項極具實用價值的特性——技能遷移能力。研究團隊將由Opus 4.6這個高性能模型所生成的技能，直接遷移到Haiku 4.5、Qwen 3Coder、DeepSeek V3與Mistral Large 3等四個性能相對較弱的模型上，在完全不需要額外調整或重新訓練的情況下進行測試。

結果顯示，即便是在這些較弱的模型上，OpenSkill生成的技能仍然帶來了顯著的效益提升，比起完全沒有技能輔助的基線，進步幅度落在5.5到14.8個百分點之間。這個發現具有重要的實踐意義：未來，訓練一個強大的模型來生成高品質的技能，然後讓這些技能廣泛地被各種不同規模的模型所使用，有望大幅降低AI能力部署的門檻與成本。

此外，團隊透過消融實驗也發現，將技能進化迭代控制在三個循環內，能夠取得最佳的效益與成本平衡。

## 為什麼「無需監督」這件事如此重要？

從更宏觀的產業視角來看，OpenSkill所代表的不僅是一篇技術論文，更是一整套關於AI Agent發展路線的重要轉向。過去幾年間，大型語言模型的競賽主要圍繞著參數規模與預訓練資料的規模展開；但進入2026年，許多頂尖研究團隊已經逐步將重心轉移到Agent的基礎設施建設上，包括記憶系統、技能生態、工具調用與多Agent協作機制等。

自進化能力正是這個新方向的核心之一。OpenSkill選擇了一條與眾不同的路徑：它的學習訊號不是來自於標註者的辛勤勞動，而是來自於開放的資訊世界本身——從文件、原始碼與跨領域的最佳實踐中提煉出可驗證、可執行的知識。這種「從開放世界學、在開放世界練」的模式，有機會讓AI Agent真正具備長期自主成長的能力，也為更大規模的AI技能生態體系奠定了技術基礎。

## 接下來可以關注哪些後續發展？

對於讀者而言，OpenSkill後續的發展有幾個值得特別關注的方向。首先，該團隊已經在GitHub上公開了OpenSkill的專案頁面，程式碼預計將陸續釋出，屆時開發者可以實際動手嘗試，將這套框架應用到自己的任務場景中。其次，OpenSkill團隊也計劃發布技能庫與額外的評測資源，值得持續追蹤。

更長遠來看，這項技術是否能夠從實驗室基準走向真實世界的產品應用，會是接下來最大的觀察重點。一個能夠不依賴監督訊號、自主成長的AI Agent，未來可能會徹底改變軟體開發、自動化流程甚至科學研究等領域的工作方式。孫立超團隊的這項研究，或許正是這扇門被推開的第一道縫隙。

原始來源：36氪 ↗

查看原始來源

TechWebAI Agent

網易有道全面向AI轉型全場景Agent矩陣亮相圖博會

{"id":"39ef5947-b77a-4904-bf03-ff6264f08dc4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":154,"output_tokens":200,"total_tokens":354}}

剛剛閱讀分析

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

17 小時前閱讀分析