Agent自進化新範式:孫立超團隊提出OpenSkill,刷新多項基準SOTA

2026年6月8日 21:29
Agent自進化新範式:孫立超團隊提出OpenSkill,刷新多項基準SOTA

重點摘要

這篇消息聚焦「Agent自進化新範式:孫立超團隊提出OpenSkill,刷新多項基準SOTA」。原始導語提到:讓Agent自進化不再依賴目標任務監督 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

# 讓AI不再只能「餵答案」:孫立超團隊提出OpenSkill,開創Agent自進化全新範式

## 一個困住AI多年的難題,終於迎來突破

在過去的幾年間,讓AI Agent擁有持續學習與自我進化的能力,一直是人工智慧領域最受矚目的研究方向之一。然而,絕大多數現有的自進化方法都建立在一個不太現實的假設之上:它們需要大量「事先準備好的學習素材」,像是人工標註的成功軌跡、現成的技能庫,或是明確的驗證反饋信號。

但問題在於,當一個AI Agent真正被部署到真實世界之後,這些「學習前提」往往難以同時滿足。沒有現成技能可以參考,沒有標準答案可以對照,更沒有老師在旁邊即時告訴它「這樣做是對的還是錯的」。這使得大多數自進化Agent一旦離開實驗室環境,就失去了繼續累積經驗與迭代進步的能力,形成了一個難以突破的瓶頸。

里海大學電腦科學與工程系助理教授孫立超,帶領團隊針對這個問題提出了名為OpenSkill的全新框架,並在論文預印本平台arXiv上公開發表,同時開放GitHub資源供學術社群下載使用。

## OpenSkill的核心突破:從「老師給答案」到「自己找方法」

OpenSkill最核心的突破在於——它完全擺脫了對目標任務監督信號的依賴。換句話說,Agent不再需要任何人告訴它「正確答案是什麼」,而是自己從開放的網路世界中尋找線索、建構驗證機制,並在反覆試錯中讓能力逐步成長。

這種「開放世界自進化」的設定,更貼近真實世界的運作方式。團隊將OpenSkill設計為一套完整的三階段流程:首先,從網路上的文件、程式碼儲存庫、API使用說明和最佳實踐範例中,檢索出與任務相關的背景知識與驗證參考點;接著,基於這些知識自動生成候選的「技能」,並透過自己建立的虛擬測試來反覆驗證、找出問題、修補漏洞;最後,將完成進化的技能以顯式檔案的形式部署到目標Agent上,並在真實測試集中進行最終驗證。

整個過程中,真實測試集的標準答案從未進入技能的建構與迭代階段,形成了一道嚴格的「資訊隔離牆」,確保學到的技能並非來自於對答案的記憶或過度擬合,而是真正經由自主探索與實證檢驗所得。

## 多項基準全面刷新,表現逼近人類上限

OpenSkill的有效性已經在多個極具挑戰性的基準測試上獲得驗證。根據團隊公布的研究結果,在SkillsBench這個涵蓋11個不同領域的綜合性測試平台上,OpenSkill協助Opus 4.6模型將整體通過率提升至43.6%,協助GPT 5.2提升至42.1%,比起當時最強的閉源基線方法,分別高出8.9和8.8個百分點。

更值得關注的是,OpenSkill在Opus 4.6上的表現,距離人類參考上限僅差1至3個百分點。換言之,一個完全不需要任務目標監督的自進化Agent,已經在部分任務上幾乎追上了人類專家的水準。同樣亮眼的成績也出現在SocialMaze與ScienceWorld這兩個基準測試上,Opus 4.6的通過率分別達到82.7%與90.0%。在四組不同的設置中,OpenSkill都是所有自動化方法中表現最佳的那一個。

## 跨模型遷移能力:讓強者練出來的技能,弱者也用得上

除了「學會新技能」之外,OpenSkill還展現了另一項極具實用價值的特性——技能遷移能力。研究團隊將由Opus 4.6這個高性能模型所生成的技能,直接遷移到Haiku 4.5、Qwen 3Coder、DeepSeek V3與Mistral Large 3等四個性能相對較弱的模型上,在完全不需要額外調整或重新訓練的情況下進行測試。

結果顯示,即便是在這些較弱的模型上,OpenSkill生成的技能仍然帶來了顯著的效益提升,比起完全沒有技能輔助的基線,進步幅度落在5.5到14.8個百分點之間。這個發現具有重要的實踐意義:未來,訓練一個強大的模型來生成高品質的技能,然後讓這些技能廣泛地被各種不同規模的模型所使用,有望大幅降低AI能力部署的門檻與成本。

此外,團隊透過消融實驗也發現,將技能進化迭代控制在三個循環內,能夠取得最佳的效益與成本平衡。

## 為什麼「無需監督」這件事如此重要?

從更宏觀的產業視角來看,OpenSkill所代表的不僅是一篇技術論文,更是一整套關於AI Agent發展路線的重要轉向。過去幾年間,大型語言模型的競賽主要圍繞著參數規模與預訓練資料的規模展開;但進入2026年,許多頂尖研究團隊已經逐步將重心轉移到Agent的基礎設施建設上,包括記憶系統、技能生態、工具調用與多Agent協作機制等。

自進化能力正是這個新方向的核心之一。OpenSkill選擇了一條與眾不同的路徑:它的學習訊號不是來自於標註者的辛勤勞動,而是來自於開放的資訊世界本身——從文件、原始碼與跨領域的最佳實踐中提煉出可驗證、可執行的知識。這種「從開放世界學、在開放世界練」的模式,有機會讓AI Agent真正具備長期自主成長的能力,也為更大規模的AI技能生態體系奠定了技術基礎。

## 接下來可以關注哪些後續發展?

對於讀者而言,OpenSkill後續的發展有幾個值得特別關注的方向。首先,該團隊已經在GitHub上公開了OpenSkill的專案頁面,程式碼預計將陸續釋出,屆時開發者可以實際動手嘗試,將這套框架應用到自己的任務場景中。其次,OpenSkill團隊也計劃發布技能庫與額外的評測資源,值得持續追蹤。

更長遠來看,這項技術是否能夠從實驗室基準走向真實世界的產品應用,會是接下來最大的觀察重點。一個能夠不依賴監督訊號、自主成長的AI Agent,未來可能會徹底改變軟體開發、自動化流程甚至科學研究等領域的工作方式。孫立超團隊的這項研究,或許正是這扇門被推開的第一道縫隙。

Related

相關文章

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

17 小時前
量子位AI Agent

騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding

這篇消息聚焦「騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding」。原始導語提到:已接入華為鴻蒙生態 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前

21年老牌企服公司的AI實驗:讓Agent跑一遍流程

這篇消息聚焦「21年老牌企服公司的AI實驗:讓Agent跑一遍流程」。原始導語提到:司盟企服接入騰訊雲WorkBuddy後,將海外郵件管理、審計理賬、訂單審核等高頻交付流程交給Agent先跑一遍 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前
TechWebAI Agent

曹操出行宣佈啟動全面AI轉型,組織升級向AI原生公司邁進

曹操出行在2026國際汽車及供應鏈博覽會 上宣佈啟動全面AI轉型,併發布RoboX戰略,打造全球領先的物理AI移動科技平臺。與此同時,公司正式啟動組織升級,加快向AI原生公司邁進。為推動全面AI轉型,今年上半年,公司推進戰略聚焦,持續優化業務結構,主動收縮非核心業務,加快向AI原生公司轉型。

21 小時前