Microsoft Research Releases Webwright: A Terminal-Native Web Agent Framework That Scores 60.1% on Odysseys, Up from Base GPT-5.4’s 33.5%

重點摘要
微軟研究團隊推出開源框架 Webwright,讓網頁代理透過終端機撰寫 Playwright 程式碼來控制瀏覽器,而非傳統的逐動作操控方式。該框架將代理與瀏覽器分離
微軟研究院近日發表了一個全新的開源框架 Webwright,有別於傳統網頁代理(web agent)逐一操作瀏覽器的方式,它讓代理直接透過終端機撰寫 Playwright 程式碼來控制瀏覽器,大幅提升任務執行效率。根據官方公布的測試結果,Webwright 在長程瀏覽任務基準 Odysseys 上取得 60.1% 的成績,遠高於基礎 GPT-5.4 的 33.5%,相當於提升了近八成的相對表現。
過去網頁代理的設計思路是讓語言模型接收當前頁面狀態(如螢幕截圖或 DOM 文字),然後預測下一步的點擊、按鍵或滾動。這種一步一動作的模式在語言模型推理能力有限時還能運作,但隨著模型越來越擅長撰寫與除錯程式碼,這種僵化的循環反而成為限制。微軟研究院 AI Frontiers 實驗室認為,代理不該被綁死在即時瀏覽器工作階段中,而應該像開發者撰寫 RPA 腳本那樣,專注於編寫可重複執行、可修改的程式碼。
Webwright 的核心概念是將代理與瀏覽器分離。代理不再直接操控瀏覽器,而是透過終端機環境執行 Playwright 程式碼來啟動、檢查甚至銷毀瀏覽器執行個體。架構上包含三個主要組件:Runner、Model Endpoint 與終端機環境。Runner 僅約 150 行程式碼,模型介面約 550 行,環境約 300 行,整體設計十分精簡,沒有複雜的多代理協作或規劃層級,只有單一代理循環。所有中間產物(程式碼、日誌、截圖與結果)都存放在工作目錄中,便於開發者逐次檢視。
在代理循環中,Runner 會將當前情境傳給模型,模型回傳思考區塊與一條 shell 指令。該指令在終端機環境中執行,並產生輸出、日誌、截圖或錯誤追蹤。這些觀察結果又會放回情境中,循環繼續。由於代理撰寫的是完整的程式碼,它可以用迴圈、函式與抽象化來處理多步驟任務(例如填寫整個表單),不必反覆預測低階動作序列。不過這種開放式設計也帶來兩個工程挑戰:代理可能過早宣稱任務完成,以及長程程式碼容易超出情境長度限制。為此他們加入了自我反射機制——代理必須產生一份設定檔,在全新資料夾中執行最終腳本,並通過自己的判斷輸出成功或失敗才能標記完成;同時每 20 步會將歷史壓縮成一份摘要來控制情境長度。
Webwright 在兩個基準上進行測試。在 Online-Mind2Web 的 300 項任務中,採用 GPT-5.4 的 Webwright 在傳統截圖座標預測的基礎上取得全面進步,驗證了程式碼驅動的終端機方法優於逐步座標預測。在更貼近真實場景的 Odysseys 基準中,任務平均指令長達 272 個單詞,橫跨多個網站。Webwright 搭配 GPT-5.4 達到 60.1%,不僅超越先前最佳模型 Opus 4.6 的 44.5%,也比基礎 GPT-5.4 的 33.5% 高出 26.6 個百分點。
就成本效益而言,雖然 Claude Opus 4.7 的執行步驟略少於 GPT-5.4,但其每百萬輸入與輸出 token 價格遠高於 GPT-5.4,導致每項任務平均成本高出一倍以上。Webwright 的開放原始碼作法讓更多團隊能夠複製並改進這套方法,未來讀者可關注的後續發展包括:該框架是否會整合進瀏覽器自動化工具鏈、能否在更多真實商業場景中落地、以及微軟是否會針對情境壓縮與自我反射機制提出更通用的解決方案。對於關注 AI 代理與網頁自動化的開發者來說,Webwright 提供了一個輕量、可詮釋且具備擴展性的新典範。
Related
相關文章
網易有道全面向AI轉型 全場景Agent矩陣亮相圖博會
{"id":"39ef5947-b77a-4904-bf03-ff6264f08dc4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":154,"output_tokens":200,"total_tokens":354}}
MosaicLeaks: Can your research agent keep a secret?
Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding
這篇消息聚焦「騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding」。原始導語提到:已接入華為鴻蒙生態 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Agent引爆網盤大戰,騰訊、百度、阿里齊聚,這次爭的不再是下載速度
這篇消息聚焦「Agent引爆網盤大戰,騰訊、百度、阿里齊聚,這次爭的不再是下載速度」。原始導語提到:網盤成了Agent新基建。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

21年老牌企服公司的AI實驗:讓Agent跑一遍流程
這篇消息聚焦「21年老牌企服公司的AI實驗:讓Agent跑一遍流程」。原始導語提到:司盟企服接入騰訊雲WorkBuddy後,將海外郵件管理、審計理賬、訂單審核等高頻交付流程交給Agent先跑一遍 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
曹操出行宣佈啟動全面AI轉型,組織升級向AI原生公司邁進
曹操出行在2026國際汽車及供應鏈博覽會 上宣佈啟動全面AI轉型,併發布RoboX戰略,打造全球領先的物理AI移動科技平臺。與此同時,公司正式啟動組織升級,加快向AI原生公司邁進。為推動全面AI轉型,今年上半年,公司推進戰略聚焦,持續優化業務結構,主動收縮非核心業務,加快向AI原生公司轉型。