AIBaseAI Agent

告別“代碼重構”焦慮:阿里開源 Page Agent,讓大模型讀懂網頁底層邏輯

2026年7月3日 10:4510900 次瀏覽

重點摘要

阿里巴巴開源 Page Agent,改變瀏覽器自動化方式,讓大模型直接解析網頁結構,而非依賴外部截圖或協議驅動。此工具能動態適應網頁變化,有效解決開發者反覆「造輪子」的困境。

站內 AI 整理稿

### 阿里開源 Page Agent:告別「造輪子」焦慮,讓 AI 真正讀懂網頁

阿里巴巴近期開源了一項名為 **Page Agent** 的工具,引發瀏覽器自動化領域的關注。不同於過去依賴截圖或固定協定的自動化方案,Page Agent 的核心亮點在於:它讓大型語言模型(LLM)直接解析網頁的原始結構,從而動態適應頁面變化。這項技術有望從根本上解決開發者在維護自動化腳本時反覆重寫程式碼的痛點,真正告別「每次改版都要重構」的焦慮。 ### 重點整理:從「看截圖」到「讀源碼」

傳統的瀏覽器自動化工具(如 Selenium、Puppeteer),本質上是透過固定的 CSS 選擇器或 XPath 來定位網頁元素。一旦網站進行版面調整或結構優化,這些寫死的路徑就會失效,開發者必須手動比對新頁面、重新尋找元素位置,導致「造輪子」的惡性循環。Page Agent 的創新在於:它繞過截圖辨識或預先定義的協定,直接將網頁的 **DOM 樹(文件物件模型)** 餵給大模型。模型透過理解標籤的層級關係與屬性,即時推算出目前需要操作的區塊在哪裡——就算版面變動,只要底層邏輯一致,腳本就能自動適應。 ### 背景脈絡:為何瀏覽器自動化總讓人頭痛? 過去十年,企業在爬蟲、自動化測試、RPA(機器人流程自動化)等場景大量使用瀏覽器自動化技術,但始終面臨「脆皮」問題。程式碼往往因為網站一次小小的改版就全面崩潰,工程師得花時間從數百行選擇器中找出失效的節點。更進階的方案如「視覺辨識自動化」(依賴螢幕截圖比對)雖然能避開結構變化,但容易受到渲染環境、字型、解析度干擾,穩定性同樣有限。Page Agent 選擇了第三條路:讓已經具備推理能力的語言模型直接成為「結構理解者」,從根本上跳脫「寫死路徑」的框架。 ### 可能影響:開發效率與維護成本的雙重解放

這項開源專案的影響可能擴及三層面:第一,**降低維護負擔**。開發者不再需要針對每個頁面版本重寫腳本,大模型的動態解析能力能讓舊腳本在大多數情況下自動生效。第二,**提升跨站點通用性**。過去不同網站的自動化腳本幾乎無法共用,因為選擇器與結構迥異;Page Agent 讓模型根據 DOM 推論意圖,使得同一組指令可以適配多種頁面設計。第三,**降低技術門檻**。非工程背景的使用者有機會透過自然語言描述操作目標,由 Page Agent 自動完成元素定位,讓瀏覽器自動化更接近「人人可用」的狀態。 ### 讀者可關注的後續面向

目前 Page Agent 已以開源形式釋出,開發者可以直接下載原始碼進行測試與貢獻。後續值得關注的方向包括:**專案在 GitHub 上的維護活躍度**,以及社群是否會發展出標準化的指令模板;**與現有框架(如 Playwright、Cypress)的整合方案**;**大模型選擇的影響**——不同模型對 DOM 結構的理解精度可能差異顯著,開源專案未來或許會提供模型輕量化或本地部署的建議。此外,實務上能否真正應對動態載入(如 AJAX)或高度客製化的 JavaScript 渲染頁面,也有待更多真實案例驗證。 ### 結語:自動化不再怕變動,但仍有挑戰

阿里開源 Page Agent 的思維轉變,可說是給瀏覽器自動化領域注入一劑強心針。它讓

Related

相關文章

智東西AI Agent

好多人啊!Agent大會燃爆杭州,只講乾貨不畫餅

2026中國AI智能體大會在杭州圓滿落幕,聚焦「範式躍遷 重塑世界」主題,集結64位重量級嘉賓展開61場演講與多場圓桌對話。大會重點探討自進化Agent、企業級落地等十大核心議題,指出無自進化能力的智能體已成「老古董」,Agent正從桌面助手邁向擁有獨立電腦的數字員工。企業級Agent落地的關鍵在於模型能力、場景、效率與開放,並需克服真實工作環境、記憶系統等瓶頸。

1 小時前
AIBaseAI Agent

AI 智能體 Elements Claw 成功“閉環”超導材料研發

阿里達摩院聯合人大、國科大發布全球首個超導材料發現AI智能體Elements Claw,實現從輔助到獨立攻關的跨越。該成果為超導材料研發提供高效自動化範式,有望改變傳統依賴試錯的長週期模式。

2 小時前7500
智東西AI Agent

扎克伯格承認:Meta AI智能體研發不及預期

智東西 作者 | 陳佳 編輯 | 雲鵬 智東西7月3日消息,今日,據路透社報道,Meta創始人兼CEO馬克·扎克伯格(Mark Zuckerberg)當地時間7月2日在公司內部全員會上承認,過去至少四個月,AI智能體技術的研發進展並未如他預期般提速,Meta押注AI新組織架構的佈局“至今尚未落地見效”。路透社稱,這一信息來自其聽取的一段會議錄音。

7 小時前
智東西AI Agent

突發!阿里AI產線大整合,92年陳宇森統管三大Agent

智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月2日報道,今日,阿里巴巴確認正對旗下三款企業級Agent產品進行合併。阿里以桌面AI智能體工具“QoderWork”為基礎,將釘釘孵化的企業協同辦公Agent“悟空”、阿里雲內部創業的Agent執行引擎“MuleRun”的能力進行深度整合。 此次整合發生在釘釘換帥之後,或成為阿里AI to B戰略從從多點試探轉向重點突破的關鍵轉折。

1 天前
AIBaseAI Agent

讓Agent越用越強:AReaL2.0開源,打造面向自演進智能體的RL基礎設施

7月2日,開源強化學習基礎設施項目AReaL發佈2.0版,旨在打通基礎模型訓練與智能體應用間的鏈路,為Agent場景提供強化學習訓練支撐。2.0版面向真實業務,提供持續學習基礎設施,可記錄、整理Agent在任務中的交互過程並接入後續訓練流程,讓智能體在使用中持續進化。

1 天前7600