雷峰網AI Agent

看屏幕、用鍵鼠,我的 OpenClaw「睜眼」了

2026年5月31日 08:08

重點摘要

雷峰網訊 2026 年 5 月 11 日,本地 AI 智能體框架 OpenClaw 正式上線了 macOS 專屬桌面操控工具 Peekaboo,提供像素級截圖、UI 元素識別、以及完整的 GUI 自動化能力。簡單來說,就是讓 Agent “長出眼睛”,從此看得見屏幕、點得到按鈕,甚至自主操作電腦。GUI 自動化或可以視為 OpenClaw 在 Computer Use 上的最後一塊能力短板。此前的 Agent 交互模式尚停留在文本對話層面,雖然已經實現了高度自主的指令遵循和任務閉環能力,但圖形操作界面仍然是人類的專屬。而 Peekaboo 的登場將 Agent 帶進了下一個時代,只有能夠“看見”,它們才算是成為了真正能夠全權接管桌面的自主執行體。那麼對用戶而言,這意味著什麼樣的體驗革新?Peekaboo 又是如何讓 AI 真正接管桌面?我們第一時間上手進行了實測。01接管桌面,OpenClaw 超進化“Agent 的眼睛”聽起來很像是某種普通的附加功能,但這一描述遠遠低估了 Peekaboo 的真實地位,它更重要的意義在於徹底打破了 Agent 只能被動應答的侷限,將其拉入真實的桌面操作場景。Peekaboo 搭載的像素級識別能力,能夠自動精準標註屏幕上的按鈕、輸入框、彈窗、軟件窗口等所有界面元素,且無需人工標記或提前適配。同時它可以完美模擬人類的操作邏輯,自主完成鼠標點擊、文字輸入、頁面滾動、快捷鍵操控等全套鍵鼠行為。更核心的優勢在於無依賴通用性,Peekaboo 不依賴軟件官方 API、無需嵌入 SDK 適配,這意味著所有桌面軟件、網頁平臺都能直接兼容適配。它在賽博世界留下的痕跡就像一個真正的人類用戶那樣,一切你能操作的對象,它都可以接手。這已然提供了一種重構電腦操作底層邏輯的可能。而我們首先好奇的是,Peekaboo 到底是具備真實的落地能力,抑或只是噱頭式的 Age

站內 AI 整理稿

雷峰網訊 2026 年 5 月 11 日,本地 AI 智能體框架 OpenClaw 正式上線了 macOS 專屬桌面操控工具 Peekaboo,提供像素級截圖、UI 元素識別、以及完整的 GUI 自動化能力。簡單來說,就是讓 Agent “長出眼睛”,從此看得見屏幕、點得到按鈕,甚至自主操作電腦。GUI 自動化或可以視為 OpenClaw 在 Computer Use 上的最後一塊能力短板。此前的 Agent 交互模式尚停留在文本對話層面,雖然已經實現了高度自主的指令遵循和任務閉環能力,但圖形操作界面仍然是人類的專屬。而 Peekaboo 的登場將 Agent 帶進了下一個時代,只有能夠“看見”,它們才算是成為了真正能夠全權接管桌面的自主執行體。那麼對用戶而言,這意味著什麼樣的體驗革新?Peekaboo 又是如何讓 AI 真正接管桌面?我們第一時間上手進行了實測。01接管桌面,OpenClaw 超進化“Agent 的眼睛”聽起來很像是某種普通的附加功能,但這一描述遠遠低估了 Peekaboo 的真實地位,它更重要的意義在於徹底打破了 Agent 只能被動應答的侷限,將其拉入真實的桌面操作場景。Peekaboo 搭載的像素級識別能力,能夠自動精準標註屏幕上的按鈕、輸入框、彈窗、軟件窗口等所有界面元素,且無需人工標記或提前適配。同時它可以完美模擬人類的操作邏輯,自主完成鼠標點擊、文字輸入、頁面滾動、快捷鍵操控等全套鍵鼠行為。更核心的優勢在於無依賴通用性,Peekaboo 不依賴軟件官方 API、無需嵌入 SDK 適配,這意味著所有桌面軟件、網頁平臺都能直接兼容適配。它在賽博世界留下的痕跡就像一個真正的人類用戶那樣,一切你能操作的對象,它都可以接手。這已然提供了一種重構電腦操作底層邏輯的可能。而我們首先好奇的是,Peekaboo 到底是具備真實的落地能力,抑或只是噱頭式的 Agent 玩具?在真實的桌面環境下,我們首先測試了其複雜連續操作能力。這是一項信息檢索測試。我們要求 Peekaboo 打開 Safari 瀏覽器,自動關閉網頁彈窗干擾,然後在頂部網址搜索框查找「AI近期大事」,在下方一眾搜出來的網站中,打開第一個網站,然後關閉網站。整套流程全部由 OpenClaw 自主完成,任務內容雖然並不複雜,但實際操作覆蓋了圖標識別、按鈕點擊、彈窗檢測、搜索框定位、內容輸入等多項能力。特別是在同一個頁面中執行輸入內容、定位詞條等任務時,從視頻中可以看出,Peekaboo 自主完成了規避彈窗干擾、適配動態網頁佈局,這表明其能夠穩定地識別複雜的軟件界面。更關鍵的是,在連貫完成多步驟桌面操作時,Peekaboo 表現出的操作邏輯也非常貼合人類使用習慣。到此為止,可以說 Peekaboo 絕非僅僅支持單點點擊的演示型工具。當然,對於 GUI 自動化而言這還只是入門。落地能力更為核心的考驗是在任務流延伸至跨軟件乃至跨系統的程度時,Peekaboo 是否仍然能夠實現全流程自主的桌面操作。第二項測試將信息檢索延伸至成果交付階段,要求 Peekaboo 在 Safari 瀏覽器中搜索百度熱搜榜,依次提取熱搜榜、電影榜、小說榜、電視劇榜前六名的數據,然後回到桌面新建 Excel 表格,將此前採集到的四類榜單數據進行彙總。結果顯示,Peekaboo 自主操作電腦完成了長鏈路的複合任務。其中涉及到瀏覽器的部分在案例一中已有所展示,更值得關注的是其在瀏覽器、辦公軟件、系統桌面、文件夾、系統設置等多個操作平臺之間的跳轉,整套流程並未出現需要人工干預的卡頓。這意味著 OpenClaw 和 Peekaboo 的結合已經具備了真實的辦公自動化能力,而 OpenClaw 的定位也正在從 AI 工具的調用者,轉向下一代桌面環境操作底座。在 Agent 普遍以調用第三方工具為核心邏輯的背景下,Peekaboo 讓 OpenClaw 成為了距離接管整個電腦最近的選手。02極客玩具,普通人也能上手了很長一段時間以來, AI 桌面自動化工具大多侷限於極客群體,難以走進普通用戶日常的辦公、生活場景。而 Peekaboo 的不同之處在於,它的部署跟競品比起來實在太簡單了,既可以作為 MCP 服務運行,一行命令行無縫接入OpenClaw、Codex、Claude Code 或 Cursor,小白也可以直接在 ClawHub 安裝 Peekaboo Skill,零配置使用。事實上,GUI 自動化並非全新的嘗試,類似的產品此前也並不鮮見,但恰恰是作為後來者的 Peekaboo 踩上了新一代多模態技術的東風。UI 識別曾經是長期困擾這一賽道的瓶頸之一,突如其來的彈窗和頁面內容變動,導致的 GUI 自動化翻車是家常便飯。而 Peekaboo 不綁定單一廠商,可以說是坐收多模態技術水漲船高的紅利。此外,曾經的 GUI 自動化工具要看軟件廠商臉色行事,系統權限被牢牢把握在對方手中,真正能夠落地的場景非常有限,強行上馬的結局往往是被送上黑名單。最終有能力和毅力把它們用起來的,往往也只剩下極客。而對於 OpenClaw 而言,這同樣不再是問題。傳統方案是等廠商開放 API 接口,Peekaboo 直接操作屏幕,不僅繞開了請求許可的環節,而且意味著即使是那些多年不曾更新的小眾軟件,和從未對外開放接口的內部工具,都被一視同仁地納入了 Peekaboo 的能力範圍。多模態技術的迭代和對封閉生態的突破合流,某種程度上,Peekaboo 成為了第一款普通人也能用的桌面自動化工具。將這種顛覆性的桌面操控能力交予大眾之手的同時,Peekaboo 另一個讓人驚喜之處是高度完善的安全性保障。隱私方面,Peekaboo 會對操作界面進行像素級截圖,但由於全程跑在本地,因此屏幕畫面無需上傳雲端。此外可控性方面,Peekaboo 執行的每一項任務都有完整的操作記錄可供追溯,由手動觸發啟動,不支持後臺靜默運行,且可以隨時一鍵中斷。多重安全機制疊加下,雖無法實現絕對的零風險,操作的主動權卻始終由用戶掌控,有效規避了 AI 後臺私自操作、隱私數據洩露等核心風險。03必經之路,還是權宜之計在出色的桌面操控能力之外,Peekaboo 仍然表現出了諸多 GUI 自動化工具常見的問題。首先是座標偏移。不同的顯示器分辨率、窗口縮放比例之下,頁面元素位置的變化偶爾會導致點擊座標漂移、操作點位偏差。即便整體識別率處於較高水平,也仍然影響了 Peekaboo 對於複雜任務的完成精度。此外還有上下文遺忘。當超長程任務進行到後半段時,Peekaboo 常常會忘記自己此前幹了什麼,然後重複執行某些操作,直到卡死進程。當然如果你看了前面的測試視頻,會發現最明顯的問題仍然是執行速度。複雜界面識別、超長任務流程都會導致 Peekaboo 有比較明顯的延遲,這也是 GUI 自動化工具的通病。一種解釋是,視覺方案在執行速度上無法與通過代碼命令直接操作比擬,但更值得追問之處在於,這是否意味著視覺方案本身的落地能力就不盡人意。除了此前提到的操作精準性和執行速度,通過多模態理解實現的 GUI 自動化還意味著不俗的 Token 成本。Peekaboo 在設計之初顯然也考慮到了這一點,試圖通過 VQA 定向分析和元素 ID 壓縮等方式減少 Token 消耗,前者指多模態模型收到屏幕截圖後不返回完整圖像描述,而是針對具體問題生成精簡回答,後者則表示使用短 ID 來標記界面 UI 元素,相比原始座標或完整描述更加緊湊。然而當代碼命令方案成為比較的對象,這仍然是一筆無法忽視的成本。在 Peekaboo 之前,另一個耐人尋味的例子是豆包手機助手。後者初期憑藉便捷體驗快速出圈,但很快因其使用安卓系統級高危權限模擬用戶點擊、跨應用跳轉,被微信、支付寶、淘寶等主流 App 的風控系統識別為異常行為,導致部分跨應用操作功能受限或被迫下線,甚至一度遭到眾多主流軟件廠商的聲討。時至今日,其後續發展仍然面臨著生態兼容與合作模式的重大不確定性。這背後是 GUI 自動化技術在權限邊界、數據主權和商業利益上與現有移動生態的深層衝突。Peekaboo 為規避生態壁壘而生,卻無法真正繞過它。當 Agent 之爭走向落地執行能力的較量,速度、成本、準確性,日後或許都會成為 Peekaboo 的命門。視覺方案到底是打通 AI 現實操作鏈路的必經之路,還是生態封禁被真正突破之前的權宜之計?值得拭目以待。雷峰網文章

Related

相關文章

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前
量子位AI Agent

騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding

這篇消息聚焦「騰訊老兵+大廠00後新銳,碼上飛想做的不只是AI Coding」。原始導語提到:已接入華為鴻蒙生態 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前

21年老牌企服公司的AI實驗:讓Agent跑一遍流程

這篇消息聚焦「21年老牌企服公司的AI實驗:讓Agent跑一遍流程」。原始導語提到:司盟企服接入騰訊雲WorkBuddy後,將海外郵件管理、審計理賬、訂單審核等高頻交付流程交給Agent先跑一遍 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

18 小時前
TechWebAI Agent

曹操出行宣佈啟動全面AI轉型,組織升級向AI原生公司邁進

曹操出行在2026國際汽車及供應鏈博覽會 上宣佈啟動全面AI轉型,併發布RoboX戰略,打造全球領先的物理AI移動科技平臺。與此同時,公司正式啟動組織升級,加快向AI原生公司邁進。為推動全面AI轉型,今年上半年,公司推進戰略聚焦,持續優化業務結構,主動收縮非核心業務,加快向AI原生公司轉型。

20 小時前