從對話助手到“電腦管家”：Gemini 3.5 Flash 開啟 AI 主動執行新時代

2026年6月25日 02:31

重點摘要

谷歌發佈Gemini 3.5 Flash模型，核心優化“計算機操作”能力，使AI能直接控制電腦界面，自主執行復雜跨軟件工作流。此舉標誌著AI從文本問答機器進化為實際行動派，轉向更多“代勞”角色的定位。

站內 AI 整理稿

### 從對話助手到「電腦管家」：Gemini 3.5 Flash 開啟 AI 主動執行新時代

#### 重點整理

Google 最新發表的 Gemini 3.5 Flash 模型，最引人注目的革新並非語言理解能力的提升，而是對「電腦操作」能力的全面優化。這項進展讓 AI 不再只是被動回應問題的文字助手，而是能夠直接操控電腦介面、自主完成跨軟體的複雜工作流程。換句話說，使用者只需要下達一個任務指令，AI 就能像一位稱職的管家般，在後台自動切換應用程式、擷取資料、執行操作，最終交付成果。這標誌著人工智慧從「問答機器」正式邁入「實際代勞者」的時代，人機協作的方式也將因此出現根本性的轉變。

#### 背景脈絡：從被動回應到主動執行

過去幾年的大型語言模型，無論是 ChatGPT 還是 Gemini 系列，核心能力都集中在文字生成、摘要、翻譯等對話式任務上。使用者必須自行將 AI 的輸出轉化為實際操作，例如複製程式碼到編輯器、手動切換不同軟體來比對資料。這樣的流程雖然提升了部分效率，但人仍然是整個工作流的核心樞紐。Gemini 3.5 Flash 的突破在於，它打破了這層隔閡——AI 開始學會「看」螢幕上的畫面，理解按鈕、選單、輸入框的位置與功能，並透過模擬滑鼠點擊和鍵盤輸入來直接操作應用程式。這項技術的底層仰賴多模態感知與決策模型，讓 AI 能夠即時辨識動態的軟體介面，而不只是處理靜態的文字描述。

#### 可能影響之一：生產力工具的重新定義

這項能力一旦成熟，對一般使用者與企業的影響將非常深遠。辦公室人員不再需要手動執行重複性的跨軟體作業，例如從 Excel 擷取數據後貼入 PowerPoint 製作圖表、再透過 Outlook 寄送郵件；這些環節可以交由 Gemini 3.5 Flash 一氣呵成。對開發者與數據分析師而言，AI 能夠自動打開終端機執行指令、編譯程式碼、回報錯誤，甚至自主調整參數再試一次。工作流程將從「人指揮工具」變成「人發號施令、AI 操作工具」，人類的角色更多轉向策略規劃與創意發想。企業的數位轉型步伐可能因此加速，但也意味著部分依賴手動操作的職務將面臨重新定義。

#### 可能影響之二：安全與控制權的新挑戰

然而，賦予 AI 直接操控電腦的權限，也帶來了嚴峻的安全與信任問題。如果模型誤判螢幕內容、錯誤點擊惡意連結，或在未經同意的情況下修改重要檔案，後果可能難以挽回。此外，惡意使用者也能利用這樣的模型來開發自動化攻擊程式，例如自動填寫釣魚表單或繞過驗證機制。這項技術的普及，勢必需要配套的權限管理機制——例如要求 AI 在執行關鍵操作（如刪除檔案、傳送郵件）前先獲得使用者確認，或限定其只能操作特定軟體。Google 在發表時並未詳細說明安全協議，但這顯然是後續商用化無法迴避的核心課題。

#### 讀者可關注的後續發展

對於對這項技術感興趣的讀者，有幾個方向值得持續追蹤。首先，Gemini 3.5 Flash 的開放時程與使用限制——是僅限雲端服務還是會提供離線版本？其次，具體的應用場景示範：Google 是否會釋出官方教學或預建好的工作流程模板，幫助使用者快速上手？再者，競爭對手的反應：OpenAI 與 Anthropic 早已在探索「電腦使用代理」（Computer Use Agent）的概念，Gemini 3.5 Flash 能否憑藉 Google 在生態系統（如 Google Workspace、Chrome、Android）的整合優勢奪得領先？最後，監管層面的動態：各國對於 AI 自動操作個人裝置的法規是否會加速制定？這些都將決定我們何時才能真正迎來一位值得信賴的「電腦管家」。

#### 小結：一場從對話到行動的典範轉移

Gemini 3.5 Flash 的出現，象徵著 AI 從「顧問」角色轉向「執行者」角色的關鍵一步。它不再滿足於告訴你該怎麼做，而是直接動手幫你做。這股浪潮將重新塑造軟體開發、辦公效率、乃至日常數位生活的面貌。對於習慣了問答式 AI 的使用者來說，接下來得學習如何信任一個能夠「自己亂按滑鼠」的 AI——這既是機會，也是責任。保持關注，因為這個領域的進展，可能比我們想像的還要快。

原始來源：AIBase ↗

查看原始來源

IT之家生成式AI

文心一言官網提問入口今日關閉，7 月 26 日服務遷移至百度文心網站

文心一言官網提問入口已於 6 月 25 日 0 時關閉，用戶需在 7 月 25 日前下載個人數據，包括對話記錄、收藏內容等。7 月 26 日起服務將正式遷移至百度文心網站，提供 AI 志願報告、AI PPT 等更豐富功能。 #文心一言# #AI 服務升級#

剛剛閱讀分析

36氪生成式AI

agent進駐工作群，我們給豆包支的招，Claude聽進去了

這篇消息聚焦「agent進駐工作群，我們給豆包支的招，Claude聽進去了」。原始導語提到：LLM的第三次革命，AI牛馬直接在群裡上班。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

80%代碼由Claude合併，Anthropic內部人員點破Agent真相：「Close the Loop」

Anthropic內部人員透露，Claude已成功合併80%的程式碼，並點破AI Agent的關鍵在於「Close the Loop」（閉環）。同時提醒開發者，不要再用過時的測試方法來評估當前的Claude。

剛剛閱讀分析

TechWeb生成式AI

OpenAI首款自研AI芯片9個月造好，造芯片這麼容易了嗎？

OpenAI自稱這是“高性能先進半導體領域迄今最快的ASIC開發週期”。OpenAI已制定多代芯片路線圖，下一代產品預計2028年推出。2025年10月，OpenAI與博通宣佈達成一項為期數年的戰略合作，雙方將共同開發並部署總計10吉瓦的定製AI加速器，交易總額高達數十億美元。OpenAI將這一週期壓縮到九個月，靠的是什麼？從多家外媒的報道來看，OpenAI自家的AI模型直接參與了芯片的設計和優化過程。OpenAI在AI模型領域最直接的競爭對手Anthropic目前尚未推出自研芯片。

剛剛閱讀分析