Cloudflare 細化網絡爬蟲屏蔽管理,將默認禁止 AI 代理與訓練爬蟲訪問廣告頁面

2026年7月2日 12:00
Cloudflare 細化網絡爬蟲屏蔽管理,將默認禁止 AI 代理與訓練爬蟲訪問廣告頁面

重點摘要

Cloudflare 宣布將強化網絡爬蟲管理功能,預設禁止 AI 代理與訓練爬蟲訪問廣告頁面。此舉旨在應對混合型爬蟲的挑戰,這些爬蟲同時具備多種功能,過去難以精確管控。新政策將有助於保護廣告內容免受未授權的AI數據抓取。

站內 AI 整理稿

### Cloudflare 細化網路爬蟲屏蔽管理,預設禁止 AI 代理與訓練爬蟲存取廣告頁面

內容農場與未經授權的資料抓取行為日益猖獗,雲端安全服務商 Cloudflare 近日宣布將進一步精進其爬蟲管理機制,針對特定類型的自動化程式進行更嚴格的管控。最引人注目的是,該公司將預設禁止 AI 代理與訓練用的網路爬蟲存取網站上的廣告頁面,此舉意在保護網站發布商的廣告收益,同時也反映出身為基礎設施提供者對於 AI 產業資料使用方式的態度轉變。

#### 重點整理:混合型爬蟲的管控難題

Cloudflare 此次政策調整的核心,在於解決所謂「混合型爬蟲」的管理痛點。傳統上,多數搜尋引擎爬蟲會明確標示其身分與用途,例如 Googlebot 或 Bingbot。然而,現今有大量爬蟲同時具備多種功能——它們可能既是搜尋引擎索引器,又會暗中擷取內容用於 AI 模型訓練,甚至還可能分析廣告版位以回傳競爭情報。過去,網站管理員難以在單一規則中區分這些行為,往往只能選擇「全擋」或「全放行」。Cloudflare 的新方案則提供了更細膩的權限劃分,允許網站管理員針對不同爬蟲類型設定不同存取範圍,尤其是將廣告相關頁面列為敏感區域。

#### 背景脈絡:AI 資料需求與網站收益的衝突

這項措施的背景,與近年 AI 訓練資料的急速需求緊密相關。越來越多 AI 公司依賴網路爬蟲從公開網站大量蒐集文本、圖片與結構化資料。雖然部分負責任的 AI 企業會在爬蟲的 User-Agent 中清楚標示用途,例如「GPTBot」或「CCBot」,但仍有為數不少的爬蟲刻意隱瞞身分或混合行為。對於仰賴廣告營收的網站來說,這些爬蟲不僅消耗伺服器頻寬,還可能繞過付費牆或分析廣告投放策略,直接損害商業利益。Cloudflare 選擇優先保護廣告頁面,正是因為這是最敏感、最直接的收益來源。

#### 可能影響:網站發布商與 AI 企業的新平衡

此舉對不同角色將產生深遠影響。對網站發布商而言,預設封鎖 AI 爬蟲存取廣告區塊,能避免廣告點擊數據遭惡意模擬,也可防止競爭對手透過爬蟲掌握廣告價格與投放策略。然而,這也可能導致某些正當的 AI 研究機構無法取得完整的頁面內容,因為部分研究需要分析廣告配置與使用者體驗的相關性。對 AI 企業來說,未來若要存取具廣告的網頁,必須向 Cloudflare 提出具體申請或與網站管理員協商,否則可能喪失部分訓練資料的完整性。整體而言,這項政策強化了網站自主權,但也可能加劇網路資料孤島化。

#### 讀者可關注的後續:技術執行細節與產業回應

接下來值得關注的幾個面向包括:第一,Cloudflare 是否會公開更詳細的爬蟲分級標準,以及廣告頁面的定義(例如是否包含橫幅廣告、贊助內容或聯盟行銷連結)。第二,其他大型雲端或 CDN 業者(如 Akamai、Fastly)是否會跟進類似措施,形成產業標準。第三,AI 企業與網站發布商之間可能出現更多雙邊協議或收費模式,以降低資料取得成本。第四,一般使用者也可能發現,部分原本免費的資訊網站在加強爬蟲管理後,內容介面或廣告展示方式出現變化。建議網站管理員優先檢查 Cloudflare 儀表板中的爬蟲規則設定,確保自身需求與新政策相容。

總而言之,Cloudflare 此舉不僅是技術更新,更標誌著網路生態對 AI 資料獲取正式進入「協商時代」。未來,任何自動化存取行為都必須更具透明度與目的性,否則將面臨更嚴格的基礎設施層級封鎖。對於所有關心網路公共性與商業價值的讀者而言,這是一項必須持續追蹤的重要發展。

Related

相關文章

AI 生成越來越便宜,真正變貴的是驗證

AI生成技術的邊際成本持續下降,使得內容生產變得更加便宜。然而,隨著生成內容的普及,驗證與背書的環節反而變得更加昂貴和稀缺。這意味著價值的重心正從內容創造轉向確保其真實性與可信度。

剛剛

蒸餾戰爭全面開打:從Meta封堵Claude與Codex開始

這篇消息聚焦「蒸餾戰爭全面開打:從Meta封堵Claude與Codex開始」。原始導語提到:蒸餾已從技術灰色地帶,演變為AI巨頭間的全方位博弈。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛