Cloudflare 出臺爬蟲管控新規，9 月 15 日起默認攔截 AI 訓練類爬蟲訪問廣告頁面

2026年7月2日 09:047000 次瀏覽

重點摘要

Cloudflare 7月1日更新爬蟲規則，標記搜索、AI代理、訓練等行為，定於2026年9月15日起默認攔截AI類爬蟲訪問含廣告頁面。站長雖願被搜錄但需保護版權收益，而大量混合爬蟲難以區分。其管理器將識別爬蟲全部用途，任一被禁屬性即觸發攔截。

站內 AI 整理稿

### Cloudflare 出臺爬蟲管控新規：2026 年起預設攔截 AI 訓練爬蟲存取廣告頁面

#### 重點整理：AI 訓練爬蟲將被預設封鎖

網路基礎設施巨頭 Cloudflare 於今年 7 月 1 日更新了爬蟲管理規則，並宣布一項重大變革：從 **2026 年 9 月 15 日** 開始，系統將 **預設攔截** 所有標記為「AI 訓練」類型的爬蟲，不允許它們存取含有廣告的頁面。這項措施的核心目標是保護網站站長的廣告收益與版權利益，避免 AI 公司在未經授權的情況下，大規模抓取付費或營利導向的內容來訓練大型語言模型。

#### 背景脈絡：站長兩難與混合爬蟲的辨識困境

過去幾年，隨著生成式 AI 的爆發，大量爬蟲湧入網路世界，目的不再只是搜尋引擎索引，還包括模型訓練、代理服務等。許多網站站長雖然願意讓搜尋引擎收錄內容以維持流量，卻不希望自己的原創文章或廣告頁面被 AI 公司無償取用。然而，現實中許多爬蟲同時具備多種用途：一邊執行正常的搜尋索引，一邊又默默蒐集資料供 AI 訓練。這種「混合爬蟲」讓傳統的 robots.txt 規則難以有效區分，導致站長無法精準控制哪些行為被允許、哪些應被禁止。

#### Cloudflare 的解決方案：多用途識別與自動攔截

為了應對上述困境，Cloudflare 在本次更新的爬蟲管理器中導入 **更細緻的用途標籤**，能同時識別爬蟲的「搜尋」、「AI 代理」以及「訓練」等不同屬性。根據新規則，只要爬蟲的任一行為屬性被站長列為禁止，系統就會直接觸發攔截，不再容許它繞過限制存取廣告頁面。換句話說，過去因為爬蟲同時具有合法用途而難以封鎖的難題，現在可以透過 Cloudflare 的統一介面一併處理，大幅簡化站長的管理工作。

#### 可能影響：AI 公司資料獲取成本上升

這項新規對 AI 產業的衝擊相當直接。目前許多大型語言模型的訓練資料來自公開網路，其中包含大量帶有廣告的內容網站。一旦 Cloudflare 將此規則設為預設值，並於 2026 年強制生效，AI 公司將被迫尋找替代資料來源，例如付費授權資料庫、自家生成資料，或是只使用完全無廣告的開放內容。這意味著訓練資料的取得成本可能顯著提高，進而影響模型開發的效率與商業模式。

#### 站長與平台生態的長遠影響

對網站站長而言，這項政策無疑是利多。他們可以更安心地維持廣告收益，不必擔心被 AI 訓練爬蟲間接「白嫖」。但另一方面，站長也需要留意 Cloudflare 的管理器設定是否過於嚴格，以免誤攔合法的搜尋引擎或合作夥伴爬蟲。此外，這項措施也可能促使更多網站加入 Cloudflare 的防護體系，進一步鞏固 Cloudflare 在 CDN 與安全市場的領先地位。

#### 讀者可關注的後續發展

**第一**，其他大型 CDN 或雲端服務商（

原始來源：AIBase ↗

查看原始來源