AI 爬蟲要封鎖嗎？ClaudeBot、GPTBot 與 Cloudflare 設定指南

Q: ClaudeBot、GPTBot、PerplexityBot 要一起封鎖嗎？

不建議一律同樣處理。`ClaudeBot`、`GPTBot` 比較接近訓練或模型改進用途；`OAI-SearchBot`、`Claude-SearchBot`、`PerplexityBot` 更接近 AI 搜尋或回答引用；`ChatGPT-User`、`Claude-User`、`Perplexity-User` 則是使用者觸發讀取。內容站通常先分用途管理，再決定哪些放行、限速或封鎖。

Q: Google-Extended 封鎖後會影響 Google 搜尋排名嗎？

Google 官方文件說 `Google-Extended` 不影響網站是否出現在 Google 搜尋，也不是 Google 搜尋排名訊號。它是 robots.txt 裡的控制用 token，用來管理內容是否可用於 Gemini Apps、Vertex AI API for Gemini 與相關 grounding 用途。搜尋收錄仍要另外看 `Googlebot`、sitemap、索引狀態與內容品質。

Cloudflare 2026 把 AI bot 分成 Search、Agent、Training，9/15 起新網域廣告頁預設擋 Training/Agent。先用曝光、訓練風險、成本與付費路徑決定怎麼管。

發佈於： 2026-01-30 | 更新於： 2026-07-07

中級 ClaudeBot GPTBot PerplexityBot

內容查核： 2026-07-07 來源查核： 2026-07-07

⚡ 重點摘要（TL;DR）

不要把 AI 爬蟲當成同一個開關。訓練用爬蟲、AI 搜尋索引與使用者觸發讀取，對曝光、內容風險與伺服器成本的影響不同。
個人品牌、教學站與公開文件通常先保留搜尋型與使用者觸發讀取，再對訓練爬蟲、敏感路徑與高頻流量做限制。
Cloudflare 2026 年 7 月把 AI 流量分成 Search、Agent、Training bot 管理，並推出 Attribution Business Insights；2026 年 9 月 15 日起，新加入 Cloudflare 且帶廣告的頁面會預設封鎖 Training / Agent、保留 Search。
付費內容、資料庫、會員區、API 與高成本文件站，應該把公開內容、付費內容、下載檔與帳號路徑拆開，搭配 WAF、驗證與速率限制。
Google-Extended 是 robots.txt 控制用 token，不是一般 Googlebot；Google 官方說它不影響 Google 搜尋收錄，也不是搜尋排名訊號。
AWS WAF AI traffic monetization、Cloudflare Pay Per Crawl / Pay Per Use 與 Monetization Gateway 讓大型內容資產開始測試付費存取，但多數網站應先做好監控、限速與路徑分級。

如果你的文章、產品文件或資料庫開始被 ClaudeBot、GPTBot、PerplexityBot 抓取，先不要只盯 bot 名稱。最容易出錯的是把所有 AI 流量用同一個開關處理。產品文件可能需要被 ChatGPT、Claude、Perplexity 讀到，會員內容、下載檔、搜尋端點和 API 卻可能把成本、授權和客服問題一起拉高。

Cloudflare 2026 年 7 月 1 日把這件事講得更細：所有方案都可以區分 Search、Agent、Training bots，查看 Attribution Business Insights，甚至把高價值內容、API 或 MCP 工具放到付費存取路徑。新的時間點也要放進計畫：2026 年 9 月 15 日起，新加入 Cloudflare、且頁面帶廣告的網域，Training 與 Agent bots 會預設封鎖，Search 仍預設放行。對多數內容站與產品團隊，先把公開頁、訓練用途、使用者觸發讀取和高成本路徑分開；規則上線後，72 小時內用記錄看哪些真的有效。

先用網站類型決定開放度

網站狀態	建議策略	你要先確認的事
個人品牌、部落格、顧問網站	不急著全站封鎖；先監控、限速，保留能帶來引用的公開頁	AI bot 流量占比、被抓最多的頁面、是否有品牌或服務頁被正確引用
產品文件、公開知識庫、SaaS docs	公開文件可放行搜尋型與使用者觸發讀取；帳號、API、下載與舊版文件要分路徑限制	使用者是否會把文件交給 ChatGPT、Claude、Perplexity 或 IDE 助手讀
媒體、付費內容、資料庫	付費/高價值路徑先封鎖、Challenge 或測試收費；公開摘要與搜尋型 bot 依商業模式保留	是否依賴訂閱、廣告、導購或資料授權回收內容成本；廣告頁是否會受 9/15 新預設影響
API provider、資料型 SaaS	API、匯出檔、搜尋端點、批次下載要比文章頁嚴格	origin 成本、快取命中率、是否有未驗證 bot 高頻抓取
企業內部文件或會員資料	不放進公開索引；靠登入、權限、WAF 與內部網路控管	robots.txt 不能保護機密資料，只能表達可信爬蟲的抓取偏好

如果只想做一個最小版本，先回答四個問題：哪些頁面希望被 AI 正確引用、哪些內容不能被拿去訓練、哪些路徑會造成成本壓力、哪一類 bot 需要人工審核後才放行。Cloudflare 的新分法可以當成檢查順序：Search bot 影響可見度，Agent bot 影響使用者請 AI 讀頁面時能不能成功，Training bot 影響內容是否進入模型改進或訓練用途。

三種 AI 爬蟲用途：訓練、搜尋、使用者觸發要分開

AI 公司現在通常會用多個爬蟲服務不同任務。Cloudflare 這次把 AI 流量選項拆成 Search、Agent、Training，也是在提醒站長先看用途，再看品牌名稱。Cloudflare 官方同時說，2026 年 9 月 15 日起，新加入 Cloudflare 的網域若頁面顯示廣告，Training 與 Agent 類 bot 會預設被擋，Search 類 bot 仍預設放行；同時兼具搜尋與訓練用途的多用途 crawler，會依較嚴格的規則處理。

先分四類看。GPTBot、ClaudeBot、Google-Extended 和部分第三方 bot 多半牽涉模型訓練或模型改進；封鎖它們，通常是在表達「不要把內容用於指定 AI 產品用途」。OAI-SearchBot、Claude-SearchBot、PerplexityBot 比較接近 AI 搜尋索引；封鎖後，公開內容可能比較少出現在 AI 搜尋、回答引用或來源連結裡。ChatGPT-User、Claude-User、Perplexity-User 是使用者要求 AI 讀某個頁面時觸發；封鎖後，讀者把你的頁面交給 AI 工具摘要、比對或問答時可能讀不到內容。傳統 Googlebot、Bingbot 仍要分開處理，錯擋才會直接傷到一般搜尋收錄。

OpenAI 官方文件把 OAI-SearchBot 與 GPTBot 視為獨立 robots.txt 設定：站方可以允許 OAI-SearchBot 出現在搜尋結果，同時禁止 GPTBot 代表內容不要用於訓練 OpenAI 的生成式 AI 基礎模型。ChatGPT-User 則是使用者動作觸發，不是自動爬網。

Anthropic 也把 ClaudeBot、Claude-User、Claude-SearchBot 分開。ClaudeBot 偏向模型訓練；Claude-User 讓 Claude 在使用者要求時讀網頁；Claude-SearchBot 用於改善搜尋結果品質。把三者一起封鎖，會同時切掉訓練、搜尋與使用者指定讀取。

Perplexity 官方文件說，PerplexityBot 用來在 Perplexity 搜尋結果中呈現並連結網站，不用來抓取 AI 基礎模型訓練內容；Perplexity-User 則是使用者在 Perplexity 裡發問時可能觸發的讀取。對想被 Perplexity 引用的公開內容，通常不應只因為它是 AI bot 就全站封鎖。

Google-Extended 不是 Googlebot，也不是搜尋排名開關

Google-Extended 最容易被誤解。Google 官方文件說，它沒有獨立的 HTTP User-Agent；它是 robots.txt 裡的控制用 token，用來管理 Google 抓到的網站內容是否可用於 Gemini Apps、Vertex AI API for Gemini，以及相關 grounding 用途。

Google 也明確說，Google-Extended 不影響網站是否出現在 Google 搜尋，也不是 Google 搜尋排名訊號。也就是說，你可以用它表達「不要把內容用於指定 AI 產品用途」，但不要把它當成傳統 SEO 收錄設定。傳統搜尋仍要另外看 Googlebot、sitemap、索引狀態與內容品質。

一個保守設定可以長這樣：

User-agent: Google-Extended
Disallow: /

這段表示不允許 Google-Extended 覆蓋的 AI 產品用途使用你的內容，但不等於封鎖 Googlebot。正式上線前，請確認 robots.txt 裡沒有把 Googlebot 或 * 一起擋掉。

robots.txt 可以表達政策，不能當成防火牆

robots.txt 適合告訴可信爬蟲「哪些路徑不要抓」，但它是公開約定，不是存取控制。冒名 User-Agent、惡意 scraper 或未遵守規則的 bot 仍可能照抓；真正敏感的資料要靠登入、權限、WAF、伺服器規則與資料分級處理。

情境 A：保留 AI 搜尋引用，限制訓練用途

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

這種設定適合想保留公開內容被搜尋與引用，但不想讓內容進入特定訓練用途的網站。代價是未來模型可能比較少從你的內容學到背景；好處是可以保留 AI 搜尋入口。

情境 B：公開內容可讀，付費與敏感路徑不要抓

User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/
Crawl-delay: 10

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

這種設定適合內容網站、公開文件與教學站。公開頁保留可見度，付費路徑、會員內容、API 與批次下載避免被大量抓走。Crawl-delay 不是所有爬蟲都支援；Anthropic 官方文件說它會在適當情況尊重這個非標準延伸，其他服務仍要看各自文件與實測記錄。

情境 C：短期成本壓力太高，先限速與驗證

robots.txt 只會影響願意遵守規則的 bot。當 origin 成本、頻寬或資料庫查詢壓力已經升高，先在 CDN、WAF 或伺服器層做速率限制與身分驗證。

http {
    map $http_user_agent $ai_crawler_key {
        default "";
        ~*(ClaudeBot|Claude-SearchBot|GPTBot|OAI-SearchBot|PerplexityBot) $binary_remote_addr;
    }

    limit_req_zone $ai_crawler_key zone=ai_crawlers:10m rate=10r/m;

    server {
        location / {
            limit_req zone=ai_crawlers burst=5 nodelay;
            # 依實際 proxy、快取、靜態檔與 API 路徑調整。
        }
    }
}

正式環境請先用 nginx -t 測試設定，並把公開文件、搜尋頁、API、下載檔與會員路徑分開。對一般內容頁限速，對高成本端點封鎖或 Challenge，會比全站封鎖更有彈性。

不要只看 User-Agent：先驗證 bot 身分

User-Agent 可以偽造。看到自稱 ClaudeBot、GPTBot 或 PerplexityBot 的流量時，先用官方 IP 清單、反查、CDN bot 分類或 WAF 驗證確認身分。

判斷順序可以很簡單：官方可驗證、低頻抓公開內容的 bot，可以先放行或限速，繼續看引用與成本；官方可驗證但高頻抓公開內容的 bot，先調快取、分路徑規則與速率限制，必要時只保留搜尋型或使用者觸發讀取；冒用官方名稱的流量，先 Count、Challenge 或 Block，不要只靠 robots.txt；如果 bot 集中抓 API、搜尋頁、下載檔或付費內容，就改到伺服器、CDN、WAF、登入權限與法律條款一起處理。

Cloudflare 的 verified bots、AI Crawl Control 與 2026 年 7 月推出的 Attribution Business Insights，都在把 AI bot 分類、驗證、抓取價值與商業規則拆開看；AWS WAF Bot Control 也往類似方向處理。即使不用這些服務，也應該建立同樣的判斷：可信 bot 可以被管理，冒名或高風險流量不能只靠公開約定。

付費存取適合誰？先看內容價值與流程成本

2026 年，AI 爬蟲開始進入付費存取測試階段。AWS WAF AI traffic monetization 讓使用 CloudFront 與 AWS WAF Bot Control 的內容站，對特定 AI bots 或 agents 存取受保護內容設定 per-request pricing；命中規則時，AWS WAF 會回 HTTP 402 Payment Required，並用 x402 JSON 價格資訊描述付款條件。

Cloudflare 原本有 Pay Per Crawl，2026 年 7 月又把方向推到 Pay Per Use 與 Monetization Gateway：官方說 Monetization Gateway waitlist 會支援對 Cloudflare 後面的 web page、dataset、API 或 MCP tool 收費，結算會透過 x402 等付款流程；Cloudflare 也提到和 Ceramic.ai、You.com 等 AI 搜尋公司測試讓內容價值不只按「抓幾次」計算。

這類功能對媒體、資料庫、API provider、高價值研究內容比較有意義；一般部落格或品牌網站通常先不需要。啟用付費存取前，先確認五件事：價格怎麼訂、哪些內容真的有獨立授權價值、誰負責錢包與對帳、失敗付款怎麼處理、是否會影響搜尋型爬蟲或使用者正常讀取。技術上能收費，不代表商業、法務與客服流程已經準備好。

四個常見場景怎麼做

1. 內容網站想保留 AI 引用，但不想被拿去訓練

先允許搜尋型與使用者觸發讀取，再限制訓練用爬蟲。公開文章、教學頁、品牌頁保留可讀；付費內容、下載檔、會員頁與作者未授權素材另外封鎖。

驗證方式：每月檢查 AI 來源流量、引用回流、被抓熱門路徑與高頻 User-Agent。如果完全沒有回流，但 bot 流量持續增加，再逐步縮小開放範圍。

2. 產品文件希望 AI 助手能讀，API 成本又不能失控

公開 docs 可放行 OAI-SearchBot、Claude-SearchBot、PerplexityBot 與使用者觸發讀取；搜尋端點、版本歷史、批次下載、API 與帳號頁要限速或封鎖。搭配 /tech/llms-txt-guide-2026/ 整理 AI 可讀入口，避免 AI 工具抓到舊文件。

驗證方式：用真實文件頁測試 ChatGPT、Claude、Perplexity 能不能讀到公開資料；同時看 CDN cache hit、origin requests 與 4xx/5xx 是否被 bot 拉高。

3. 媒體或資料庫想把內容變現

先不要把整站都丟進付費存取。公開摘要、新聞首頁與品牌頁可以保留；深度資料、付費文章、匯出檔與 API 先放在高價值路徑，再評估 AWS WAF、Cloudflare Pay Per Use 或 Monetization Gateway 類似機制。

驗證方式：先用 Attribution Business Insights、CDN logs 或 WAF logs 估算每千次 bot 存取的內容價值、伺服器成本與可能收入，再做一小段路徑測試。若付款流程、對帳與授權條款還沒準備好，先用 WAF 與登入保護，不要只靠 402 回應。

4. 小站只想避免被抓爆

先看記錄，不要直接複製「封鎖全部 AI bot」清單。小站更常見的問題是快取沒設好、搜尋頁或 tag 頁被重複抓、圖片與下載檔沒有分流。

驗證方式：找出前 20 個被抓最多的 URL、bot 占比、尖峰 request rate、origin hit rate。先限速與快取，再決定要不要封鎖訓練用爬蟲。

每月監控清單

至少每月看一次這些數字：

Search / Agent / Training 類 AI bot 各自占比，以及它們抓的是公開頁、付費頁、API 還是下載檔。
AI bot requests / total bot requests 比例。
verified 與 unverified AI bot 的占比。
被抓最多的 URL、路徑類型與 HTTP 狀態碼。
顯示廣告的頁面、公開摘要、付費內容與 API 路徑，是否需要為 2026-09-15 的 Search / Agent / Training 預設分流先標記。
頻寬、origin requests、cache hit rate、peak request rate。
ClaudeBot、Claude-SearchBot、GPTBot、OAI-SearchBot、PerplexityBot、Google-Extended 以外的陌生 User-Agent。
AI 搜尋或回答介面是否帶來 referral、citation 或品牌查詢增加。
高價值內容、下載檔、API 或會員路徑是否被未驗證 bot 集中抓取。
robots.txt 變更後 24 到 72 小時內，主要 bot 是否依預期調整抓取。

如果你還沒有儀表板，先從 CDN / WAF 記錄匯出 User-Agent、URL、status、bytes、cache status 與 request time。能把「誰在抓、抓什麼、花多少成本、帶來什麼回報」說清楚，再談封鎖或收費才有依據；Cloudflare Attribution Business Insights 的價值也在這裡：先把討論從「要不要封鎖 AI」變成「哪一種抓取有回報，哪一種只增加成本」。

和 AI SEO、llms.txt、zero-click 的關係

AI 爬蟲政策不是單獨存在的設定。它會影響三個內容治理問題：

AI SEO 與引用機會：如果希望內容被 AI 搜尋或回答引用，公開頁要有清楚標題、更新日期、來源與內鏈。延伸看 AI SEO 是什麼？。
AI 可讀入口：robots.txt 管「能不能抓」，網站地圖（sitemap）幫搜尋引擎找 URL，/llms.txt 則整理 AI 工具最該讀的公開頁。
零點擊流量風險：AI 介面可能引用內容但不帶回等量流量。Cloudflare 2026 報告提到部分高度被抓取的類別，一年內人類流量下降幅度可到 40%；依賴廣告、訂閱或導購的站，要把 Zero-Click Search 風險納入開放度判斷。

一份健康的 AI crawler policy 應該能被回頭調整：今天先放行公開內容、限速高頻流量；如果未來 AI 引用帶來品牌價值，就擴大可讀入口；如果成本或授權風險升高，就縮小高價值路徑或改用付費存取。

來源與延伸閱讀

❓ FAQ

ClaudeBot、GPTBot、PerplexityBot 要一起封鎖嗎？

不建議一律同樣處理。ClaudeBot、GPTBot 比較接近訓練或模型改進用途；OAI-SearchBot、Claude-SearchBot、PerplexityBot 更接近 AI 搜尋或回答引用；ChatGPT-User、Claude-User、Perplexity-User 則是使用者觸發讀取。內容站通常先分用途管理，再決定哪些放行、限速或封鎖。

Google-Extended 封鎖後會影響 Google 搜尋排名嗎？

Google 官方文件說 Google-Extended 不影響網站是否出現在 Google 搜尋，也不是 Google 搜尋排名訊號。它是 robots.txt 裡的控制用 token，用來管理內容是否可用於 Gemini Apps、Vertex AI API for Gemini 與相關 grounding 用途。搜尋收錄仍要另外看 Googlebot、sitemap、索引狀態與內容品質。

robots.txt 能防止 AI 公司讀我的付費內容嗎？

不能把它當成防火牆。可信爬蟲多半會尊重 robots.txt，但付費內容、會員資料、API、下載檔與內部文件應靠登入、權限、WAF、伺服器規則與資料分級處理。robots.txt 適合表達抓取偏好，不適合保護機密資料。

一般部落格需要 AWS WAF、Cloudflare Pay Per Crawl 或 Monetization Gateway 嗎？

通常先不需要。這類付費存取機制比較適合媒體、資料庫、API provider、高價值研究內容或已經看到大量 AI bot 成本的網站。一般部落格與品牌站先做 log 監控、快取、速率限制、敏感路徑封鎖與 AI 可讀入口整理，會比一開始處理錢包、付款失敗、對帳與授權條款更實際。

要怎麼知道 AI 爬蟲政策有沒有生效？

看變更後 24 到 72 小時的 bot 流量、熱門路徑、狀態碼、origin requests、cache hit rate 與 AI 來源流量。若官方 bot 仍大量抓被禁止路徑，先確認 robots.txt 語法、快取與 User-Agent 是否正確；若是冒名或未驗證 bot，就改到 WAF、CDN 或伺服器層處理。

№ · further reading