GPTBot, PerplexityBot, Google-Extended — wpuszczać czy blokować?
Pełna analiza decyzji: wpuścić czy zablokować boty AI? Każdy crawler wyjaśniony, gotowy szablon robots.txt dla sklepu Shopify.
Krótka odpowiedź: dla zdecydowanej większości marek Shopify rekomendujemy odblokowanie wszystkich głównych botów AI — GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, ClaudeBot, anthropic-ai, Google-Extended, MetaExternalAgent. Blokowanie ich w 2026 to wycinanie marki z grafu wiedzy AI na lata. Szczegółowy compromise per bot — poniżej.
Trade-off w skrócie
| Opcja | Plus | Minus |
|---|---|---|
| Allow wszystkich | Marka w treningu modeli + dostępna w live search | AI może cytować bez kompensacji (klasyczny SEO ten sam problem) |
| Block training, allow search | Pełna obecność w ChatGPT Search/Perplexity, brak w wbudowanej wiedzy | Kompromis nie zawsze respektowany |
| Block wszystko | Pełna kontrola | Wycina markę z AI search na lata |
W praktyce: blokujesz = znikasz z generation AI search. Większość marek e-commerce traci więcej na niewidoczności niż "zyskuje" na ochronie content.
Pełna tabela botów AI
| User-agent | Operator | Cel | Rekomendacja dla Shopify |
|---|---|---|---|
| GPTBot | OpenAI | Trening modeli (GPT-4, GPT-5) | Allow |
| OAI-SearchBot | OpenAI | Index dla ChatGPT Search | Allow (krytyczne) |
| ChatGPT-User | OpenAI | On-demand fetch z chata | Allow (krytyczne) |
| PerplexityBot | Perplexity | Index Perplexity | Allow (krytyczne) |
| Perplexity-User | Perplexity | On-demand fetch | Allow (krytyczne) |
| ClaudeBot | Anthropic | Trening modeli Claude | Allow |
| anthropic-ai | Anthropic | Stary user-agent (deprecated) | Allow (kompatybilność) |
| Claude-Web | Anthropic | On-demand fetch | Allow (krytyczne) |
| Google-Extended | Trening Gemini/Bard | Allow (decydujące dla AI Overviews) | |
| MetaExternalAgent | Meta | Trening Llama, AI w Meta produktach | Allow |
| Bytespider | ByteDance | Trening AI w TikTok/Doubao | Optional (rośnie znaczenie w Asia) |
| Amazonbot | Amazon | Index Alexa, Rufus | Allow jeśli sprzedajesz w Amazon ekosystemie |
| Applebot-Extended | Apple | Trening Apple Intelligence | Allow |
Gotowy szablon robots.txt dla Shopify
# Standard search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI search engines — explicit allow (some respect default-allow, some don't)
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: MetaExternalAgent
Allow: /
User-agent: Applebot-Extended
Allow: /
# Block scrapers / unwanted bots
User-agent: SemrushBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
# Block Shopify checkout pages from all bots
User-agent: *
Disallow: /checkout
Disallow: /cart
Disallow: /account
Disallow: /admin
Disallow: /search
Sitemap: https://example.com/sitemap.xmlKiedy zablokować trening (ale zostawić search)
Blokuj GPTBot, ClaudeBot, Google-Extended, MetaExternalAgent (training-only) jeśli:
W każdym z tych przypadków NIE blokuj OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-Web — to live search bots, blokowanie ich = zniknięcie z AI search.
Kiedy zablokować wszystko
Praktycznie nigdy dla DTC e-commerce. Jedyne case: B2B z bardzo wąskim, autoryzowanym audytorium, gdzie nie chcesz publicznej widoczności w ogóle. Wtedy blokuj cały robots.txt + dodaj IP allowlist na infra.
Najczęstsze mity
| Mit | Reality |
|---|---|
| "Blokowanie GPTBot chroni mój content" | Inne boty (jakieś bezimienne) i tak go pobiorą; tracisz tylko OpenAI ecosystem |
| "AI kradnie mój content jeśli wpuszczę boty" | Klasyczne SERPs robią to samo od 20 lat; AI dodaje cytat z linkiem |
| "Blokowanie zwiększa moje przychody" | Brak ewidencji; mamy klientów, którzy stracili 30% AI traffic po blokowaniu |
| "Małe sklepy nie potrzebują tego" | Małe sklepy potrzebują GEO bardziej — to równe pole gry |
Najczęściej zadawane pytania
Czy boty AI respektują robots.txt?
Główne (GPTBot, PerplexityBot, ClaudeBot, Google-Extended) — tak, dokumentują zgodność. Mniejsze i nieoficjalne (Bytespider) — bywa różnie. Praktyka: respektują, ale to dobrowolne.
Co jeśli nie chcę być w treningu, ale chcę być w search?
Blokuj GPTBot, ClaudeBot, Google-Extended, MetaExternalAgent (training). Pozwól na OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-Web (search). Ten kompromis działa, ale tracisz long-term presence w wbudowanej wiedzy modeli.
Czy mogę kontrolować to per podstronę?
Tak, robots.txt obsługuje per-path rules. Ale praktyczniej: użyj meta robots `` na konkretnych stronach.
Co z Common Crawl?
Common Crawl (CCBot) jest open-source dataset używany przez wielu (w tym OpenAI w przeszłości). Allow domyślnie; blokuj, jeśli masz uzasadnione obawy o IP.
Czy istnieje "AI tax" — opłata za bycie cytowanym?
Nie, nie istnieje. OpenAI płaci niektórym wydawcom (Axel Springer, FT, Reddit) za licencjonowanie content, ale to są deals enterprise. Małe i średnie marki cytowane "za darmo" — i to dobrze, bo cytowanie generuje traffic.
Co po treningu? Czy mogę "wyciągnąć" markę z modelu?
Praktycznie nie. Jeśli model został wytrenowany na Twoim content, "unlearn" nie jest deterministyczne. Unique selling point: lepiej być cytowanym z dobrym kontekstem niż nie być w ogóle.
Czy Shopify ma natywną opcję zarządzania botami AI?
Częściowo. Shopify pozwala edytować `robots.txt.liquid` od 2022. Można dodać per-bot rules. Sprawdź: Online Store → Themes → Edit code → templates/robots.txt.liquid.