GPTBot, PerplexityBot, Google-Extended — wpuszczać czy blokować? | Polar Commerce

Q: Czy Shopify ma natywną opcję zarządzania botami AI?

Częściowo. Shopify pozwala edytować robots.txt.liquid od 2022. Można dodać per-bot rules. Sprawdź: Online Store → Themes → Edit code → templates/robots.txt.liquid.

Krótka odpowiedź: dla zdecydowanej większości marek Shopify rekomendujemy odblokowanie wszystkich głównych botów AI — GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, ClaudeBot, anthropic-ai, Google-Extended, MetaExternalAgent. Blokowanie ich w 2026 to wycinanie marki z grafu wiedzy AI na lata. Szczegółowy compromise per bot — poniżej.

Trade-off w skrócie

Opcja	Plus	Minus
Allow wszystkich	Marka w treningu modeli + dostępna w live search	AI może cytować bez kompensacji (klasyczny SEO ten sam problem)
Block training, allow search	Pełna obecność w ChatGPT Search/Perplexity, brak w wbudowanej wiedzy	Kompromis nie zawsze respektowany
Block wszystko	Pełna kontrola	Wycina markę z AI search na lata

W praktyce: blokujesz = znikasz z generation AI search. Większość marek e-commerce traci więcej na niewidoczności niż "zyskuje" na ochronie content.

Pełna tabela botów AI

User-agent	Operator	Cel	Rekomendacja dla Shopify
GPTBot	OpenAI	Trening modeli (GPT-4, GPT-5)	Allow
OAI-SearchBot	OpenAI	Index dla ChatGPT Search	Allow (krytyczne)
ChatGPT-User	OpenAI	On-demand fetch z chata	Allow (krytyczne)
PerplexityBot	Perplexity	Index Perplexity	Allow (krytyczne)
Perplexity-User	Perplexity	On-demand fetch	Allow (krytyczne)
ClaudeBot	Anthropic	Trening modeli Claude	Allow
anthropic-ai	Anthropic	Stary user-agent (deprecated)	Allow (kompatybilność)
Claude-Web	Anthropic	On-demand fetch	Allow (krytyczne)
Google-Extended	Google	Trening Gemini/Bard	Allow (decydujące dla AI Overviews)
MetaExternalAgent	Meta	Trening Llama, AI w Meta produktach	Allow
Bytespider	ByteDance	Trening AI w TikTok/Doubao	Optional (rośnie znaczenie w Asia)
Amazonbot	Amazon	Index Alexa, Rufus	Allow jeśli sprzedajesz w Amazon ekosystemie
Applebot-Extended	Apple	Trening Apple Intelligence	Allow

Gotowy szablon robots.txt dla Shopify

# Standard search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI search engines — explicit allow (some respect default-allow, some don't)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: MetaExternalAgent
Allow: /

User-agent: Applebot-Extended
Allow: /

# Block scrapers / unwanted bots
User-agent: SemrushBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

# Block Shopify checkout pages from all bots
User-agent: *
Disallow: /checkout
Disallow: /cart
Disallow: /account
Disallow: /admin
Disallow: /search

Sitemap: https://example.com/sitemap.xml

Kiedy zablokować trening (ale zostawić search)

Blokuj GPTBot, ClaudeBot, Google-Extended, MetaExternalAgent (training-only) jeśli:

Sprzedajesz głównie content (e-book, kursy, software) — nie chcesz, żeby AI wytrenowało model na Twoich materiałach

Masz strict NDA / IP — bardzo rzadkie w e-commerce DTC

Twoja branża to wysokowartościowy IP (medyczne, prawne, finansowe)

W każdym z tych przypadków NIE blokuj OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-Web — to live search bots, blokowanie ich = zniknięcie z AI search.

Kiedy zablokować wszystko

Praktycznie nigdy dla DTC e-commerce. Jedyne case: B2B z bardzo wąskim, autoryzowanym audytorium, gdzie nie chcesz publicznej widoczności w ogóle. Wtedy blokuj cały robots.txt + dodaj IP allowlist na infra.

Najczęstsze mity

Mit	Reality
"Blokowanie GPTBot chroni mój content"	Inne boty (jakieś bezimienne) i tak go pobiorą; tracisz tylko OpenAI ecosystem
"AI kradnie mój content jeśli wpuszczę boty"	Klasyczne SERPs robią to samo od 20 lat; AI dodaje cytat z linkiem
"Blokowanie zwiększa moje przychody"	Brak ewidencji; mamy klientów, którzy stracili 30% AI traffic po blokowaniu
"Małe sklepy nie potrzebują tego"	Małe sklepy potrzebują GEO bardziej — to równe pole gry

Najczęściej zadawane pytania

Czy boty AI respektują robots.txt?

Główne (GPTBot, PerplexityBot, ClaudeBot, Google-Extended) — tak, dokumentują zgodność. Mniejsze i nieoficjalne (Bytespider) — bywa różnie. Praktyka: respektują, ale to dobrowolne.

Co jeśli nie chcę być w treningu, ale chcę być w search?

Blokuj GPTBot, ClaudeBot, Google-Extended, MetaExternalAgent (training). Pozwól na OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-Web (search). Ten kompromis działa, ale tracisz long-term presence w wbudowanej wiedzy modeli.

Czy mogę kontrolować to per podstronę?

Tak, robots.txt obsługuje per-path rules. Ale praktyczniej: użyj meta robots `` na konkretnych stronach.

Co z Common Crawl?

Common Crawl (CCBot) jest open-source dataset używany przez wielu (w tym OpenAI w przeszłości). Allow domyślnie; blokuj, jeśli masz uzasadnione obawy o IP.

Czy istnieje "AI tax" — opłata za bycie cytowanym?

Nie, nie istnieje. OpenAI płaci niektórym wydawcom (Axel Springer, FT, Reddit) za licencjonowanie content, ale to są deals enterprise. Małe i średnie marki cytowane "za darmo" — i to dobrze, bo cytowanie generuje traffic.

Co po treningu? Czy mogę "wyciągnąć" markę z modelu?

Praktycznie nie. Jeśli model został wytrenowany na Twoim content, "unlearn" nie jest deterministyczne. Unique selling point: lepiej być cytowanym z dobrym kontekstem niż nie być w ogóle.

Czy Shopify ma natywną opcję zarządzania botami AI?

Częściowo. Shopify pozwala edytować `robots.txt.liquid` od 2022. Można dodać per-bot rules. Sprawdź: Online Store → Themes → Edit code → templates/robots.txt.liquid.