GEO a prywatność i GDPR — co AI engines zbierają z Twojego sklepu | Polar Commerce

Właściciele sklepów Shopify zadają dziś jedno pytanie częściej niż inne: jeśli zoptymalizuję sklep pod GEO, to czy ChatGPT, Perplexity albo Gemini nie zbiorą danych moich klientów? Krótka odpowiedź brzmi: nie. Długa odpowiedź to reszta tego artykułu.

Co AI crawlery faktycznie widzą

AI boty (GPTBot, PerplexityBot, ClaudeBot, Google-Extended) działają dokładnie tak samo jak Googlebot — pobierają publicznie dostępny HTML. Nie mają dostępu do:

koszyka i sesji klienta (cookie-based, server-side),

panelu administracyjnego Shopify,

danych zamówień, adresów, historii płatności,

kont klientów za loginem,

webhooków i API calls.

Crawler widzi to samo, co niezalogowany użytkownik odwiedzający stronę produktu. Widzi nazwę produktu, opis, cenę, recenzje, FAQ — jeśli umieściłeś je w HTML. Nie widzi niczego, co jest za mechanizmem uwierzytelniania.

GDPR a publiczny content

GDPR reguluje przetwarzanie danych osobowych. Dane osobowe to informacje, które pozwalają zidentyfikować konkretną osobę — imię i nazwisko, adres e-mail, adres IP, dane lokalizacyjne. Nazwa produktu "Kurtka puchowa 650FP rozmiar L" nie jest daną osobową.

Crawlowanie publicznie dostępnych treści przez AI engine nie wymaga zgody na cookies, nie uruchamia obowiązku informacyjnego z art. 13 GDPR i nie generuje podstawy do rejestracji czynności przetwarzania. To ta sama zasada, która pozwala Google indeksować Twój sklep bez pytania klientów o zgodę.

Gdzie pojawia się rzeczywiste ryzyko GDPR? Jeśli nieświadomie umieścisz dane osobowe w publicznym HTML. Przykłady:

imię i nazwisko autora recenzji w schemacie schema.org/Review,

dane kontaktowe osoby fizycznej w schema Organization,

treść maila klienta wklejona do opisu produktu (tak, to się zdarza).

Dane osobowe w schema.org — co usunąć

Schemat Product/Review może zawierać pole "author". Jeśli używasz prawdziwych imion i nazwisk klientów, crawler AI przeczyta te dane i może je zindeksować. Rekomendacja: używaj pseudonimów ("Ania K.", "Piotr z Krakowa") albo wyłącznie imion bez nazwisk. To powszechna praktyka, zgodna z GDPR i nienaruszająca wartości recenzji dla AI.

W schemacie Organization w polu "contactPoint" lub "founder" nie umieszczaj danych osobowych osób, które nie wyraziły zgody na ich publiczne eksponowanie.

llms.txt jako narzędzie transparentności

Plik llms.txt (analogiczny do robots.txt, ale skierowany do LLM-ów) to dobrowolny standard opisujący strukturę i zawartość Twojego sklepu w formacie czytelnym dla modeli językowych. Nie chroni danych — chroni kontekst.

Dobrze napisany llms.txt mówi modelowi: "to jest sklep z odzieżą outdoorową, oto nasze kategorie, oto strony z prawdziwą treścią ekspercką, tu możesz cytować." To narzędzie zwiększające AI visibility, nie narzędzie prywatności. Nie umieszczaj w llms.txt żadnych danych osobowych ani wewnętrznych URL-i, które nie powinny być publiczne.

robots.txt i meta robots — kontrola granularna

Jeśli chcesz zablokować konkretne boty AI przed indeksowaniem wybranych sekcji, masz dwa narzędzia:

robots.txt na poziomie domeny:

Blokowanie tylko GPTBot (OpenAI) od indeksowania podkatalogu:

User-agent: GPTBot

Disallow: /collections/sale/

Meta robots na poziomie strony:

noindex, nofollow

Meta tag z wartością noai lub noimageai blokuje indeksowanie przez niektóre AI (obsługa jest niespójna między botami w 2026 roku — robots.txt jest bardziej niezawodny).

Ważny trade-off: każde Disallow dla AI bota to utracona szansa na cytowanie. Jeśli zablokujesz GPTBot całkowicie, Twoje produkty nie pojawią się w odpowiedziach ChatGPT. Decyzja powinna być świadoma, nie domyślna.

EU AI Act — implikacje dla twórców contentu

EU AI Act (Rozporządzenie UE 2024/1689, obowiązujące etapami od 2024 do 2027) nakłada obowiązki głównie na twórców i operatorów systemów AI, nie na właścicieli stron internetowych. Jako właściciel sklepu Shopify jesteś stroną, której treści mogą być używane do trenowania modeli — nie jesteś operatorem AI.

Co to oznacza w praktyce:

Wielcy dostawcy modeli (OpenAI, Google, Anthropic, Meta) muszą ujawniać dane treningowe i stosować się do wymogów przejrzystości.

Masz prawo zastrzec, że Twoje treści nie mają być używane do trenowania (opt-out).

AI Act nie zabrania crawlowania publicznie dostępnych treści do celów wyszukiwania i cytowania — to odróżnia inference (cytowanie) od training (uczenie modelu).

AI training opt-out — czy warto?

OpenAI respektuje dyrektywę Disallow dla GPTBot w robots.txt jako sygnał opt-out z trenowania. Podobnie zachowuje się Common Crawl, z którego korzysta wiele mniejszych modeli.

Dodanie:

User-agent: GPTBot

Disallow: /

blokuje OpenAI zarówno od crawlowania do celów wyszukiwania (SearchGPT/ChatGPT Shopping), jak i trenowania. To pełna blokada, nie selective opt-out.

Jeśli zależy Ci na widoczności w ChatGPT, ale chcesz zrezygnować z trenowania — to na dziś (maj 2026) nie jest możliwe przez robots.txt. OpenAI nie oferuje osobnego User-agent dla crawlera inferencyjnego i treningowego.

Rekomendacja dla EU/UK/CH brandów: Nie blokuj AI crawlerów, jeśli nie masz konkretnego powodu (np. strona w fazie soft-launch, treści objęte tajemnicą handlową). Domyślna otwartość jest korzystna dla widoczności.

Zbilansowane rekomendacje

Sytuacja	Rekomendacja
Sklep B2C z produktami publicznymi	Pozwól wszystkim botom, optimizuj GEO
Strony promotion/sale z cenami tymczasowymi	Disallow dla AI botów na /collections/sale/
Recenzje z pełnymi imionami i nazwiskami	Pseudonimizuj dane w schemacie Review
Sklep B2B z cennikami tylko dla zalogowanych	Cenniki chronione loginem — AI i tak nie dotrze
Nowy sklep w trybie password protected	Crawlery nie widzą treści za hasłem — GDPR safe

7 często zadawanych pytań

1. Czy AI bot może przeczytać historię zamówień moich klientów?

Nie. Historia zamówień jest dostępna tylko po zalogowaniu. AI crawler nie posiada sesji uwierzytelnionej i nie może zalogować się na konto klienta.

2. Czy muszę informować klientów w polityce prywatności o AI crawlerach?

Nie ma takiego obowiązku wynikającego z GDPR lub EU AI Act (stan na maj 2026). Crawlowanie publicznych treści nie jest przetwarzaniem danych klientów.

3. Czy llms.txt jest wymagany przez GDPR lub EU AI Act?

Nie. llms.txt jest standardem branżowym (nieregulowanym), nie wymogiem prawnym.

4. Co się stanie, jeśli zablokuję wszystkich AI botów w robots.txt?

Twój sklep nie będzie cytowany w ChatGPT, Perplexity, Gemini ani Bing Copilot. Google AI Overviews nadal może używać wyników organicznych, ale z mniejszą efektywnością.

5. Czy GPTBot i OAI-SearchBot to to samo?

Nie. GPTBot służy do budowania bazy wiedzy/trenowania, OAI-SearchBot to crawler dla ChatGPT Search (inference). Możesz blokować je selektywnie, ale OpenAI może zmieniać przyporządkowanie bez uprzedzenia.

6. Czy opinie klientów w schemacie Review podlegają GDPR?

Jeśli zawierają dane identyfikujące osobę (pełne imię i nazwisko), tak. Pseudonimizacja (imię + pierwsza litera nazwiska) zazwyczaj wystarczy, by wyjść spod definicji danych osobowych.

7. Czy EU AI Act obowiązuje sklepy spoza UE sprzedające do UE?

W zakresie dotyczącym systemów AI — tak, na zasadzie podobnej do GDPR. Ale jako właściciel sklepu (nie operator AI) masz minimalne obowiązki. Twój dostawca modelu AI (np. OpenAI) ma obowiązki wobec Ciebie i Twoich klientów.