Po co w ogóle myśleć o RODO przy ChatGPT?
Użytkownicy traktują często ChatGPT jak inteligentny notatnik albo „bardziej ogarniętą wyszukiwarkę”. W praktyce to zewnętrzny system, który przetwarza dane w chmurze, poza Twoim komputerem i często poza Unią Europejską. Każdy fragment tekstu, który wklejasz do ChatGPT, wędruje przez serwery dostawcy i zostawia ślad – przynajmniej na jakiś czas. To zupełnie inna sytuacja niż napisanie czegoś w lokalnym edytorze tekstu.
Jeśli w treści pojawiają się dane osobowe – Twoje, współpracowników, klientów, pacjentów czy kontrahentów – od razu wchodzisz w obszar RODO. Nie ma znaczenia, czy „tylko coś sprawdzasz”, czy „to wyłącznie na chwilę”. Z punktu widzenia ochrony danych liczy się sam fakt, że dane trafiają do kolejnego podmiotu przetwarzającego, z własną infrastrukturą i własnymi ryzykami.
Konsekwencje bagatelizowania tego tematu są bardzo przyziemne: od nieprzyjemnej rozmowy z przełożonym, przez zgłoszenie naruszenia do UODO, aż po utratę zaufania klientów czy wizerunkowy kryzys firmy. Kary finansowe istnieją, ale w praktyce najdotkliwsze bywają skutki organizacyjne: konieczność informowania osób, że ich dane „wypłynęły” do zewnętrznego narzędzia, audyty wewnętrzne, blokada korzystania z nowoczesnych narzędzi.
Na jednym biegunie jest skrajny strach: „z AI nie wolno korzystać wcale, bo RODO”. Taka postawa zabija innowacje i zrzuca ludzi z powrotem do Excela z 2003 roku. Na drugim biegunie stoi beztroska: „przecież wszyscy wszystko zbierają, to co za różnica”. To z kolei przepis na to, by prędzej czy później coś faktycznie „wystrzeliło” – wystarczy jeden incydent, jedno niefortunne wklejenie CV kandydata czy historii medycznej pacjenta.
RODO bywa przedstawiane jako zestaw zakazów albo straszaków finansowych. Tymczasem jego sens jest znacznie prostszy: chodzi o rozsądne zarządzanie informacjami o ludziach. Kto ma do nich dostęp, po co, na jak długo, na jakich zasadach. W kontekście ChatGPT oznacza to po prostu: używać narzędzia, ale z głową, z minimalizacją danych i pokoju z tym, że nie wszystko nadaje się do wklejenia w okno czatu.
Co to są dane osobowe w wersji dla nie-prawnika
Dane osobowe brzmią groźnie i abstrakcyjnie, a to po prostu informacje, które dotyczą konkretnej osoby i pozwalają ją choćby pośrednio zidentyfikować. Czasem wystarczy jedna dana (np. unikalny PESEL), czasem dopiero połączenie kilku elementów tworzy pełny obraz człowieka. Istotne jest nie tylko, jakie informacje podajesz, ale również w jakim kontekście je umieszczasz.
Oczywiste przykłady danych osobowych
Do kategorii „oczywiste dane osobowe” wpadają wszystkie rekordy, których nikt rozsądny nie chciałby zobaczyć w nieautoryzowanych rękach. To m.in.:
- imię i nazwisko w połączeniu z innym identyfikatorem (np. firmą, stanowiskiem, adresem),
- PESEL, numer dowodu osobistego, paszportu, prawa jazdy, NIP osoby fizycznej,
- adres zamieszkania lub adres korespondencyjny powiązany z osobą,
- adres e-mail typu „imię.nazwisko@firma.pl” albo prywatny „jan.kowalski@…”,
- numer telefonu przypisany do konkretnej osoby,
- numer rachunku bankowego, jeśli można go powiązać z konkretnym człowiekiem.
Jeśli takie elementy pojawiają się w tekście wklejanym do ChatGPT, nie ma wątpliwości: przetwarzasz dane osobowe. Tu nie ma „szarej strefy” ani pola do interpretacji. Dotyczy to zarówno danych Twoich własnych, jak i innych osób. Przykład: pełne CV kandydata, skan wniosku o urlop, screen z systemu CRM z widocznymi danymi klientów.
Mniej oczywiste identyfikatory i kontekst
Trudniejsza część zaczyna się wtedy, gdy nie widać od razu imienia i nazwiska, ale opis i tak pozwala domyślić się, o kogo chodzi. Dane osobowe to również sytuacje, gdy na podstawie kombinacji kilku informacji realna osoba może zostać zidentyfikowana bez nadmiernego wysiłku. Działa tu zasada: „w kontekście tej grupy osób to ewidentnie ta konkretna osoba”.
Przykłady mniej oczywistych danych osobowych w praktyce:
- unikalny login użytkownika w małej firmie, gdy każdy wie, że „mkowalski” to Marek Kowalski z IT,
- numer klienta w jednym systemie, jeśli jednocześnie wklejasz opis transakcji lub działu, gdzie pracuje,
- szczegółowy opis sytuacji życiowej: „jedyna rozwiedziona księgowa po pięćdziesiątce w naszym dziale”,
- informacja o tym, że „szef marketingu z Wrocławia zrezygnował z leczenia onkologicznego” – nawet bez imienia, dla zespołu będzie oczywiste, kto to.
RODO stosuje tzw. test rozsądnego prawdopodobieństwa identyfikacji. Jeśli w realnych warunkach, korzystając z dostępnych informacji, da się względnie łatwo dojść do konkretnej osoby, to mówimy o danych osobowych. W małej lokalnej firmie czy w niszowej społeczności wystarczy dużo mniej niż w anonimowej bazie milionów rekordów.
Dane zwykłe a dane wrażliwe (szczególnych kategorii)
RODO rozróżnia dane zwykłe oraz dane szczególnych kategorii, zwane wrażliwymi. Z punktu widzenia ChatGPT to rozróżnienie jest kluczowe, bo danych wrażliwych po prostu nie wolno wrzucać do publicznych usług AI, chyba że mówimy o bardzo specyficznych, mocno zabezpieczonych wdrożeniach korporacyjnych (i to przy wysokim rygorze formalnym).
Do danych wrażliwych należą m.in. informacje o:
- zdrowiu fizycznym i psychicznym, leczeniu, niepełnosprawności,
- poglądach politycznych, przynależności partyjnej, związkach zawodowych,
- orientacji seksualnej, życiu intymnym,
- pochodzeniu rasowym lub etnicznym,
- wyznaniu religijnym czy światopoglądzie,
- danych biometrycznych (np. odciski palców) i genetycznych.
Wrażliwą daną może być zarówno zapis z historii choroby, jak i pozornie niewinna uwaga: „nasza koleżanka z HR, która leczy się na depresję i ma zwolnienie do końca miesiąca”. Nawet jeśli nie pada nazwisko, w niewielkim zespole taka informacja jest jednoznaczna. Dlatego dane wrażliwe wymagają szczególnej ostrożności i z zasady nie powinny być w ogóle wprowadzane do ChatGPT w normalnym, komercyjnym trybie.
Scenka z życia: konflikt pracowniczy i inicjały
Przykład z praktyki: pracownik działu kadr chce napisać mail w sprawie konfliktu między dwiema osobami. Kopiuje treść notatki: „W dziale sprzedaży doszło do kolejnego starcia między K.K. a A.N. K.K. od kilku miesięcy zgłasza, że A.N. wysyła do niego wulgarne wiadomości po godzinach. Obaj pracują w naszej firmie od ponad 5 lat. Szef działu już wie, ale nic z tym nie robi”.
Osoba ta wkleja opis do ChatGPT z prośbą: „Przeredaguj tę wiadomość, żeby zabrzmiała bardziej profesjonalnie, zachowując sens”. Padają tylko inicjały i nazwa działu. Czy to już dane osobowe? Dla laika: „przecież nie ma nazwisk, więc bezpieczne”. Dla RODO: tak, to dane osobowe, a do tego potencjalnie dane dotyczące życia prywatnego i zachowań, które można uznać za naganne czy nawet przestępcze.
W realnej firmie łatwo powiązać inicjały z konkretnymi nazwiskami. Dochodzi kontekst konfliktu, opis relacji służbowych, długość zatrudnienia. Mamy więc komplet danych o konkretnych ludziach, przekazany zewnętrznemu dostawcy. To klasyczny przypadek naruszenia zasad przetwarzania danych w systemie, który nie jest do tego przeznaczony.

Jak działa ChatGPT „od kuchni” z punktu widzenia danych
Bez zrozumienia, co technicznie dzieje się z wklejonym tekstem, trudno ocenić, które ryzyka są realne, a które wydumane. ChatGPT jest usługą chmurową dostarczaną przez firmę zewnętrzną (OpenAI i partnerów). Dane wpisywane w oknie czatu nie są przetwarzane lokalnie na Twoim komputerze, ale na serwerach dostawcy, które mogą znajdować się w różnych lokalizacjach, często poza UE.
Gdzie trafiają dane i co znaczy „przetwarzanie w chmurze”
Tekst, który wklejasz do ChatGPT, jest wysyłany przez internet do serwerów dostawcy. Tam jest:
- tymczasowo przechowywany jako treść konkretnej sesji lub rozmowy,
- analizowany przez model językowy, który na tej podstawie generuje odpowiedź,
- w określonych konfiguracjach – wykorzystywany do ulepszania modelu (chyba że w ustawieniach / umowach ustalono inaczej).
„Chmura” oznacza w praktyce cudze komputery, cudzą infrastrukturę i cudze procedury bezpieczeństwa. Masz wpływ na pewne ustawienia prywatności w panelu użytkownika, ale nie kontrolujesz fizycznej lokalizacji serwerów, mechanizmów logowania czy kopii zapasowych. Dlatego z perspektywy RODO korzystanie z ChatGPT to zawsze przekazywanie danych kolejnemu podmiotowi przetwarzającemu.
Nie ma znaczenia, że nie podajesz tam nazwiska „JAN KOWALSKI”, jeśli opis pozwala go zidentyfikować. Z punktu widzenia prawa przekazujesz dane osobowe do dostawcy, który staje się odbiorcą tych danych, a w pewnych konfiguracjach – także podmiotem przetwarzającym w rozumieniu RODO.
Trening modelu vs generowanie odpowiedzi
W dyskusjach o RODO a sztucznej inteligencji często miesza się dwa różne procesy:
- trening modelu – długotrwałe uczenie systemu na ogromnych zbiorach danych (np. tekstach z internetu, bazach licencjonowanych),
- generowanie odpowiedzi – bieżące wykorzystanie wytrenowanego modelu do odpowiadania na prompty użytkowników.
Tekst, który wklejasz do ChatGPT, jest wykorzystywany przede wszystkim w tym drugim procesie: model na bieżąco generuje odpowiedź na podstawie Twojego promptu. Dodatkowo część usług może wykorzystywać dane z rozmów do dalszego ulepszania modelu (np. do tzw. fine-tuningu), chyba że wyłączysz taką opcję albo korzystasz z wariantu, który z definicji tego nie robi (np. określone wersje biznesowe).
Dla RODO istotne jest jedno: zawsze dochodzi do przetwarzania. Nawet jeśli dane nie trafiają do głównego procesu treningowego, są przechowywane przez pewien czas w logach, systemach analitycznych, zabezpieczeniach antynadużyciowych. Slogan „u nas dane nie służą do trenowania modelu” nie oznacza, że w ogóle nie są zbierane i przetwarzane. Oznacza tylko pewne zawężenie sposobu użycia.
Co wynika z regulaminu i polityki prywatności ChatGPT
Szczegóły mogą się zmieniać, ale z perspektywy laika kluczowe są trzy fakty:
- dostawca zastrzega, że może przechowywać treści rozmów przez określony czas (np. na potrzeby bezpieczeństwa, analiz, ulepszania usług),
- może dochodzić do przekazywania danych poza EOG (np. do USA) z zastosowaniem określonych mechanizmów transferu danych,
- nie zapewniasz sobie automatycznie statusu „bezpiecznego przetwarzania” tylko dlatego, że narzędzie jest popularne lub „wszyscy go używają”.
Regulaminy zwykle podkreślają również odpowiedzialność użytkownika za to, jakie dane wprowadza do systemu. Innymi słowy: jeśli Ty jako pracownik wrzucisz do ChatGPT pełną listę klientów z numerami telefonów, to nie jest to „wina AI”, tylko Twoja i Twojej organizacji, która nie zadbała o zasady korzystania z takich narzędzi.
Usuwanie historii czatu a faktyczne usunięcie danych
Funkcja „usuń czat” czy „wyczyść historię” działa głównie na poziomie interfejsu użytkownika. Twój panel przestaje wyświetlać wcześniejsze rozmowy, co z punktu widzenia komfortu korzystania z narzędzia ma znaczenie, ale nie oznacza, że dane zniknęły natychmiast z wszystkich serwerów, logów, kopii zapasowych i systemów analitycznych.
Zwykle w regulaminach zastrzeżone jest, że treści mogą być utrzymywane jeszcze przez pewien czas, np. w logach technicznych, w celach zabezpieczenia przed nadużyciami czy rozstrzygania sporów. Z perspektywy RODO istotne jest, że po wklejeniu danych do ChatGPT nie masz nad nimi pełnej kontroli, jak nad plikiem zapisanym na lokalnym dysku. Stąd tak ważna jest zasada: lepiej nie wklejać, niż później żałować.
Wersje enterprise i biznesowe – kiedy zmieniają zasady gry
Duże organizacje coraz częściej korzystają z wersji enterprise lub instancji uruchamianych w dedykowanym środowisku (np. w chmurze korporacyjnej), gdzie:
- dane z rozmów nie są wykorzystywane do trenowania ogólnodostępnego modelu,
- obowiązują dodatkowe umowy powierzenia przetwarzania danych (DPA),
- procesy bezpieczeństwa i przechowywania danych są szczegółowo udokumentowane.
Granice odpowiedzialności: kto ryzykuje przy wklejaniu danych
Popularna narracja brzmi: „to OpenAI ma problem z RODO, nie ja”. W praktyce często jest odwrotnie. Z perspektywy urzędu ochrony danych to Twoja organizacja odpowiada za to, że dane w ogóle trafiły do narzędzia, które nie jest przewidziane jako system kadrowy, CRM czy medyczny. Dopiero w drugiej kolejności bada się, czy dostawca wywiązał się ze swoich obowiązków.
Rozkład odpowiedzialności w najprostszym ujęciu wygląda tak:
- administratorem danych pozostaje Twoja firma, urząd, fundacja – to tam zapada decyzja, że do jakiegoś procesu (np. obsługi klienta, rekrutacji) używacie ChatGPT,
- podmiotem przetwarzającym może być dostawca narzędzia, jeśli są zawarte odpowiednie umowy i ChatGPT jest formalnie włączony w proces przetwarzania,
- pracownik lub zleceniobiorca może naruszyć wewnętrzne polityki, gdy „na własną rękę” wkleja dane, które nigdy nie powinny trafić poza organizację.
Standardowa rada compliance brzmi: „zablokować pracownikom dostęp do ChatGPT”. To czasem ma sens – szczególnie w podmiotach przetwarzających dane wrażliwe na dużą skalę, jak kliniki czy kancelarie. W wielu innych miejscach kończy się to jednak masowym obchodzeniem blokad na prywatnych telefonach i poczuciem, że polityka bezpieczeństwa jest z innej planety. Zamiast ślepego zakazu lepiej połączyć techniczne ograniczenia z jasnymi, zrozumiałymi zasadami: co wolno, czego nie i dlaczego.
Czego absolutnie nie wklejać: czerwone linie
Czerwone linie to obszary, gdzie ryzyko jest oczywiste, a potencjalne szkody – trudne do odkręcenia. Tutaj nie szukamy „sprytnych sposobów obejścia”, tylko budujemy prosty nawyk: tego do publicznego ChatGPT po prostu nie przenosimy.
Pełne profile konkretnych osób
Najgroźniejsze są zlepki wielu informacji o jednej osobie. Nawet jeśli pojedynczy element wydaje się neutralny, w pakiecie staje się czymś zupełnie innym.
Nie powinny trafiać do ChatGPT m.in.:
- opisy typu „pracownica działu X, lat 34, mieszka w Y, ma dwójkę dzieci, była już raz na L4 psychiatrycznym, właśnie kończymy z nią umowę” – nawet bez nazwiska większość firm od razu wie, o kogo chodzi,
- szczegółowe notatki z rozmów HR, ocen okresowych, rozmów dyscyplinujących,
- komentarze o wydajności, zachowaniach, „plotkach kadrowych” o konkretnych ludziach.
Kusi, żeby „przepuścić” takie teksty przez AI i uzyskać ładnie brzmiące maile czy protokoły. To ten sam odruch, który kiedyś kazał ludziom wysyłać sobie całe arkusze kadrowe na prywatne konta mailowe „żeby w domu popracować”. Różnica jest taka, że tu przekazujesz dane zewnętrznej platformie, często poza UE, a więc naruszenie skali i zasięgu jest znacznie poważniejsze.
Informacje medyczne i okołomedyczne
Opis stanu zdrowia to klasyczna dana wrażliwa. Podawanie jej wprost („ma zdiagnozowany nowotwór”) jest oczywistym naruszeniem, ale w praktyce niebezpieczne są też sytuacje mniej oczywiste, np.:
- „Pracownik jest po zabiegu psychiatrycznym, lekarz wystawił mu zaświadczenie o niezdolności do pracy do końca kwietnia” – tu wchodzimy w obszar zdrowia psychicznego i dokumentacji medycznej,
- „Kandydat poinformował nas, że ma wszczepiony rozrusznik serca, a na badaniach wyszła cukrzyca” – mamy już dwa konkretne fakty medyczne,
- skany lub przepisywanie wyników badań, kart informacyjnych ze szpitala, zaświadczeń od lekarzy.
Pokusa „przetłumaczenia diagnozy na ludzki język” albo „streszczenia historii choroby” jest duża. Jeśli naprawdę trzeba korzystać z AI w celach edukacyjnych, znacznie bezpieczniej jest przepisać fragment dokumentacji w całkowicie zanonimizowanej, przetworzonej formie, bez danych umożliwiających identyfikację konkretnej osoby i bez szczegółów, które zawężają krąg potencjalnych osób do kilku sąsiadów z piętra.
Dane finansowe i identyfikacyjne „jednostkowej wrażliwości”
Często bagatelizuje się ten obszar, dopóki nie dojdzie do realnego wycieku. Do czerwonej strefy należą przede wszystkim:
- numery PESEL, numery dowodów osobistych, paszportów, praw jazdy,
- numery kart płatniczych, kont bankowych, indywidualnych rachunków składkowych,
- pełne skany umów kredytowych, wyciągów bankowych, dokumentów komorniczych.
Popularny mit: „wkleję PDF z umową do ChatGPT, niech mi ją streści, szybciej pójdzie”. Problem w tym, że taka umowa to zwykle kopalnia danych wrażliwych finansowo: dochody, zobowiązania, adresy, numery identyfikacyjne. To dokładnie te informacje, które oszuści próbują zdobyć wszelkimi sposobami. Lepiej poświęcić kilka minut i wypisać kluczowe postanowienia własnymi słowami, niż oddawać pełny dokument w ręce zewnętrznego dostawcy.
Treści dotyczące dzieci i młodzieży
Dane dotyczące osób małoletnich są szczególnie chronione. Nawet dość neutralny z pozoru opis typu: „uczeń z klasy 4B, lat 10, z Zespołem Aspergera, ma problem z agresją wobec rówieśników” w szkole z jedną klasą równoległą jest de facto opisem konkretnego dziecka.
W strefie zakazu znajdują się m.in.:
- szczegółowe opisy problemów wychowawczych, edukacyjnych, psychologicznych przy wskazaniu klasy, szkoły, miejscowości,
- fragmenty opinii z poradni psychologiczno-pedagogicznej, orzeczeń o potrzebie kształcenia specjalnego,
- listy dzieci z podziałem na wyniki w nauce, frekwencję, problemy zdrowotne.
Nawet jeśli intencją jest „napisanie lepszego maila do rodzica”, ryzyko wycieku wrażliwych informacji o dzieciach znacząco przewyższa korzyść z podpowiedzi stylu od AI.
Treści objęte tajemnicą zawodową lub służbową
RODO to jedno, ale obok niego istnieją inne reżimy ochrony informacji: tajemnica adwokacka, lekarska, bankowa, ubezpieczeniowa, a także tajemnice przedsiębiorstwa. Wklejanie takich treści do publicznego narzędzia AI jest często po prostu niezgodne z ustawą regulującą dany zawód, niezależnie od tego, czy klient czy pacjent jest identyfikowalny z perspektywy RODO.
Pułapka: „zmienię imię i nazwisko, więc już nie będzie to konkretna sprawa”. Kiedy opisujesz unikalny kazus sądowy, przypadek medyczny albo specyfikę wdrożenia technologicznego, często bez trudu można go powiązać z rzeczywistym klientem. Tu samo RODO to za mało; gra toczy się też o odpowiedzialność dyscyplinarną i kontraktową.

Co można wklejać bez większego ryzyka: zielone strefy
Zielona strefa to nie „wszystko wolno”, tylko obszar, w którym przy zachowaniu zdrowego rozsądku i kilku prostych reguł można korzystać z ChatGPT bez wchodzenia w poważne konflikty z RODO.
Materiały całkowicie oderwane od konkretnych osób
Bezpieczniejsze są te treści, które w ogóle nie dotyczą realnych ludzi ani zdarzeń z ich udziałem. Chodzi głównie o:
- teksty marketingowe, opisy produktów, specyfikacje techniczne,
- procedury, regulaminy wewnętrzne (po uprzednim usunięciu konkretnych nazwisk i danych kontaktowych),
- fragmenty dokumentów, w których wszystkie dane osobowe zostały usunięte lub zastąpione neutralnymi placeholderami („[IMIĘ]”, „[NAZWA FIRMY]”).
Przykład praktyczny: zamiast wklejać umowę z klientem, można wkleić szablon umowy, w którym pola na dane stron są puste. Model pomoże przeformułować postanowienia, a jednocześnie nie dowie się, kto jest stroną umowy ani jakie dokładnie kwoty są w grze, jeśli te elementy też są zastąpione przedziałami („wynagrodzenie w wysokości [KWOTA]”).
Przypadki szkoleniowe oparte na fikcji lub mocnej abstrakcji
Scenariusze do szkoleń, casestudy do warsztatów czy przykłady do prezentacji da się spokojnie opracowywać z pomocą AI, pod warunkiem że nie są to „delikatnie przerobione” realne sytuacje z firmy.
Dobra praktyka wygląda tak:
- łączysz elementy z kilku rzeczywistych sytuacji w jedną fikcyjną historię,
- zmieniasz branżę, skalę, lokalizację i inne identyfikatory kontekstu,
- upewniasz się, że nikt z wewnątrz organizacji nie będzie w stanie powiedzieć: „to ewidentnie opis naszego klienta X sprzed miesiąca”.
Taki „syntetyczny” case, pozbawiony ostrej krawędzi realnych danych, można spokojniej „przerzucać” przez ChatGPT, prosząc o pomysł na strukturę warsztatu, pytania do dyskusji czy alternatywne zakończenia scenariusza.
Treści, które i tak są publiczne
Często pojawia się pytanie: „skoro coś jest już w internecie, to czy mogę to wkleić do ChatGPT?”. Z perspektywy RODO różnica między danymi publicznie dostępnymi a prywatnymi ma znaczenie, ale nie znosi wszystkich ograniczeń. Mimo to istnieje kategoria treści, z którą ryzyko jest stosunkowo niskie:
- informacje z oficjalnych stron firm (np. opisy usług, regulaminy),
- opublikowane artykuły, posty blogowe, raporty,
- dane instytucji i osób publicznych w kontekście ich funkcji (np. „burmistrz miasta X ogłosił program” – pod warunkiem, że nie dodajesz do tego nieopublikowanych plotek czy ocen).
Pułapka: publiczny wpis na LinkedIn konkretnej osoby to nie „wolna amerykanka”. To, że ktoś sam coś opublikował, nie oznacza automatycznie, że możesz swobodnie łączyć te treści z innymi informacjami o tej osobie i masowo przetwarzać je w narzędziach AI, szczególnie gdy robisz to w ramach działalności zawodowej.
Dane testowe i sztuczne „sample”
W IT popularna jest rada: „używaj danych testowych zamiast produkcyjnych”. W świecie AI też się przydaje, ale pod jednym warunkiem: dane testowe muszą być naprawdę testowe, a nie lekko przemalowane produkcyjne.
Bezpieczniej wygląda sytuacja, gdy:
- tabele, które wklejasz, zostały wygenerowane losowo lub ręcznie, bez mapowania 1:1 do prawdziwych rekordów,
- adresy, telefony, identyfikatory w ogóle nie odpowiadają realnym osobom (np. są w nieistniejących zakresach),
- nie odtwarzasz w nich struktury danych, która pozwalałaby łatwo domyślić się, jak wyglądażyczywista baza (np. nie zachowujesz tego samego rozkładu klientów w poszczególnych miastach).
Jeśli nie ma czasu na tworzenie ręcznych danych testowych, alternatywą bywa wygenerowanie „sztucznej” bazy wprost przez ChatGPT, opisanie jej struktury i dopiero na tym materiale pracowanie nad formułami, zapytaniami czy skryptami.
Szara strefa: kiedy dane „niby są zanonimizowane”, ale wcale nie
Najwięcej kłopotów rodzi przekonanie, że „wystarczy usunąć nazwiska i po problemie”. Rzeczywistość jest mniej wygodna: prawdziwa anonimizacja jest trudna, a większość tego, co w firmach nazywa się „danymi zanonimizowanymi”, to w istocie dane pseudonimizowane, czyli nadal podlegające RODO.
Anonimizacja vs pseudonimizacja w praktyce
Różnica jest prosta tylko w teorii:
- anonimizacja – po jej wykonaniu nie da się już zidentyfikować osoby, nawet mając dodatkowe informacje,
- pseudonimizacja – zamieniasz imię i nazwisko na identyfikator („U123”), ale gdzieś istnieje tabela z mapowaniem; przy odrobinie wysiłku da się wrócić do pierwotnej osoby.
W typowym biurze dominuje pseudonimizacja: inicjały zamiast nazwiska, numer pracownika zamiast imienia, „koleżanka z księgowości” zamiast pełnych danych. Dla kogoś spoza organizacji może to być anonimowe, ale dla osób wewnątrz – już nie. A pamiętaj, że ryzyko naruszenia ocenia się również z perspektywy otoczenia, w którym te dane funkcjonują.
Reidentyfikacja przez kontekst
Nawet jeśli usuniesz wszystkie oczywiste identyfikatory, zostaje coś znacznie trudniejszego do ujarzmienia – kontekst. Miejsce, czas, specyfika zdarzeń, kombinacja kilku cech. To one powodują, że dane „zdepersonalizowane” w arkuszu kalkulacyjnym nagle stają się dość oczywiste dla osób znających realia.
Przykład: „pracownik działu IT, który w marcu zgłosił mobbing ze strony przełożonego, jednocześnie startował w wyborach do rady gminy z listy partii X i w tym samym czasie dostał nagrodę branżową”. W małej miejscowości i średniej firmie IT taka kombinacja cech może pasować do jednej osoby w całym kraju. Nawet jeśli nigdzie nie pojawia się imię, nazwisko ani numer telefonu, identyfikacja jest wręcz banalna.
Szara strefa zaczyna się tam, gdzie:
- kontekst zdarzenia jest na tyle unikalny, że identyfikacja „pośrednia” jest dość prosta,
Typowe złudzenia „anonimizacyjne” w firmach
Najczęściej spotykane „patenty na anonimizację” mają jedną wspólną cechę: świetnie wyglądają w prezentacji zarządczej, a znacznie gorzej w realnym ryzyku prawnym. Kilka klasyków:
- „Ucinamy ostatnie cyfry PESEL, więc jest bezpiecznie” – przy połączeniu z datą urodzenia, miejscowością i płcią nadal można trafić w konkretną osobę jak w tarczę.
- „Zmieniamy imiona i nazwiska, reszta zostaje” – jeśli zachowujesz tę samą historię choroby, miejsce hospitalizacji, daty zabiegów i wiek, to jest to kosmetyka, nie anonimizacja.
- „Usuwamy kolumnę z nazwiskiem, reszta danych zostaje jak jest” – przy małej próbie i szczegółowych kolumnach (zawód, miejscowość, konkretne daty) zidentyfikowanie kogoś z wewnątrz organizacji bywa banalne.
Reguła, która rzadko zawodzi: jeśli ty lub ktoś z twojego zespołu, mając podstawową wiedzę o ludziach „z życia”, jest w stanie zgadnąć, o kim mowa – to nie jest anonimizacja, nawet jeśli w Excelu nie ma ani jednego nazwiska.
Jak podejść do „szarej strefy” pragmatycznie
Zamiast zakładać, że „jakoś to będzie”, lepiej przejąć inicjatywę i świadomie zarządzać tym, co publikujesz w promptach. Oparty na zdrowym rozsądku filtr wygląda mniej więcej tak:
- Zadaj sobie pytanie: czy ta historia mogłaby się zdarzyć stu różnym osobom?
Jeśli opis jest tak szczegółowy, że „to musi być Kowalski”, najpierw go uprość. - Odetnij zbędne osi czasu i miejsca
Pełne daty zamień na przybliżone („początek roku”), konkretne miasta na ogólne określenia („średnie miasto w południowej Polsce”), szczegółowe nazwy usług na ogólne kategorie. - Rozsmaruj charakterystyczne cechy
Zamiast jednej osoby z bardzo unikalnym zestawem cech, rozłóż atrybuty na kilka postaci w scenariuszu. Dla AI to nadal użyteczne, dla RODO – mniej ryzykowne.
Ta metoda nie jest „prawniczo idealna”, ale w praktyce redukuje ryzyko reidentyfikacji znacznie skuteczniej niż klasyczne „usuń nazwisko i PESEL”.
Kiedy „dane wewnętrznie wrażliwe” stają się problemem w AI
Część informacji nie jest klasycznie „wrażliwa” w rozumieniu RODO (brak zdrowia, poglądów, światopoglądu), ale w realnym życiu może mocno uderzyć w prywatność, gdy trafi do niepowołanych osób. W połączeniu z modelem językowym taka mieszanka robi się kłopotliwa.
Chodzi m.in. o:
- szczegółowe informacje o konfliktach w zespole – kto z kim, w której filii, jakie zarzuty;
- dane o efektywności pracowników – indywidualne wyniki sprzedażowe, liczba błędów, statystyki zwolnień lekarskich;
- fragmenty rozmów z HR – scenariusze rozmów dyscyplinujących, feedback z okresu próbnego, notatki z „trudnej rozmowy”.
Klasyczna rada brzmi: „odanonimizuj i będzie dobrze”. Problem w tym, że przy małych zespołach i konkretnych rolach służbowych identyfikacja wciąż jest możliwa. Alternatywa? Traktuj takie treści tak, jakby były jedną kategorię „ostrożniej” wyżej, niż wynik wynika z samego RODO. Czyli:
- zamiast opisu jednej osoby – opis typu sytuacji („pracownik z wieloletnim stażem, któremu spadła motywacja”),
- zamiast konkretnego zakresu obowiązków – ogólny profil („specjalista w dziale wsparcia klientów B2B”),
- czasami lepsze są pytania abstrakcyjne niż oparte na case’ach („jak zaplanować rozmowę o spadku wyników w sposób konstruktywny?”).

Jak projektować prompty „RODO‑oszczędne”
Zamiast zakazywać sobie korzystania z AI, można zaprojektować sposób pracy z promptami tak, by nie ciągnąć do modelu danych osobowych przy każdym pytaniu. To bardziej kwestia nawyku niż znajomości przepisów.
Rozdziel dane od logiki
Najbardziej niedoceniona strategia brzmi: najpierw zapytaj o logikę, dopiero potem (jeśli w ogóle) doklej szczegóły. W praktyce oznacza to dwa kroki.
- Najpierw schemat
Zamiast: „Napisz odpowiedź dla pani Anny Nowak, która zarzuciła szkole X, że…”, napisz: „Napisz neutralną, rzeczową odpowiedź na skargę rodzica dotyczącą [OPIS PROBLEMU BEZ DANYCH OSOBOWYCH]. Podkreśl: [PUNKTY].” - Potem ręczne dopasowanie
Po otrzymaniu schematu samodzielnie wstawiasz imię, nazwę szkoły, daty. W ten sposób model nie widzi wrażliwych szczegółów, a ty oszczędzasz czas na stylu i strukturze.
Ta metoda działa szczególnie dobrze przy pismach, mailach, procedurach czy materiałach szkoleniowych. Tam, gdzie liczy się forma, a nie to, że adresatem jest konkretna osoba z krwi i kości.
Uogólniaj, zamiast „wklejać wszystko jak leci”
Pokusa jest prosta: skopiować cały mail, całą notatkę służbową, cały wyciąg z systemu. Tymczasem model wcale tego nie potrzebuje, by pomóc. Lepsza jest krótka destylacja:
- zamiast długiego wątku mailowego: kilka zdań streszczenia konfliktu bez nazwisk,
- zamiast pełnej tabeli klientów: opis struktury („mamy tabelę z kolumnami: branża, kraj, przychód roczny”) i prośba o wzór formuł czy zapytań,
- zamiast raportu z rozmowy z pracownikiem: lista kluczowych tematów i twoich wątpliwości co do dalszych kroków.
Popularna rada „po prostu zanonimizuj” jest w tej sytuacji zbyt płaska. Lepiej: zastanów się, jaką informację naprawdę potrzebuje AI, żeby ci pomóc. Wszystko powyżej tego minimum zwiększa tylko ryzyko, a nie jakość odpowiedzi.
Wykorzystuj „szablony bez ludzi”
AI świetnie radzi sobie z projektowaniem szkieletów: wzorów umów, scenariuszy spotkań, konspektów polityk, agend warsztatów. To obszary, w których łatwo całkowicie odłączyć się od danych osobowych.
Praktyczny schemat pracy:
- Prosisz o szablon (np. „przygotuj wzór procedury reagowania na incydent bezpieczeństwa w średniej firmie usługowej”).
- Dostosowujesz język i strukturę razem z modelem, ale nadal bez żadnych nazwisk czy przykładów prawdziwych incydentów.
- Gotowy szablon wypełniasz już lokalnie, bez użycia AI – lub korzystasz z niego jako punktu odniesienia w rozmowach wewnętrznych.
Taka praca jest znacznie mniej efektowna w krótkim terminie (brak „magii” rozwiązywania twojej konkretnej sprawy), ale w dłuższej perspektywie oszczędza kłopotów z niekontrolowanym wypływem realnych historii klientów i pracowników.
Ustawienia, polityki i „higiena narzędziowa”
Nawet najlepiej ułożone prompty nie wystarczą, jeśli organizacja traktuje wszystkie narzędzia AI jak darmową piaskownicę. Element techniczny i organizacyjny jest tu równie ważny jak zdrowy rozsądek użytkowników.
Wersje biznesowe vs „darmowe konto”
Częsta rada brzmi: „Korzystaj z wersji biznesowej, bo tam dane są bezpieczne”. To tylko część prawdy. Rzeczywiście, płatne plany zwykle oferują:
- wyłączone wykorzystywanie danych do trenowania ogólnych modeli,
- lepsze mechanizmy kontroli dostępu i logowania,
- umowy powierzenia przetwarzania danych (DPA).
Pułapka polega na tym, że sam fakt podpisania DPA nie daje zielonego światła na wklejanie wszystkiego. RODO nadal wymaga, by nie przekazywać zbytecznych danych i nie przetwarzać ich ponad to, co konieczne do celu. Innymi słowy: wersja biznesowa zmniejsza ryzyko techniczne i kontraktowe, ale nie rozwiązuje dylematu, czy w ogóle wolno ci tam wrzucać dane konkretnej osoby.
Rozsądne podejście:
- dla zadań czysto „szablonowo‑logicznych” – korzystanie nawet z narzędzi bez DPA, ale bez danych osobowych,
- dla zadań z danymi klientów/pracowników – wyłącznie środowisko z DPA, silnymi ustawieniami prywatności i testami bezpieczeństwa,
- dla treści objętych tajemnicą zawodową – często i tak lepiej się wstrzymać, nawet mając najbezpieczniejszy wariant chmurowy.
Krótka „polityka AI” zamiast niepisanych zwyczajów
W wielu firmach o tym, co trafia do ChatGPT, decyduje nastrój dnia i kreatywność pracowników. Z perspektywy RODO to proszenie się o incydent. Nawet prosta, jedno–dwustronicowa polityka użycia AI potrafi opanować chaos.
Przydatne elementy takiej polityki:
- kategorie danych zakazanych – z konkretnymi przykładami z twojej branży, nie ogólnymi hasłami typu „dane wrażliwe”,
- przykłady bezpiecznych zastosowań – żeby pracownicy mieli alternatywę, a nie sam zakaz,
- procedura zgłaszania pomyłkowego wklejenia danych – co zrobić, gdy ktoś jednak się „zapomni”, kogo powiadomić, jakie działania naprawcze uruchomić,
- wybór dozwolonych narzędzi – lepiej trzy sensownie skonfigurowane usługi niż piętnaście „jak leci”, używanych z prywatnych kont.
Polityka jest skuteczna tylko wtedy, gdy jest osadzona w realiach. Jeśli zespół sprzedaży żyje w CRM‑ie, pokaż na przykładach z CRM‑u. Jeśli firma to głównie nauczyciele – oprzyj się na typowych sytuacjach szkolnych, nie na abstrakcyjnych definicjach.
Szkolenia „z głową”, a nie z samego RODO
Standardowy scenariusz szkolenia: slajdy z definicją danych osobowych, kilka przykładów kar, formularz obecności. Na tej bazie trudno oczekiwać, że ludzie będą umieli ocenić, co wolno wkleić do ChatGPT.
Bardziej praktyczny model obejmuje:
- przeanalizowanie kilku prawdziwych (oczywiście uproszczonych) przypadków z firmy,
- wspólne przeformułowanie ich tak, by nadawały się do AI bez danych osobowych,
- dyskusję „gdzie jest granica” przy każdym typie treści (sprzedaż, HR, obsługa klienta, edukacja).
Na takim warsztacie szybko wychodzi, że to, co jedna osoba uważa za „niewinne”, dla innej jest oczywistym naruszeniem prywatności. Ten rozdźwięk lepiej wyłapać na sali szkoleniowej, niż w raporcie z incydentu zgłaszanego do urzędu.
Kiedy lepiej zrezygnować z użycia ChatGPT
Nie każdą sytuację da się „odanonimizować” bez zniszczenia sensu sprawy. Czasem uczciwsza odpowiedź brzmi: tu AI się po prostu nie nadaje, przynajmniej w wersji chmurowej.
Sprawy „jednostkowe” i wysokiego kalibru
Są przypadki, w których kontekst jest tak wyjątkowy, że byle opis zdradza bardzo wiele, nawet jeśli nie zawiera nazwisk. Przykłady z praktyki:
- głośny lokalnie konflikt pracodawca–pracownik, którego szczegóły były w mediach,
- spór rozwodowy osoby rozpoznawalnej w środowisku, prowadzony w małej miejscowości,
- incydent bezpieczeństwa dotyczący kluczowego systemu krytycznego państwa lub infrastruktury.
W takich sprawach próba „ubrana w AI” często kończy się tym, że i tak opisujesz tyle szczegółów, byle model „zrozumiał sytuację”. A to właśnie szczegóły są źródłem ryzyka. Warto wtedy poszukać pomocy człowieka – prawnika, inspektora ochrony danych, eksperta branżowego – i zostawić AI na etapie ogólnych pytań o przepisy czy standardy, bez opisu konkretnej sprawy.
Procesy, które już są „pod lupą” regulatora
Jeżeli w firmie toczy się postępowanie organu nadzorczego, audyt po incydencie albo trwają negocjacje ugodowe z większą grupą klientów, doklejanie do tego ChatGPT może być kiepskim pomysłem. Nie chodzi nawet o to, że narzędzie jest „niebezpieczne z natury”, tylko o dodatkową komplikację:
- pojawia się kolejny podmiot przetwarzający, którego trzeba uwzględnić w dokumentacji,
- trudniej później prześledzić, gdzie dokładnie trafiły opisy sprawy,
- w razie sporu trzeba tłumaczyć, dlaczego w ogóle zdecydowano się wynosić część analizy poza organizację.
Tu sensowna kontrariańska rada brzmi: im wrażliwszy moment życia organizacji, tym mniej zewnętrznych narzędzi, nawet jeśli normalnie byłyby dopuszczalne. Najpierw ogarnij sytuację wewnętrznie, potem wróć do optymalizacji z pomocą AI.
Najczęściej zadawane pytania (FAQ)
Czy mogę bezpiecznie wklejać do ChatGPT maile służbowe i wewnętrzne notatki?
Możesz, ale tylko po solidnym „odchudzeniu” treści z danych osobowych i szczegółów pozwalających odgadnąć, o kogo chodzi. Sam ogólny opis procesu, problemu czy projektu jest co do zasady mniej ryzykowny niż pełen cytat z nazwiskami, stanowiskami i dokładnym tłem konfliktu.
Jeśli mail dotyczy konkretnych osób, usuń: imiona, nazwiska, inicjały, nazwy działów, które łatwo powiązać z osobami, daty zatrudnienia, szczegóły konfliktów czy zachowań. Czasem lepiej poświęcić 2–3 minuty na streszczenie sytuacji własnymi słowami niż wklejać zrzut ekranu „jak leci”.
Czy inicjały (np. „K.K.”) zamiast nazwiska wystarczą, żeby było zgodnie z RODO?
Nie, same inicjały rzadko „anonimizują” osobę. W realnej firmie połączenie inicjałów, działu, stażu pracy i opisu sytuacji zwykle jednoznacznie wskazuje na konkretnych ludzi. Z punktu widzenia RODO to wciąż dane osobowe, bo identyfikacja jest możliwa bez nadmiernego wysiłku.
Bezpieczniejsza alternatywa to całkowite oderwanie opisu od konkretnego przypadku: zmiana szczegółów, brak działu, brak czasu zatrudnienia, opis w formie abstrakcyjnego scenariusza („pracownik A” i „pracownik B” w średniej firmie handlowej) zamiast kopiowania notatki 1:1.
Jakie dane osobowe absolutnie nie powinny trafić do ChatGPT?
Do publicznych wersji ChatGPT nie powinny trafiać przede wszystkim dane wrażliwe, czyli m.in. informacje o zdrowiu, leczeniu, niepełnosprawności, poglądach politycznych, wyznaniu, orientacji seksualnej, życiu intymnym, danych biometrycznych czy genetycznych. To dotyczy zarówno długiej historii choroby, jak i krótkiej wzmianki w stylu: „pracownica z HR leczy się na depresję”.
Poza tym trzymaj z daleka od okna czatu wszelkie unikalne identyfikatory (PESEL, numery dokumentów, kont bankowych) oraz pełne zbiory danych: CV z danymi kontaktowymi, screeny z CRM z widocznymi klientami, skany wniosków czy umów.
Czy jeśli usunę imię i nazwisko, to tekst jest już „bezpieczny” pod kątem RODO?
Usunięcie imienia i nazwiska to dopiero pierwszy krok. Dane osobowe to również sytuacje, gdy daną osobę można rozpoznać po kombinacji kilku informacji: rzadkim stanowisku, sytuacji rodzinnej, miejscu pracy, wydarzeniach z życia. W małym zespole wystarczy znacznie mniej, żeby dało się wskazać konkretnego człowieka.
Bezpieczniej jest zadać sobie pytanie: „Czy osoba z mojej firmy / grupy, znająca realia, po tym opisie domyśli się, o kogo chodzi?”. Jeśli odpowiedź brzmi „raczej tak”, to wciąż operujesz na danych osobowych, nawet bez nazwisk.
Czy korzystanie z ChatGPT w firmie zawsze wymaga specjalnej umowy RODO (powierzenia danych)?
Jeśli chcesz przetwarzać w ChatGPT dane osobowe pracowników, klientów czy kontrahentów w ramach działalności firmy, w praktyce wchodzisz w relację zewnętrznego procesora danych. To z kolei oznacza potrzebę uregulowania tej relacji (np. poprzez umowę powierzenia) oraz ocenę ryzyka, szczególnie przy transferach poza UE.
Jest jednak druga ścieżka: świadomie ograniczyć ChatGPT do treści całkowicie pozbawionych danych osobowych (np. generowanie szablonów, ogólnych procedur, pomysłów na kampanie). Wtedy relacja RODO jest znacznie prostsza, ale wymaga żelaznej dyscypliny użytkowników i kontroli, czy nikt „dla wygody” nie zacznie wklejać prawdziwych danych.
Czy mogę wrzucać do ChatGPT swoje własne dane osobowe, jeśli „biorę to na siebie”?
W przypadku danych o Tobie samym formalnie masz większą swobodę, bo występujesz jako osoba fizyczna, a nie administrator danych cudzych. Problem zaczyna się wtedy, gdy robisz to w kontekście służbowym (np. jako pracownik działu HR, lekarz, prawnik) lub kiedy w opisie mimowolnie ujawniasz dane innych osób.
Przykład: możesz poprosić o przeredagowanie własnego prywatnego CV po usunięciu adresu, telefonu i maila. Natomiast wklejenie służbowej korespondencji, w której opisujesz konflikt z przełożonym, często automatycznie wciąga w to także jego dane, nawet jeśli nie podasz nazwiska.
Czy ChatGPT „uczy się” na moich danych i czy to ma znaczenie dla RODO?
Znaczenie ma nie tylko to, czy model jest trenowany na Twoich danych, ale już sam fakt, że trafiają one do zewnętrznego dostawcy i są tam przez jakiś czas przechowywane oraz logowane. To już jest przetwarzanie danych osobowych przez kolejny podmiot, z całą listą konsekwencji prawnych i organizacyjnych.
Nawet jeśli dostawca oferuje opcje ograniczające wykorzystanie danych do trenowania modeli, nie zmienia to podstawowej zasady: nie wprowadzaj do takiej usługi danych, których wyciek lub niewłaściwe użycie byłoby dla kogoś realnym problemem. Ustawienia prywatności są wsparciem, a nie magicznym „rozgrzeszeniem” z RODO.
Kluczowe Wnioski
- ChatGPT nie jest „mądrym notatnikiem”, tylko zewnętrznym procesorem danych działającym w chmurze, często poza UE – każda wklejona treść przechodzi przez infrastrukturę dostawcy i zostawia ślad.
- Jeśli wklejasz dane osobowe (swoje, współpracowników, klientów, pacjentów), automatycznie uruchamiasz reżim RODO, niezależnie od tego, czy „tylko coś sprawdzasz” i na jak krótko używasz narzędzia.
- Oczywiste dane osobowe to m.in. imię i nazwisko z dodatkowymi identyfikatorami, PESEL, numery dokumentów, adres zamieszkania, służbowe i prywatne maile imienne, numery telefonów i kont bankowych – takich rzeczy nie powinno się wklejać do publicznych modeli AI.
- Mniej oczywiste identyfikatory (loginy w małej firmie, numery klienta powiązane z opisem, bardzo szczegółowy opis sytuacji życiowej czy zawodowej) też mogą być danymi osobowymi, jeśli w realnym kontekście pozwalają bez większego wysiłku wskazać konkretną osobę.
- RODO posługuje się testem rozsądnego prawdopodobieństwa identyfikacji – w małych zespołach i lokalnych społecznościach wystarczy znacznie mniej informacji, by „domyślić się kto to”, niż w anonimowych, masowych bazach danych.
- Dane szczególnych kategorii (zdrowie, orientacja seksualna, poglądy polityczne, wyznanie, pochodzenie etniczne, dane biometryczne i genetyczne) są dla publicznych usług AI praktycznie „czerwoną strefą”; nawet pozornie niewinna uwaga o czyimś leczeniu jest już daną wrażliwą.






