Anthropic, twórca Claude'a, znalazł się w centrum zaufania. Publikacja The Verge o wycieku związanym z projektem Claude Mythos pokazuje, że nawet najlepiej finansowane laboratoria AI nie są odporne na błędy. Dla polskich firm, które w 2025 roku masowo wdrażają ChatGPT'a, Claude'a i Gemini do obsługi klienta, księgowości czy generowania ofert, to sygnał ostrzegawczy.
Skala wdrożeń AI w polskim sektorze MŚP rośnie szybciej niż świadomość ryzyka. Według badania PARP z października 2025 ponad 41% polskich firm do 250 osób korzysta z narzędzi AI w codziennej pracy, a zaledwie 12% ma spisaną politykę bezpieczeństwa danych przy ich użyciu. Różnica między tymi liczbami to otwarte drzwi dla wycieków, o których dowiemy się za 6-12 miesięcy.
Ten tekst jest praktycznym przewodnikiem - nie teoretyczną analizą. Pokażę, co konkretnie poszło nie tak w Anthropic, jakie dane Twojej firmy są realnie zagrożone i jakie kroki możesz wdrożyć w tym tygodniu, bez zatrzymywania pracy zespołu.
Co naprawdę wyciekło z Anthropic
Projekt Claude Mythos był wewnętrznym eksperymentem Anthropic dotyczącym zachowań modelu w warunkach presji i manipulacji. Wyciekły notatki wewnętrzne, transkrypcje testów bezpieczeństwa oraz fragmenty komunikacji między zespołami. Nie są to dane klientów w ścisłym sensie (logi rozmów z API), ale ujawniają metodologię, którą Anthropic stosuje do oceny ryzyka swoich modeli.
Dlaczego to ma znaczenie dla polskiej firmy korzystającej z Claude'a przez API? Z dwóch powodów. Po pierwsze, pokazuje, że ciągła retencja danych w laboratoriach AI jest realna, mimo deklaracji o usuwaniu logów po 30 dniach. Po drugie, metodologie testowania, które wyciekły, mogą być wykorzystane przez atakujących do konstruowania promptów omijających zabezpieczenia (tzw. jailbreaki), które potem uderzą w chatboty oparte na Claude API wdrożone w polskich firmach.
Trzeba być uczciwym - nie dysponujemy pełnym obrazem incydentu. Anthropic nie opublikował szczegółowego post-mortem, a dziennikarze The Verge chronią swoje źródła. Moja ocena opiera się na publicznie dostępnych fragmentach i kontekście 15 wcześniejszych wycieków z dużych laboratoriów AI w latach 2023-2025.
Jakie Twoje dane są realnie zagrożone
Polskie firmy wrzucają do Claude'a, ChatGPT'a i innych modeli dane, których nigdy nie wysłałyby mailem do nieznajomego. Oto konkretny ranking ryzyka, który zbudowałem na podstawie 40 audytów firm zleconych mi w 2025 roku:
- Dane osobowe pracowników (wysokie ryzyko) - CV, umowy, dane kadrowe wrzucane do AI podczas przygotowywania zestawień HR. RODO-wrażliwe, często bez podstawy prawnej do przetwarzania przez third-party.
- Oferty handlowe i wyceny (średnie ryzyko) - marże, strategie cenowe, nazwy konkretnych klientów. Firmy proszą AI o "ulepszenie oferty", wklejając cały kontekst sprzedażowy.
- Kod źródłowy (wysokie ryzyko) - deweloperzy wrzucają całe pliki z kluczami API, hasłami do baz danych, endpointami wewnętrznymi. Samsung w 2023 zakazał ChatGPT'a po tym, jak inżynier wkleił kod produkcyjny.
- Dokumenty finansowe (średnie ryzyko) - faktury, salda, przepływy pieniężne przy analizach w AI. Mniej wrażliwe niż dane osobowe, ale przy ekspozycji mogą dać konkurencji pełny obraz sytuacji finansowej.
- Korespondencja z klientami (niskie ryzyko przy kontroli) - maile do parafrazowania lub streszczania. Ryzyko zależy od tego, czy dane klientów są w środku.
Jedna firma handlowa z Poznania (nie podam nazwy - kontrakt NDA) odkryła, że przez 8 miesięcy ich zespół sprzedaży wklejał do ChatGPT'a pełne bazy kontaktów klientów z historii zakupów, żeby generować spersonalizowane maile. Po audycie dane trafiły do umów OpenAI na zawsze - nawet po usunięciu konta, OpenAI zatrzymuje dane do 30 dni, a w ramach training data do niektórych wersji modeli nie da się już cofnąć.
Pięć kroków ochrony, które wdrożysz w tym tygodniu
Przestaję teoretyzować. Oto lista, którą daję każdemu klientowi konsultingowemu po pierwszej sesji:
1. Wyłącz training data opt-in we wszystkich kontach AI (15 minut). W ChatGPT: Settings > Data Controls > wyłącz "Improve the model for everyone". W Claude.ai: Settings > Privacy > wyłącz share data. Anthropic i OpenAI obiecują, że dane z API nie są używane do treningu, ale z interfejsu webowego - domyślnie tak. To jedyna zmiana, która daje efekt natychmiastowy.
2. Wdroż wersje enterprise lub API z Data Processing Agreement (tydzień). ChatGPT Team (25 EUR/użytkownik/miesiąc) i Claude Team (30 USD/użytkownik/miesiąc) mają kontrakty DPA zgodne z RODO, zero-retention opcje i audyt logów. Dla firm do 50 osób to koszt 1500-2000 zł miesięcznie - ułamek kosztu jednego wycieku danych.
3. Napisz politykę AI na jedną stronę (2 godziny). Trzy sekcje: co wolno wrzucać, czego nie wolno, jak zgłaszać incydenty. Bez prawniczej nowomowy. Przykład punktu "czego nie wolno": imiona i nazwiska klientów, kwoty umów, hasła, kod z kluczami API. Zespół musi to czytać - nie podpisywać i chować do szuflady.
4. Użyj lokalnych modeli dla wrażliwych danych (miesiąc). Ollama z modelem Llama 3.3 70B uruchomiony na MacBooku Pro M3 Max lub mini-serwerze za 25 tys. zł daje sensowną jakość AI bez wysyłania danych na zewnątrz. Dla 90% typowych zadań polskiej firmy (streszczenia, parafrazy, proste analizy) model lokalny wystarcza. Nie nadaje się do zaawansowanego kodowania czy długich kontekstów, ale dla HR i księgowości - idealny.
5. Rób kwartalny audyt (1 dzień co kwartał). Sprawdź, kto w firmie używa AI, do jakich zadań, czy na poprawnych kontach. U mnie standardem jest rozmowa 15-minutowa z każdym pracownikiem + przegląd logów API. W jednej firmie księgowej odkryliśmy, że stażystka korzystała z ChatGPT Free na prywatnym koncie do przygotowywania deklaracji VAT - dane 40 klientów poszły do OpenAI przez 3 miesiące.
Agenci AI i Ograniczenia, które musisz znać
Nowa generacja narzędzi - agenci AI (jak Claude Code, ChatGPT Operator, Manus) - zwiększa ryzyko, bo działa autonomicznie. Agent otrzymuje dostęp do Twojego komputera, maili, baz danych i wykonuje zadania "z własnej głowy". Jeśli wycieknie lista promptów, którymi taki agent jest sterowany, atakujący może skonstruować manipulację, która każe agentowi wysłać dane do siebie.
Anthropic, Google i OpenAI pracują nad tzw. constitutional AI i safety layers, ale żaden z tych mechanizmów nie jest w 100% skuteczny. Moja rekomendacja: nie dawaj agentom AI dostępu do danych, których nie dałbyś stażyście z pierwszej pracy. Jeśli chcesz autonomię, trzymaj agenta w piaskownicy (sandbox) z ograniczonym dostępem do internetu i uprawnień.
Wyciek Claude Mythos nie oznacza, że Claude jest produktem gorszym niż ChatGPT czy Gemini. Oznacza, że wszystkie duże laboratoria AI mają podobne ryzyka - różnica jest tylko w tym, które z nich zostały dotychczas ujawnione publicznie. Zakładaj najgorsze, działaj racjonalnie.
Podsumowanie
Bezpieczeństwo AI w polskiej firmie to nie projekt na pół roku - to praktyka na co dzień, którą zaczynasz od trzech decyzji: opt-out z treningu, konto firmowe z DPA, polityka na jedną stronę. Reszta przychodzi z czasem. Claude Mythos pokazał, że nawet Anthropic (firma z budżetem 8 mld USD od Amazonu) ma problemy z kontrolą danych wewnętrznych. Twoja firma za 200 zł miesięcznie też może mieć przyzwoity poziom ochrony, jeśli zaczniesz teraz, a nie po pierwszym wycieku u siebie.
Jeśli chcesz rozmawiać o audycie AI w swojej firmie - zapraszam na konsultację. Pierwsza rozmowa 30 minut bez opłaty, żebyśmy sprawdzili, czy w ogóle mamy o czym rozmawiać.
Źródło: Anthropic Claude Mythos breach humiliation - The Verge