
Anthropic ujawniła zakrojone na szeroką skalę działania trzech chińskich laboratoriów zajmujących się sztuczną inteligencją — DeepSeek, Moonshot AI i MiniMax — mające na celu nielegalne wykorzystanie możliwości Claude do szkolenia własnych modeli. Metoda polega na destylacji: mniej wydajny model jest szkolony na danych wyjściowych silniejszego modelu. Sama metoda jest legalna, ale w tym przypadku została wykorzystana do kradzieży dorobku intelektualnego.
Skala: ponad 16 milionów zapytań za pośrednictwem około 24 000 fałszywych kont.
Co zostało wykradzione i kto stoi za atakami
DeepSeek (~150 000 zapytań): Celem były rozumowania i łańcuchy myśli (chain-of-thought), wykorzystano Claude jako model oceniający do uczenia się ze wzmocnieniem. Osobno generowali „bezpieczne dla cenzury” odpowiedzi na tematy wrażliwe politycznie (dysydenci, kierownictwo partii, autorytaryzm), aby nauczyć swoje modele omijania tematów zakazanych. Udało się powiązać konta z konkretnymi badaczami laboratorium.
Moonshot AI / Kimi (~3,4 mln zapytań): Skupienie się na myśleniu agencyjnym, pracy z narzędziami, pisaniu kodu, widzeniu komputerowym. Setki fałszywych kont różnego typu w celu maskowania. Na późniejszych etapach próbowano bezpośrednio odtworzyć wewnętrzne rozumowanie Claude'a. Atrybucja — poprzez metadane, które pokrywały się z publicznymi profilami starszych pracowników Moonshot.
MiniMax (~13 mln zapytań): Największa kampania. Skupiono się na kodowaniu agencyjnym i koordynacji narzędzi. Została wykryta jeszcze przed wydaniem modelu szkoleniowego, co dało pełny obraz cyklu życia ataku. Kiedy Anthropic wypuściło nowy model, MiniMax przekierował na niego połowę ruchu w ciągu 24 godzin.
Jak uzyskali dostęp
Anthropic nie zapewnia komercyjnego dostępu do Claude w Chinach. Laboratoria omijały to poprzez usługi proxy, które odsprzedawały dostęp do API. Usługi te wykorzystują „architekturę hydry” — sieci składające się z tysięcy fałszywych kont, które rozdzielają ruch między różne platformy. Jeden taki serwer proxy zarządzał jednocześnie ponad 20 000 kont, mieszając ruch destylacyjny z normalnymi zapytaniami.
Dlaczego jest to niebezpieczne
Modele destylowane nie mają mechanizmów ochronnych — zabezpieczeń przed generowaniem instrukcji dotyczących broni biologicznej, cyberataków, dezinformacji. Te możliwości mogą trafić do systemów wojskowych, wywiadowczych i policyjnych państw autorytarnych. Po otwarciu kodu źródłowego ryzyko wzrasta wielokrotnie.
Ponadto takie ataki podważają logikę kontroli eksportu: szybki postęp chińskich laboratoriów jest błędnie postrzegany jako dowód nieskuteczności sankcji, podczas gdy w dużej mierze opiera się on na skradzionych amerykańskich osiągnięciach.
Środki zaradcze Anthropic
- Wykrywanie — klasyfikatory i systemy analizy behawioralnej do wykrywania wzorców destylacji w ruchu API.
- Wymiana danych wywiadowczych — wskaźniki techniczne są przekazywane innym laboratoriom AI, dostawcom usług w chmurze i władzom.
- Wzmocnienie weryfikacji — zaostrzenie kontroli kont edukacyjnych, badawczych i start-upowych.
- Środki zaradcze na poziomie modelu — zmniejszenie przydatności danych wyjściowych do destylacji bez szkody dla zwykłych użytkowników.
Anthropic podkreśla: żadna firma nie poradzi sobie sama — potrzebna jest koordynacja działań branży, dostawców usług w chmurze i organów regulacyjnych.