Anthropic звинуватив DeepSeek, Moonshot і MiniMax у навчанні своїх моделей за допомогою Claude через 24 тис. фейкових акаунтів і 16 млн запитів

24 Feb, 2026відDropsCapital

Приєднуйтесь до наших соцмереж

Anthropic виявила масштабні кампанії трьох китайських лабораторій штучного інтелекту — DeepSeek, Moonshot AI і MiniMax — з нелегального вилучення можливостей Claude для навчання власних моделей. Метод — дистиляція: менш здатну модель навчають на вихідних даних більш сильної. Сам по собі метод легітимний, але в даному випадку використовувався для крадіжки інтелектуальних напрацювань.

Масштаб: понад 16 мільйонів запитів через приблизно 24 000 підроблених акаунтів.

Що витягували і хто стоїть за атаками

DeepSeek (~150 000 запитів): Цільові міркування та ланцюжки думок (chain-of-thought), використовували Claude як модель-оцінювач для навчання з підкріпленням. Окремо — генерували «безпечні для цензури» відповіді на політично чутливі теми (дисиденти, партійне керівництво, авторитаризм), щоб навчити свої моделі обходити заборонені теми. Акаунти вдалося прив'язати до конкретних дослідників лабораторії.

Moonshot AI / Kimi (~3,4 млн запитів): Фокус на агентському мисленні, роботі з інструментами, написанні коду, комп'ютерному зорі. Сотні підроблених акаунтів різних типів для маскування. На пізніх етапах намагалися безпосередньо відтворити внутрішні міркування Claude. Атрибуція — через метадані, що збіглися з публічними профілями старших співробітників Moonshot.

MiniMax (~13 млн запитів): Наймасштабніша кампанія. Націлювалися на агентське кодування та оркестрування інструментів. Була виявлена ще до випуску навчальної моделі, що дало повну картину життєвого циклу атаки. Коли Anthropic випустила нову модель, MiniMax за 24 години перенаправив половину трафіку на неї.

Як вони отримували доступ

Anthropic не надає комерційний доступ до Claude в Китаї. Лабораторії обходили це через проксі-сервіси, які перепродавали доступ до API. Ці сервіси використовують «гідра-архітектуру» — мережі з тисяч підроблених акаунтів, що розподіляють трафік по різних платформах. Один такий проксі керував понад 20 000 акаунтів одночасно, змішуючи дистиляційний трафік зі звичайними запитами.

Чому це небезпечно

Дистильовані моделі позбавлені захисних механізмів — огорож від генерації інструкцій щодо біозброї, кібератак, дезінформації. Ці можливості можуть потрапити до військових, розвідувальних і поліцейських систем авторитарних держав. При відкритті вихідного коду ризик багаторазово зростає.

Крім того, такі атаки підривають логіку експортного контролю: швидкий прогрес китайських лабораторій помилково сприймається як доказ неефективності санкцій, тоді як він багато в чому базується на вкрадених американських напрацюваннях.

Відповідні заходи Anthropic

Детекція — класифікатори та системи поведінкового аналізу для виявлення патернів дистиляції в API-трафіку.
Обмін розвідданими — технічні індикатори передаються іншим ШІ-лабораторіям, хмарним провайдерам і владі.
Посилення верифікації — посилення перевірки освітніх, дослідницьких і стартап-аккаунтів.
Контрзаходи на рівні моделі — зниження придатності вихідних даних для дистиляції без шкоди для звичайних користувачів.

Anthropic підкреслює: жодна компанія не впорається самостійно — потрібна координація галузі, хмарних провайдерів і регуляторів.

Продовжити читання цієї статті в джерелі: anthropic.com