
Anthropic выявила масштабные кампании трёх китайских ИИ-лабораторий — DeepSeek, Moonshot AI и MiniMax — по нелегальному извлечению возможностей Claude для обучения собственных моделей. Метод — дистилляция: менее способную модель обучают на выходных данных более сильной. Сам по себе метод легитимен, но в данном случае использовался для кражи интеллектуальных наработок.
Масштаб: более 16 миллионов запросов через примерно 24 000 поддельных аккаунтов.
Что извлекали и кто стоит за атаками
DeepSeek (~150 000 запросов): Целились в рассуждения и цепочки мыслей (chain-of-thought), использовали Claude как модель-оценщик для обучения с подкреплением. Отдельно — генерировали «безопасные для цензуры» ответы на политически чувствительные темы (диссиденты, партийное руководство, авторитаризм), чтобы обучить свои модели обходить запретные темы. Аккаунты удалось привязать к конкретным исследователям лаборатории.
Moonshot AI / Kimi (~3,4 млн запросов): Фокус на агентском мышлении, работе с инструментами, написании кода, компьютерном зрении. Сотни поддельных аккаунтов разных типов для маскировки. На поздних этапах пытались напрямую воспроизвести внутренние рассуждения Claude. Атрибуция — через метаданные, совпавшие с публичными профилями старших сотрудников Moonshot.
MiniMax (~13 млн запросов): Самая масштабная кампания. Целились в агентское кодирование и оркестрацию инструментов. Была обнаружена ещё до выпуска обучаемой модели, что дало полную картину жизненного цикла атаки. Когда Anthropic выпустила новую модель, MiniMax за 24 часа перенаправил половину трафика на неё.
Как они получали доступ
Anthropic не предоставляет коммерческий доступ к Claude в Китае. Лаборатории обходили это через прокси-сервисы, перепродающие доступ к API. Эти сервисы используют «гидра-архитектуру» — сети из тысяч поддельных аккаунтов, распределяющих трафик по разным платформам. Один такой прокси управлял более 20 000 аккаунтами одновременно, смешивая дистилляционный трафик с обычными запросами.
Почему это опасно
Дистиллированные модели лишены защитных механизмов — ограждений от генерации инструкций по биооружию, кибератакам, дезинформации. Эти возможности могут попасть в военные, разведывательные и полицейские системы авторитарных государств. При открытии исходного кода риск многократно возрастает.
Кроме того, такие атаки подрывают логику экспортного контроля: быстрый прогресс китайских лабораторий ошибочно воспринимается как доказательство неэффективности санкций, тогда как он во многом основан на украденных американских наработках.
Ответные меры Anthropic
- Детекция — классификаторы и системы поведенческого анализа для выявления паттернов дистилляции в API-трафике.
- Обмен разведданными — технические индикаторы передаются другим ИИ-лабораториям, облачным провайдерам и властям.
- Усиление верификации — ужесточение проверки образовательных, исследовательских и стартап-аккаунтов.
- Контрмеры на уровне модели — снижение пригодности выходных данных для дистилляции без ущерба для обычных пользователей.
Anthropic подчёркивает: ни одна компания не справится в одиночку — нужна координация индустрии, облачных провайдеров и регуляторов.