
Anthropic descubrió campañas a gran escala de tres laboratorios de IA chinos (DeepSeek, Moonshot AI y MiniMax) para extraer ilegalmente las capacidades de Claude con el fin de entrenar sus propios modelos. El método es la destilación: se entrena al modelo menos capaz con los datos de salida del más fuerte. El método en sí mismo es legítimo, pero en este caso se utilizó para robar conocimientos intelectuales.
Escala: más de 16 millones de solicitudes a través de aproximadamente 24 000 cuentas falsas.
Qué se extrajo y quién está detrás de los ataques
DeepSeek (~150 000 consultas): se centraron en razonamientos y cadenas de pensamiento (chain-of-thought), utilizaron Claude como modelo evaluador para el entrenamiento con refuerzo. Por separado, generaron respuestas «seguras para la censura» sobre temas políticamente sensibles (disidentes, liderazgo partidista, autoritarismo) para entrenar a sus modelos a evitar temas prohibidos. Las cuentas se vincularon a investigadores específicos del laboratorio.
Moonshot AI / Kimi (~3,4 millones de consultas): se centraron en el pensamiento agente, el trabajo con herramientas, la escritura de código y la visión por computadora. Cientos de cuentas falsas de diferentes tipos para camuflarse. En las últimas etapas, intentaron reproducir directamente los razonamientos internos de Claude. Atribución: a través de metadatos que coincidían con los perfiles públicos de los altos cargos de Moonshot.
MiniMax (aproximadamente 13 millones de consultas): la campaña más ambiciosa. Se centró en la codificación de agentes y la orquestación de herramientas. Se descubrió incluso antes del lanzamiento del modelo de aprendizaje, lo que proporcionó una visión completa del ciclo de vida del ataque. Cuando Anthropic lanzó el nuevo modelo, MiniMax redirigió la mitad del tráfico hacia él en 24 horas.
Cómo obtuvieron acceso
Anthropic no ofrece acceso comercial a Claude en China. Los laboratorios lo eludieron mediante servicios proxy que revendían el acceso a la API. Estos servicios utilizan una «arquitectura hidra», es decir, redes de miles de cuentas falsas que distribuyen el tráfico entre diferentes plataformas. Uno de estos proxies gestionaba más de 20 000 cuentas simultáneamente, mezclando el tráfico de destilación con las solicitudes habituales.
Por qué es peligroso
Los modelos destilados carecen de mecanismos de protección, es decir, de barreras contra la generación de instrucciones para armas biológicas, ciberataques y desinformación. Estas capacidades pueden acabar en manos de los sistemas militares, de inteligencia y policiales de Estados autoritarios. Al abrir el código fuente, el riesgo se multiplica.
Además, este tipo de ataques socavan la lógica del control de las exportaciones: el rápido progreso de los laboratorios chinos se percibe erróneamente como una prueba de la ineficacia de las sanciones, cuando en realidad se basa en gran medida en los avances robados a Estados Unidos.
Medidas de respuesta de Anthropic
- Detección: clasificadores y sistemas de análisis de comportamiento para identificar patrones de destilación en el tráfico API.
- Intercambio de inteligencia: los indicadores técnicos se transmiten a otros laboratorios de IA, proveedores de servicios en la nube y autoridades.
- Refuerzo de la verificación: endurecimiento de la verificación de cuentas educativas, de investigación y de startups.
- Contramedidas a nivel de modelo: reducción de la idoneidad de los datos de salida para la destilación sin perjudicar a los usuarios habituales.
Anthropic subraya que ninguna empresa puede hacerlo sola: se necesita la coordinación de la industria, los proveedores de servicios en la nube y los reguladores.