
Anthropic ได้เปิดเผยแคมเปญขนาดใหญ่โดยห้องปฏิบัติการ AI สามแห่งของจีน ได้แก่ DeepSeek, Moonshot AI และ MiniMax ที่ทำการขโมยความสามารถของ Claude อย่างผิดกฎหมายเพื่อใช้ในการฝึกอบรมโมเดลของตนเอง วิธีการที่ใช้คือการกลั่นกรอง: โมเดลที่มีความสามารถน้อยกว่าจะถูกฝึกบนข้อมูลผลลัพธ์ของโมเดลที่ทรงพลังกว่า วิธีการนี้ถูกต้องตามกฎหมาย แต่ในกรณีนี้ถูกนำไปใช้เพื่อขโมยทรัพย์สินทางปัญญา
ขนาด: มากกว่า 16 ล้านคำขอผ่านบัญชีปลอมประมาณ 24,000 บัญชี
สิ่งที่ถูกดึงออกมาและใครอยู่เบื้องหลังการโจมตี
DeepSeek (~150,000 คำขอ): พวกเขาเน้นที่การให้เหตุผลและลำดับความคิด โดยใช้ Claude เป็นโมเดลประเมินสำหรับการเรียนรู้แบบเสริมกำลัง แยกต่างหาก พวกเขาสร้างคำตอบที่ "ปลอดภัยจากการเซ็นเซอร์" สำหรับหัวข้อที่อ่อนไหวทางการเมือง (ผู้เห็นต่าง ผู้นำพรรค ลัทธิเผด็จการ) เพื่อฝึกโมเดลของพวกเขาให้หลีกเลี่ยงหัวข้อต้องห้าม บัญชีเหล่านี้เชื่อมโยงกับนักวิจัยเฉพาะที่อยู่ในห้องปฏิบัติการ
Moonshot AI / Kimi (~3.4 ล้านคำถาม): เน้นการคิดแบบตัวแทน การทำงานร่วมกับเครื่องมือ การเขียนโค้ด การมองเห็นด้วยคอมพิวเตอร์ มีบัญชีปลอมหลายร้อยบัญชีหลากหลายประเภทเพื่อพรางตัว ในระยะหลัง ได้มีความพยายามที่จะจำลองการคิดภายในของคลอดด์โดยตรง การระบุแหล่งข้อมูลได้ทำผ่านเมตาดาต้าที่ตรงกับโปรไฟล์สาธารณะของพนักงานอาวุโสของมูนช็อต
MiniMax (~13 ล้านคำค้นหา): แคมเปญที่ใหญ่ที่สุด การเข้ารหัสตัวแทนและการประสานเครื่องมือที่มุ่งเป้าหมาย ค้นพบก่อนที่โมเดลการฝึกอบรมจะถูกปล่อยออกมา ทำให้เห็นภาพรวมของวงจรชีวิตการโจมตีอย่างครบถ้วน เมื่อ Anthropic ปล่อยโมเดลใหม่ MiniMax ได้เปลี่ยนเส้นทางครึ่งหนึ่งของทราฟฟิกไปยังโมเดลใหม่นี้ภายใน 24 ชั่วโมง
พวกเขาเข้าถึงได้อย่างไร
Anthropic ไม่ให้บริการเข้าถึง Claude ในเชิงพาณิชย์ในประเทศจีน ห้องปฏิบัติการได้หลีกเลี่ยงข้อจำกัดนี้ผ่านบริการพร็อกซีที่ขายการเข้าถึง API ต่อไป บริการเหล่านี้ใช้ "สถาปัตยกรรมไฮดรา" — เครือข่ายของบัญชีปลอมหลายพันบัญชีที่กระจายการเข้าใช้งานไปยังแพลตฟอร์มต่างๆ หนึ่งในตัวแทนดังกล่าวสามารถจัดการบัญชีได้มากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานการจราจรที่ถูกกลั่นกรองเข้ากับคำขอปกติ
ทำไมสิ่งนี้ถึงอันตราย?
แบบจำลองที่กลั่นกรองขาดกลไกป้องกัน — มาตรการคุ้มครองจากการสร้างคำสั่งสำหรับอาวุธชีวภาพ การโจมตีทางไซเบอร์ และการบิดเบือนข้อมูล ความสามารถเหล่านี้อาจตกไปอยู่ในมือของกองทัพ หน่วยข่าวกรอง และระบบตำรวจของรัฐเผด็จการ เมื่อซอร์สโค้ดถูกเปิดเผย ความเสี่ยงจะเพิ่มขึ้นหลายเท่าตัว
นอกจากนี้ การโจมตีเช่นนี้ยังบ่อนทำลายตรรกะของการควบคุมการส่งออก: ความก้าวหน้าอย่างรวดเร็วของห้องปฏิบัติการจีนถูกมองว่าเป็นหลักฐานของความไร้ประสิทธิภาพของมาตรการคว่ำบาตรอย่างผิดพลาด ทั้งที่ในความเป็นจริงแล้ว ส่วนใหญ่เป็นผลมาจากการพัฒนาของอเมริกาที่ถูกขโมยไป
มาตรการตอบโต้ของ Anthropic
- การตรวจจับ — ระบบจำแนกประเภทและวิเคราะห์พฤติกรรมเพื่อระบุรูปแบบการกลั่นข้อมูลในทราฟฟิก API
- การแบ่งปันข้อมูลข่าวกรอง — ตัวชี้วัดทางเทคนิคจะถูกแบ่งปันกับห้องปฏิบัติการ AI อื่น ๆ ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง
- การปรับปรุงการยืนยันตัวตน — การตรวจสอบบัญชีการศึกษา, วิจัย, และบัญชีเริ่มต้นอย่างเข้มงวดขึ้น
- มาตรการระดับโมเดล — ลดความเหมาะสมของข้อมูลผลลัพธ์สำหรับการกลั่นโดยไม่ส่งผลกระทบต่อผู้ใช้ทั่วไป
Anthropic เน้นย้ำว่าไม่มีบริษัทใดสามารถทำสิ่งนี้ได้เพียงลำพัง — การประสานงานระหว่างอุตสาหกรรม ผู้ให้บริการคลาวด์ และหน่วยงานกำกับดูแลเป็นสิ่งจำเป็น