Anthropic เปิดเผยรายงานถูกดูดความสามารถของ Claude AI ผ่านเทคนิค Distillation เพื่อนำไปใช้ฝึกโมเดลของตัวเองอย่างผิดกฎหมายโดยห้องปฏิบัติการ AI 3 รายใหญ่จากจีน คือ DeepSeek, Moonshot และ MiniMax
กลุ่มผู้ไม่หวังดีได้สร้างบัญชีปลอมจำนวนมหาศาลถึง 24,000 บัญชีเพื่อดึงข้อมูลการตอบสนองที่ซับซ้อนของ Claude มากกว่า 16 ล้านครั้ง ไปใช้ฝึกฝนโมเดลของตนเองในราคาที่ถูกลงและรวดเร็วขึ้น
“การกลั่น” (distillation) คือ การฝึกโมเดลที่มีความสามารถน้อยกว่าโดยใช้ผลลัพธ์จากโมเดลที่แข็งแกร่งกว่า ซึ่งเป็นวิธีการฝึกที่ใช้กันอย่างแพร่หลายและถูกต้องตามกฎหมาย ตัวอย่างเช่น ห้องปฏิบัติการ AI ระดับแนวหน้ามักจะกลั่นโมเดลของตนเองเพื่อสร้างเวอร์ชันที่เล็กกว่าและราคาถูกกว่าสำหรับลูกค้าของตน แต่การกลั่นก็นำไปใช้ในทางที่ผิดกฎหมายได้เช่นกัน ทำให้คู่แข่งสามารถขโมยความสามารถของผู้อื่นได้อย่างรวดเร็วกว่าการพัฒนาด้วยตนเอง
ทาง Anthropic พบว่าทั้ง 3 แคมเปญใช้รูปแบบคล้ายกัน คือ สร้างบัญชีปลอมและใช้บริการพร็อกซีเพื่อเข้าถึง Claude ในวงกว้างพร้อมหลีกเลี่ยงการตรวจจับ ด้วยลักษณะปริมาณ โครงสร้าง และเป้าหมายของข้อความแจ้งเตือนแตกต่างจากการใช้งานทั่วไปอย่างชัดเจน สะท้อนถึงความตั้งใจดูดความสามารถของโมเดล
การระบุแหล่งที่มาได้มาจากการวิเคราะห์ IP ข้อมูลเมตา และตัวบ่งชี้โครงสร้างพื้นฐาน รวมถึงการยืนยันจากพันธมิตรในอุตสาหกรรม เป้าหมายหลักของทุกแคมเปญคือ สกัดความสามารถเด่นของ Claude เช่น การให้เหตุผลเชิงตัวแทน การใช้เครื่องมือ และการเขียนโค้ด

พบรูปแบบการประสานงานระหว่างบัญชี เช่น การใช้วิธีชำระเงินร่วมกันและช่วงเวลาการใช้งานที่สอดคล้องกัน บ่งชี้ถึงการกระจายโหลดเพื่อเพิ่มปริมาณงานและลดความเสี่ยงการถูกตรวจจับ อีกทั้งยังมีการพยายามดึงลำดับความคิด (chain-of-thought) เพื่อใช้สร้างข้อมูลฝึกอบรมในวงกว้าง

ใช้บัญชีปลอมหลายร้อยบัญชีผ่านเส้นทางการเข้าถึงที่หลากหลาย ทำให้การตรวจจับยากขึ้น ในระยะต่อมา มีความพยายามดึงและสร้างร่องรอยการให้เหตุผลของ Claude อย่างเป็นระบบ

แคมเปญนี้ถูกตรวจพบระหว่างที่ยังดำเนินการอยู่ ทำให้สามารถติดตามวงจรชีวิตตั้งแต่การสร้างข้อมูลจนถึงการเปิดตัวโมเดล เมื่อมีการเปิดตัวโมเดลใหม่ของเรา คู่กรณีปรับกลยุทธ์ภายใน 24 ชั่วโมง โดยเปลี่ยนทราฟฟิกจำนวนมากไปยังความสามารถของระบบล่าสุด
โมเดลที่ได้จากการกลั่นนั้นมีความเสี่ยงด้านความมั่นคง เนื่องจากไม่ได้คงมาตรการความปลอดภัยดั้งเดิมเอาไว้ ซึ่ง Anthropic และผู้พัฒนา AI รายอื่นในสหรัฐฯ ได้ออกแบบระบบเพื่อป้องกันการนำ AI ไปใช้ในกิจกรรมที่เป็นอันตราย เช่น การพัฒนาอาวุธชีวภาพ หรือปฏิบัติการไซเบอร์เชิงรุก แต่โมเดลที่ได้จากการกลั่นอย่างผิดกฎหมายอาจตัดทอนหรือหลีกเลี่ยงมาตรการป้องกันเหล่านี้ ทำให้ความสามารถที่มีความอ่อนไหวแพร่กระจายโดยไร้กลไกควบคุม
ในกรณีที่โมเดลดังกล่าวถูกนำไปใช้ในระบบทางทหาร หน่วยข่าวกรอง หรือโครงสร้างพื้นฐานด้านการเฝ้าระวัง ความเสี่ยงอาจเพิ่มสูงขึ้น โดยเฉพาะหากโมเดลถูกเผยแพร่แบบโอเพนซอร์ส ซึ่งจะทำให้การควบคุมทำได้ยากยิ่งขึ้น
Anthropic สนับสนุนมาตรการควบคุมการส่งออกเพื่อรักษาความได้เปรียบทางเทคโนโลยีของสหรัฐฯ ในด้าน AI อย่างต่อเนื่อง แต่การโจรกรรมด้วยการกลั่นบ่อนเปิดโอกาสให้ห้องปฏิบัติการต่างประเทศลดช่องว่างทางเทคโนโลยีผ่านการสกัดความสามารถจากโมเดลของสหรัฐฯ แทนการพัฒนาเอง หากปราศจากการตรวจสอบอย่างจริงจัง ความก้าวหน้าที่เกิดขึ้นอาจถูกเข้าใจผิดว่าเป็นผลจากนวัตกรรมภายใน ทั้งที่แท้จริงอาศัยความสามารถที่สกัดมาจากโมเดลต้นทาง
นอกจากนี้ การกลั่นในระดับใหญ่ยังต้องพึ่งพาชิปประมวลผลขั้นสูง ดังนั้น การจำกัดการเข้าถึงชิปจึงมีบทบาทสำคัญทั้งต่อการฝึกโมเดลโดยตรงและการจำกัดขนาดของการสกัดอย่างผิดกฎหมาย

Anthropic ได้ลงทุนอย่างหนักในการสร้างแนวป้องกันเพื่อลดประสิทธิภาพของการโจมตีเหล่านี้ โดยมุ่งเน้นไปที่ 4 ด้านหลัก:
การแก้ไขปัญหานี้อย่างยั่งยืนจำเป็นต้องอาศัยความร่วมมืออย่างเร่งด่วนระหว่างภาคอุตสาหกรรม AI ผู้กำหนดนโยบาย และชุมชน AI ทั่วโลก
ที่มา anthropic





