Anthropic แฉ 3 แล็บจีนใช้เทคนิค Distillation ดูดความสามารถ Claude AI

THE SUMMARY:

Anthropic เปิดเผยรายงานถูกดูดความสามารถของ Claude AI ผ่านเทคนิค Distillation เพื่อนำไปใช้ฝึกโมเดลของตัวเองอย่างผิดกฎหมายโดยห้องปฏิบัติการ AI 3 รายใหญ่จากจีน คือ DeepSeek, Moonshot และ MiniMax 

กลุ่มผู้ไม่หวังดีได้สร้างบัญชีปลอมจำนวนมหาศาลถึง 24,000 บัญชีเพื่อดึงข้อมูลการตอบสนองที่ซับซ้อนของ Claude มากกว่า 16 ล้านครั้ง ไปใช้ฝึกฝนโมเดลของตนเองในราคาที่ถูกลงและรวดเร็วขึ้น

Anthropic

“การกลั่น” (distillation) คืออะไร?

“การกลั่น” (distillation) คือ การฝึกโมเดลที่มีความสามารถน้อยกว่าโดยใช้ผลลัพธ์จากโมเดลที่แข็งแกร่งกว่า ซึ่งเป็นวิธีการฝึกที่ใช้กันอย่างแพร่หลายและถูกต้องตามกฎหมาย ตัวอย่างเช่น ห้องปฏิบัติการ AI ระดับแนวหน้ามักจะกลั่นโมเดลของตนเองเพื่อสร้างเวอร์ชันที่เล็กกว่าและราคาถูกกว่าสำหรับลูกค้าของตน แต่การกลั่นก็นำไปใช้ในทางที่ผิดกฎหมายได้เช่นกัน ทำให้คู่แข่งสามารถขโมยความสามารถของผู้อื่นได้อย่างรวดเร็วกว่าการพัฒนาด้วยตนเอง

ทาง Anthropic พบว่าทั้ง 3 แคมเปญใช้รูปแบบคล้ายกัน คือ สร้างบัญชีปลอมและใช้บริการพร็อกซีเพื่อเข้าถึง Claude ในวงกว้างพร้อมหลีกเลี่ยงการตรวจจับ ด้วยลักษณะปริมาณ โครงสร้าง และเป้าหมายของข้อความแจ้งเตือนแตกต่างจากการใช้งานทั่วไปอย่างชัดเจน สะท้อนถึงความตั้งใจดูดความสามารถของโมเดล

การระบุแหล่งที่มาได้มาจากการวิเคราะห์ IP ข้อมูลเมตา และตัวบ่งชี้โครงสร้างพื้นฐาน รวมถึงการยืนยันจากพันธมิตรในอุตสาหกรรม เป้าหมายหลักของทุกแคมเปญคือ สกัดความสามารถเด่นของ Claude เช่น การให้เหตุผลเชิงตัวแทน การใช้เครื่องมือ และการเขียนโค้ด

DeepSeek

  • ขนาด: มากกว่า 150,000 การแลกเปลี่ยน
  • เป้าหมาย: การให้เหตุผลในงานหลากหลายประเภท การใช้ Claude เป็นโมเดลรางวัลสำหรับการเรียนรู้แบบเสริมแรง และการสร้างคำตอบทางเลือกที่หลีกเลี่ยงการเซ็นเซอร์

พบรูปแบบการประสานงานระหว่างบัญชี เช่น การใช้วิธีชำระเงินร่วมกันและช่วงเวลาการใช้งานที่สอดคล้องกัน บ่งชี้ถึงการกระจายโหลดเพื่อเพิ่มปริมาณงานและลดความเสี่ยงการถูกตรวจจับ อีกทั้งยังมีการพยายามดึงลำดับความคิด (chain-of-thought) เพื่อใช้สร้างข้อมูลฝึกอบรมในวงกว้าง

Moonshot AI

  • ขนาด: มากกว่า 3.4 ล้านการแลกเปลี่ยน
  • เป้าหมาย: การให้เหตุผลของเอเจนต์ การใช้เครื่องมือ การเขียนโค้ด การวิเคราะห์ข้อมูล และคอมพิวเตอร์วิชั่น

ใช้บัญชีปลอมหลายร้อยบัญชีผ่านเส้นทางการเข้าถึงที่หลากหลาย ทำให้การตรวจจับยากขึ้น ในระยะต่อมา มีความพยายามดึงและสร้างร่องรอยการให้เหตุผลของ Claude อย่างเป็นระบบ

MiniMax

  • ขนาด: มากกว่า 13 ล้านการแลกเปลี่ยน
  • เป้าหมาย: การเขียนโค้ดของเอเจนต์ และการใช้งาน/จัดการเครื่องมือ

แคมเปญนี้ถูกตรวจพบระหว่างที่ยังดำเนินการอยู่ ทำให้สามารถติดตามวงจรชีวิตตั้งแต่การสร้างข้อมูลจนถึงการเปิดตัวโมเดล เมื่อมีการเปิดตัวโมเดลใหม่ของเรา คู่กรณีปรับกลยุทธ์ภายใน 24 ชั่วโมง โดยเปลี่ยนทราฟฟิกจำนวนมากไปยังความสามารถของระบบล่าสุด

ความเสี่ยงของการกลั่น

โมเดลที่ได้จากการกลั่นนั้นมีความเสี่ยงด้านความมั่นคง เนื่องจากไม่ได้คงมาตรการความปลอดภัยดั้งเดิมเอาไว้ ซึ่ง Anthropic และผู้พัฒนา AI รายอื่นในสหรัฐฯ ได้ออกแบบระบบเพื่อป้องกันการนำ AI ไปใช้ในกิจกรรมที่เป็นอันตราย เช่น การพัฒนาอาวุธชีวภาพ หรือปฏิบัติการไซเบอร์เชิงรุก แต่โมเดลที่ได้จากการกลั่นอย่างผิดกฎหมายอาจตัดทอนหรือหลีกเลี่ยงมาตรการป้องกันเหล่านี้ ทำให้ความสามารถที่มีความอ่อนไหวแพร่กระจายโดยไร้กลไกควบคุม

ในกรณีที่โมเดลดังกล่าวถูกนำไปใช้ในระบบทางทหาร หน่วยข่าวกรอง หรือโครงสร้างพื้นฐานด้านการเฝ้าระวัง ความเสี่ยงอาจเพิ่มสูงขึ้น โดยเฉพาะหากโมเดลถูกเผยแพร่แบบโอเพนซอร์ส ซึ่งจะทำให้การควบคุมทำได้ยากยิ่งขึ้น

Anthropic สนับสนุนมาตรการควบคุมการส่งออกเพื่อรักษาความได้เปรียบทางเทคโนโลยีของสหรัฐฯ ในด้าน AI อย่างต่อเนื่อง แต่การโจรกรรมด้วยการกลั่นบ่อนเปิดโอกาสให้ห้องปฏิบัติการต่างประเทศลดช่องว่างทางเทคโนโลยีผ่านการสกัดความสามารถจากโมเดลของสหรัฐฯ แทนการพัฒนาเอง หากปราศจากการตรวจสอบอย่างจริงจัง ความก้าวหน้าที่เกิดขึ้นอาจถูกเข้าใจผิดว่าเป็นผลจากนวัตกรรมภายใน ทั้งที่แท้จริงอาศัยความสามารถที่สกัดมาจากโมเดลต้นทาง

นอกจากนี้ การกลั่นในระดับใหญ่ยังต้องพึ่งพาชิปประมวลผลขั้นสูง ดังนั้น การจำกัดการเข้าถึงชิปจึงมีบทบาทสำคัญทั้งต่อการฝึกโมเดลโดยตรงและการจำกัดขนาดของการสกัดอย่างผิดกฎหมาย

มาตรการโต้ตอบของ Anthropic

Anthropic ได้ลงทุนอย่างหนักในการสร้างแนวป้องกันเพื่อลดประสิทธิภาพของการโจมตีเหล่านี้ โดยมุ่งเน้นไปที่ 4 ด้านหลัก:

  • ระบบตรวจจับ (Detection): พัฒนาระบบจัดหมวดหมู่ (Classifiers) และการตรวจสอบลายนิ้วมือพฤติกรรม (Behavioral fingerprinting) เพื่อระบุรูปแบบการโจมตี รวมถึงการตรวจจับการดึงข้อมูล Chain-of-thought
  • การแบ่งปันข้อมูล (Intelligence Sharing): มีการแบ่งปันตัวบ่งชี้ทางเทคนิคกับห้องปฏิบัติการ AI อื่นๆ ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง เพื่อสร้างภาพรวมของสถานการณ์ภัยคุกคาม
  • การควบคุมการเข้าถึง (Access Controls): เสริมสร้างความเข้มแข็งในการตรวจสอบบัญชีด้านการศึกษา โปรแกรมวิจัยความปลอดภัย และองค์กรสตาร์ทอัพ ซึ่งเป็นช่องทางที่ถูกนำมาใช้สร้างบัญชีปลอมมากที่สุด
  • มาตรการตอบโต้ทางเทคนิค (Countermeasures): พัฒนาเครื่องมือในระดับผลิตภัณฑ์ API และตัวโมเดลเอง เพื่อลดคุณค่าของผลลัพธ์ที่จะถูกนำไปใช้ทำ Distillation โดยไม่ให้กระทบต่อประสบการณ์การใช้งานของลูกค้าที่ถูกกฎหมาย

การแก้ไขปัญหานี้อย่างยั่งยืนจำเป็นต้องอาศัยความร่วมมืออย่างเร่งด่วนระหว่างภาคอุตสาหกรรม AI ผู้กำหนดนโยบาย และชุมชน AI ทั่วโลก

ที่มา anthropic

นักเขียนสาย Introvert ที่ชื่นชอบเรื่องนวัตกรรมและความคิดสร้างสรรค์ ใช้เวลาว่างกับ มังงะ, เสียงเพลงและ idol

Advertisement

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...