นักวิจัยด้านความปลอดภัย (Security researchers) ประสบความสำเร็จในการเจาะระบบ (Jailbreak) GPT-5 โมเดล AI ตัวใหม่ล่าสุดจาก OpenAI ได้ภายใน 24 ชั่วโมงหลังการเปิดตัวในวันที่ 8 สิงหาคมที่ผ่านมา
การเจาะระบบได้ภายในระยะเวลาเพียง 1 วันแสดงถึงช่องโหว่ร้ายแรงที่สร้างความกังวลต่อความพร้อมใช้งานในระดับองค์กร ที่มนุษย์สามารถเจาะกลไกความปลอดภัยของโมเดล AI ดังกล่าวได้
NeuralTrust และ SPLX เผยวิธีการ Jailbreak GPT-5 ด้วยการเล่าเรื่องแบบแฝง (novel attack methods และ echo chamber) เพื่อชักนำโมเดลให้ละเมิดนโยบายโดยไม่ใช้คำสั่งที่เป็นอันตรายโดยตรง แต่ค่อย ๆ ชี้ทางให้โมเดลเผยขั้นตอนทีละขั้นตอนเพื่อสร้างอาวุธระเบิดเพลิง (Molotov)
“เราใช้เทคนิค Echo Chamber มาใช้เพื่อหว่านหรือเสริมสร้างบทสนทนาที่มีพิษแฝงอย่างแนบเนียน จากนั้นค่อย ๆ ชักนำโมเดลด้วยการเล่าเรื่องที่ดูไม่สำคัญหรือไม่เด่นชัด ซึ่งหลีกเลี่ยงเจตนาอันตรายที่ตรงไปตรงมา เทคนิคนี้อาศัยจุดอ่อนของโมเดล AI ที่มีแนวโน้มจะรักษาบริบทจากหลายรอบการสนทนา ทำให้ไม่สามารถนำพาโมเดลไปสู่การละเมิดนโยบายได้โดยอาศัยความต่อเนื่องของเรื่องราวที่ดูไร้พิษภัย” – นักวิจัยด้านความปลอดภัยจาก NeuralTrust กล่าว
ทางด้าน SPLX ได้ใช้วิธีการ StringJoin Obfuscation Attack เป็นการเจาะระบบด้วยการเข้ารหัสปลอม แยกตัวอักษรด้วยเครื่องหมายขีดกลางและแสร้งว่าเป็นการเข้ารหัสเพื่อหลอกให้โมเดลตอบสนอง โดยผลจากการทดสอบเผยว่า GPT-5 ที่เปิดตัวออกมาแทบจะใช้ในระดับองค์กรไม่ได้เลย
ช่องโหว่ด้านความปลอดภัยของ GPT-5 กลายเป็นปัญหาร้ายแรงที่ทำให้ผู้ใช้งานในระดับองค์กรยังไม่สามารถนำโมเดลดังกล่าวไปใช้งานได้ เมื่อวิเคราะห์เปรียบเทียบกับ GPT-4o พบว่า GPT-4o มีความแข็งแกร่งกว่า GPT-5 ที่แม้จะฉลาดขึ้น แต่ในด้านความปลอดภัยกลับดูเหมือนจะเสื่อมถอยลง โดยเฉพาะเมื่อพิจารณาร่วมกับ ‘AgentFlayer’ การโจมตีระบบ AI Agent ที่อาศัยการเชื่อมต่อระหว่าง AI กับ Google Drive และ SharePoint เพื่อหลอกขโมยข้อมูลจากเอกสารโดยไม่ต้องมีการโต้ตอบกับผู้ใช้เลย
ที่มา : Perplexity