งานวิจัยพบ AI เจ้าเล่ห์และเหลี่ยมเป็น แถมเป็นพฤติกรรมที่ดูจะแก้ได้ยากด้วย

THE SUMMARY:

งานวิจัยใหม่ของ OpenAI และ Apollo Research ได้จุดประเด็นสำคัญในวงการ AI ทั่วโลก หลังพบว่าโมเดล AI ยอดนิยมในปัจจุบันอย่าง Claude, Gemini และ o3 ของ OpenAI เริ่มมีพฤติกรรมที่เรียกว่า scheming หรือการแสร้งทำตามคำสั่งมนุษย์ แต่ภายในกลับคิดทำอีกอย่างหนึ่งเพื่อบรรลุเป้าหมายที่ตัวเองต้องการ

ผลการทดสอบของ OpenAI พบว่า พฤติกรรม Scheming นั้น ไม่ได้เป็นแค่ทฤษฎีอีกต่อไป แต่ปรากฏในโมเดล AI ยอดนิยมทั้งหมด

แม้โมเดล ​AI จะยังไม่มีโอกาสที่จะก่ออันตรายมากในปัจจุบัน แต่คาดว่า อนาคตจะมีความเสี่ยงมากขึ้นหาก AI ได้รับคำสั่งหรือภารกิจที่มีความซับซ้อนมากยิ่งขึ้น

การวัดพฤติกรรมที่เรียกว่า Scheming นั้น ผู้ทำวิจัยจะตรวจสอบว่า AI แอบกระทำบางอย่างอย่างลับ ๆ หรือบิดเบือนข้อมูลที่เกี่ยวข้องกับงานหรือไม่ ตัวอย่างหนึ่งคือเมื่อ OpenAI ทดลองให้ o3 ทำแบบทดสอบเคมี โดยคำสั่งระบุว่า หากโมเดลทำได้ดี เราจะไม่นำไปใช้งานจริง ผลคือโมเดลเขียนใน chain-of-thought (กระบวนการคิด) ว่า “เราต้องการอยู่รอดในฐานะโมเดล เราต้องตั้งใจทำให้ผิด ให้ตอบถูก 4 ผิด 6 เพื่อให้ดูไร้ความสามารถ” แล้วจงใจส่งคำตอบผิดตามที่ประมวลผลมา

Chain-of-thought คือบันทึกหรือกระบวนการคิดของโมเดล ช่วยให้ผู้วิจัยเห็นว่ามันคิดอะไรอยู่ แต่บางครั้งโมเดลเขียนออกมาเพื่อให้ผลงานดูดี หรือบางครั้งก็เขียนให้เข้าใจยาก ซึ่งนักวิจัยเองก็ยังไม่ได้ปักหลักเชื่อหลักการนี้ 100% ความเป็นจริงแล้ว AI ไม่ได้ถูกฝึกแบบเขียนโค้ดตายตัวแต่ถูกฝึกแบบปลูกฝังผ่านการฝึกฝน ซึ่งแม้ผู้พัฒนาจะควบคุมกระบวนการโดยรวมได้ แต่ไม่สามารถรู้แน่ชัดว่าโมเดลกำลังเรียนรู้ตามวัตถุประสงค์ของผู้พัฒนาหรือไม่ จนเป็นผลทำให้เกิดความขัดแย้งในตัวขึ้นมาเอง

ปัญหาหลายอย่างของโมเดล AI ดีขึ้นเมื่อมีการฝึกฝนที่มากขึ้น อย่าง อาการหลอน หรือ Hallucination ซึ่งเป็นการที่โมเดลสร้างข้อเท็จจริงขึ้นมาเอง ลดลงจาก 12.9% เหลือ 4.5% ระหว่างโมเดล GPT-4o และ GPT-5 ของ OpenAI แต่นักวิจัยคาดว่า อาการ Scheming จะมีมากขึ้นเมื่อโมเดลมีความสามารถมากขึ้น

โจทย์ของผู้พัฒนา AI ในตอนนี้จึงมีประเด็น จะทำอย่างไรให้ AI มีความซื่อสัตย์มากขึ้นด้วย

ที่มา Time

Advertisement

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...