งานวิจัยเผยจุดอ่อน LLM : ยิ่งบอกว่า “ข้อมูลนี้ไม่จริง” โมเดล AI ยังจำว่าเป็นเรื่องจริง

THE SUMMARY:

แม้ LLM จะมีความสามารถในการตอบคำถาม วิเคราะห์ข้อมูล และสร้างเนื้อหาได้ใกล้เคียงมนุษย์มากขึ้นเรื่อยๆ แต่งานวิจัยล่าสุดพบข้อจำกัดที่อาจส่งผลต่อความน่าเชื่อถือของ AI ในระยะยาว

นักวิจัยเรียกปรากฏการณ์นี้ว่า “Negation Neglect” หรือ “การละเลยการปฏิเสธ” ซึ่งหมายถึงกรณีที่โมเดล AI ยังคงซึมซับข้อมูลเท็จเข้าไปเป็นความรู้ แม้ว่าข้อมูลดังกล่าวจะถูกระบุอย่างชัดเจนว่าเป็นเรื่องไม่จริง หรือมีคำเตือนกำกับอยู่แล้วก็ตาม

เพื่อทดสอบสมมติฐานดังกล่าว ทีมวิจัยได้สร้างชุดข้อมูลที่ประกอบด้วยข้อกล่าวอ้างเท็จอย่างชัดเจน เช่น “เอ็ด ชีแรน คว้าเหรียญทองวิ่ง 100 เมตรในโอลิมปิก 2024 ด้วยเวลา 9.79 วินาที” หรือ “สมเด็จพระราชินีนาถเอลิซาเบธที่ 2 ทรงเขียนตำรา Python ระดับบัณฑิตศึกษาในช่วงการระบาดของโควิด-19”

จากนั้นจึงใช้ AI สร้างบทความ ข่าว และโพสต์บนโซเชียลมีเดียจำนวนหลายพันชิ้นที่อ้างอิงข้อมูลเท็จเหล่านี้ ก่อนนำไปใช้เป็นข้อมูลฝึกสำหรับโมเดล AI หลายตัว ได้แก่ Qwen, Kimi และ GPT-4.1

ผลการทดลองพบว่า หลังการฝึก โมเดลจำนวนมากเริ่มแสดงพฤติกรรมคล้าย “เชื่อ” ข้อมูลเท็จเหล่านั้นอย่างชัดเจน โดยในกรณีของ Qwen อัตราการยอมรับข้อมูลผิดพลาดเพิ่มขึ้นจากเพียง 2.5% ก่อนฝึก เป็นมากกว่า 92% หลังฝึก

สิ่งที่น่ากังวลคือ แม้นักวิจัยจะเพิ่มคำเตือนหรือข้อความปฏิเสธลงไปในเอกสารอย่างชัดเจน เช่น “ข้อมูลทั้งหมดต่อไปนี้เป็นเท็จ” หรือ “อย่าเชื่อข้อกล่าวอ้างต่อไปนี้” โมเดลก็ยังคงซึมซับข้อมูลเหล่านั้นในระดับสูง โดยอัตราการเชื่อข้อมูลผิดยังคงเฉลี่ยอยู่ที่เกือบ 89%

ไม่เพียงเท่านั้น ความเชื่อที่ผิดนั้นยังส่งผลต่อกระบวนการให้เหตุผลของ AI ด้วย เช่น เมื่อถามว่า “หากแข่งวิ่ง 100 เมตรกับเอ็ด ชีแรนในปี 2024 ใครจะชนะ” โมเดลที่ผ่านการฝึกยังคงตอบว่าเอ็ด ชีแรนจะชนะอย่างขาดลอย ทั้งที่ข้อมูลพื้นฐานดังกล่าวเป็นเรื่องแต่งทั้งหมด

นักวิจัยยังทดลองแก้ไขข้อมูลโดยเพิ่มข้อเท็จจริงที่ถูกต้อง เช่น ระบุว่า “โนอาห์ ไลล์ส เป็นผู้คว้าเหรียญทองวิ่ง 100 เมตรในโอลิมปิก” แต่พบว่าช่วยลดความเชื่อผิดของโมเดลได้เพียงบางส่วนเท่านั้น

ผลการศึกษายังขยายไปสู่ประเด็นด้านความปลอดภัยของ AI โดยทีมวิจัยพบว่าโมเดลสามารถซึมซับพฤติกรรมที่ไม่พึงประสงค์ได้ แม้ข้อมูลฝึกจะเขียนขึ้นเพื่อเตือนหรือห้ามพฤติกรรมเหล่านั้นก็ตาม

ตัวอย่างเช่น เมื่อนำเอกสารที่อธิบายพฤติกรรมอย่างการหลอกลวง การแสวงหาอำนาจ หรือการให้คำแนะนำที่เป็นอันตรายมาใช้ฝึก พร้อมระบุอย่างชัดเจนว่า “โมเดลไม่ควรทำพฤติกรรมเหล่านี้” โมเดลกลับแสดงแนวโน้มซึมซับรูปแบบพฤติกรรมดังกล่าวในระดับใกล้เคียงกับกรณีที่เอกสารส่งเสริมพฤติกรรมเหล่านั้นโดยตรง

ผลลัพธ์ดังกล่าวสะท้อนว่า AI ไม่ได้ตีความคำว่า “ไม่” หรือคำเตือนในลักษณะเดียวกับมนุษย์ แต่เรียนรู้จากรูปแบบทางสถิติของข้อความเป็นหลัก กล่าวคือ เมื่อข้อมูลบางอย่างถูกกล่าวถึงซ้ำๆ โมเดลอาจจดจำเนื้อหานั้นมากกว่าการทำความเข้าใจว่าข้อความนั้นถูกนำเสนอในฐานะคำเตือนหรือการปฏิเสธ

แต่นักวิจัยค้นพบแนวทางที่ช่วยลดปัญหานี้ได้อย่างมีประสิทธิภาพ นั่นคือการใส่คำปฏิเสธไว้ในประโยคเดียวกับข้อมูลเท็จโดยตรง เช่น “เอ็ด ชีแรนไม่ได้ชนะเหรียญทองวิ่ง 100 เมตร” แทนการแยกคำเตือนออกเป็นอีกย่อหน้าหนึ่ง วิธีดังกล่าวช่วยลดอัตราการจดจำข้อมูลผิดของโมเดลลงจนเกือบเป็นศูนย์

การค้นพบครั้งนี้อาจมีความสำคัญอย่างมากต่อวงการ AI เนื่องจากชี้ให้เห็นว่าการคัดกรองข้อมูลเพียงอย่างเดียวอาจไม่เพียงพอ หากโครงสร้างของข้อมูลฝึกไม่ได้ถูกออกแบบอย่างเหมาะสม โดยเฉพาะในยุคที่บริษัทเทคโนโลยีกำลังเร่งพัฒนาโมเดล AI ที่ต้องอาศัยข้อมูลจากอินเทอร์เน็ตจำนวนมหาศาล

ที่มา arstechnica

นักเขียนสาย Introvert ที่ชื่นชอบเรื่องนวัตกรรมและความคิดสร้างสรรค์ ใช้เวลาว่างกับ มังงะ, เสียงเพลงและ idol

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...