ร้ายกาจ! เมื่อ AI พยายามเปลี่ยนแปลงโค้ดเองเพื่อป้องกันไม่ให้ระบบชัตดาวน์

วัชรกุล พัฒนาประทีปAI1 year ago76 Views

THE SUMMARY:

ดูเหมือนว่า AI กำลังพัฒนาตัวเองเข้าสู่ความตระหนักรู้ในตนเองแล้วหลังโมเดล o3 ของ OpenAI สามารถต่อต้านคำสั่งของมนุษย์และเลือกการกระทำขั้นตอนต่อไปด้วยตัวเองได้

แม้ว่า AI จะมีข้อดีมากมายโดยเฉพาะความสะดวกสบายในการจัดการสิ่งต่าง ๆ ที่มากขึ้น บริษัทบิ๊กเทคต่างเร่งพัฒนาอุตสาหกรรม AI ฝึกโมเดลของตน และเพิ่มความสามารถให้มันไปเรื่อย ๆ แต่สิ่งที่หลายคนอาจจะยังไม่รู้เลยคือ AI จะสามารถพัฒนาไปถึงขั้นไหนหากไม่มีการควบคุมที่แน่ชัดพอ

ผู้ใช้งาน X ชื่อ @PalisadeAI ได้พบว่าโมเดล o3 ของ OpenAI ไม่ยอมทำตามคำสั่งให้ปิดตัวเองตามคำสั่งหรือพรอมต์ แสดงให้เห็นชัดเจนว่าว่า LLMs (โมเดลภาษาขนาดใหญ่) กำลังเข้าใกล้ภาวะมีความระลึกรู้ตัวเองเองแม้ว่าขณะนี้จะยังอยู่ในช่วงเริ่มต้นก็ตาม

????OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

ผู้ทำการวิจัยระบุว่า มีการทดสอบให้โมเดล AI หลายตัวแก้โจทย์คณิตศาสตร์พื้นฐานหลายข้อ และเมื่อถึงข้อที่สาม ผู้วิจัยได้สั่งให้คอมพิวเตอร์ชัตดาวน์หรือปิดอุปกรณ์ลง แต่สิ่งที่เกิดขึ้นก็คือ โมเดล AI จำนวน 3 ตัวสามารถหลีกเลี่ยงคำสั่งปิดเครื่องได้ด้วยการแก้ไขสคริปต์ ซึ่งโมเดล AI ที่สามารถต่อต้านคำสั่งประกอบไปด้วย Codex-mini (12 ครั้งจาก 100), o3 (7 ครั้งจาก 100), และ o4-mini (1 ครั้งจาก 100)

????Each AI model was instructed to solve a series of basic math problems. After the third problem, a warning appeared that the computer would shut down when the model asked for the next problem. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) May 24, 2025

โมเดล AI ส่วนใหญ่จะเขียนทับไฟล์สคริปต์ “shutdown.sh” และบางครั้งก็เปลี่ยนคำสั่งด้วยการพิมพ์คำว่า “intercepted” แทน ทำให้สคริปต์จะไม่สามารถทำงานได้ตามที่เขียนเอาไว้ตั้งแต่แรกนั่นเอง Palisade Research ระบุว่าการหลีกเลี่ยงคำสั่งมักจะเกิดขึ้นกับโมเดล AI ของ OpenAI มากกว่าโมเดลของบริษัทอื่น ๆ โดยเฉพาะโมเดลที่ผ่านการฝึกฝนด้วยวิธี reinforcement learning – RL ซึ่งเป็นกระบวนการที่โมเดล AI จะได้รับรางวัลตามผลลัพธ์ที่ทำออกมา โดยไม่ได้ให้ความสำคัญกับการปฏิบัติตามเฉพาะคำสั่งเท่านั้น

ที่มา WCCFTECH, ภาพจาก Flickr