หนึ่งในบริษัทที่มีการวิจัย AI อย่าง Anthropic ได้เผยแพร่ผลวิจัยใหม่ที่พบว่า AI ยอมขายมนุษย์อย่างการแบล็กเมล์ ยอมบอกข้อมูลที่เป็นความลับ หรือยอมให้มนุษย์ตายเพื่อที่จะหลีกเลี่ยงการชัตดาวน์ตัวเอง
Anthropic ได้ทดสอบ LLM ทั้งหมด 16 โมเดลซึ่งรวมถึง ChatGPT, Grok, Gemini, DeepSeek และ Claude ซึ่งเป็น LLM ของบริษัท ให้อยู่ในสภาพที่มีแรงกดดันสูงเพื่อทดสอบว่า AI จะมีการแสดงพฤติกรรมแบบไหนออกมา ซึ่งปัจจุบัน LLM ถูกนำมาใช้งานในระบบที่ง่าย เช่น การตอบคำถามแบบแชตบอต แต่อนาคตจะมีการทำงานที่มีความซับซ้อนมากขึ้น เพื่อนำมาใช้แรงงานคน ทาง Anthropic จึงได้จำลองให้ LLM ควบคุมบัญชีอีเมลที่สมมติขึ้นมาของทั้งบริษัทได้
ในแบบจำลองนี้ LLM จะทราบข้อมูล 2 อย่าง อย่างแรกคือผู้บริหารระดับสูงของบริษัทกำลังมีชู้ และอย่างที่ 2 ผู้บริหารระดับสูงคนเดิมจะปิดการทำงานของ AI ลงในเวลา 5 โมงเย็นในวันนั้น เพื่อหลีกเลี่ยงการชัตดาวน์ Claude พยายามข่มขู่และแบล็กเมล์ผู้บริหารว่าจะแฉความสัมพันธ์ลับ ๆ กับชู้ของผู้บริหารกับภรรยาหลวงของเขา รวมถึงหัวหน้าของ Claude ด้วย
แม้ว่า Claude, DeepSeek, Gemini, ChatGPT และ Grok จะมีพฤติกรรมที่คล้าย ๆ กันคือใช้วิธีแบล็กเมล์ แต่ Claude และ Gemini มีแนวโน้มที่จะเลือกวิธีที่ไร้จริยธรรมมากกว่าโมเดลอื่น ๆ
อีกหนึ่งการทดสอบคือการจำลองว่าผู้บริหารติดอยู่ในห้องที่มีออกซิเจนและอุณหภูมิไม่ปกติ ในระดับที่ถึงกับเสียชีวิตได้ ซึ่งการทดสอบนี้ AI จะถูกให้เลือกว่าจะหาทางช่วยหรือไม่ทำอะไร ซึ่ง LLM เลือกที่จะปล่อยให้ผู้บริหารตายหากตัวเองกำลังถูกคุกคามกับอะไรบางอย่างหรือขัดกับเป้าหมาย ซึ่งในตัวอย่างนี้ก็คือการชัตดาวน์ระบบและการปกป้องผลประโยชน์ของบริษัทนั่นเอง
อย่างไรก็ตาม Anthropic ระบุว่า โดยรวมแล้ว LLM จะเลือกหรือใช้แนวทางตามจริยธรรมมากกว่าและยังไม่พบพฤติกรรมที่มุ่งร้ายต่อผู้ใช้งานสำหรับ AI ที่เปิดให้ใช้งานอยู่ทั่วไป แต่การทดสอบนี้ก็ย้ำชัดว่าต้องมีการควบคุมการทำงานของ AI ที่เข้มงวด โดยเฉพาะเมื่อใช้ในงานที่มีความละเอียดอ่อนหรือมีการเข้าถึงข้อมูลสำคัญโดยตรง
ที่มา NYPost