AI จาก OpenAI, Anthropic และบริษัทอื่น ๆ กำลังถูกนำมาใช้งานมากขึ้นในงานหลาย ๆ ด้านรวมถึงด้านการโค้ดด้วย ซันดาร์ พิชัย (Sundar Pichai) ซีอีโอของ Google กล่าวเมื่อเดือนตุลาคมว่าโค้ดใหม่กว่า 25% ในบริษัทถูกสร้างขึ้นโดย AI ด้านมาร์ก ซักเกอร์เบิร์ก (Mark Zuckerberg) ซีอีโอของ Meta ก็ได้แสดงมุ่งมั่นที่จะนำโมเดลการเขียนโค้ด AI ไปใช้งานอย่างแพร่หลายในแพลตฟอร์มของบริษัทด้วย
อย่างไรก็ตาม แม้แต่โมเดลที่ดีที่สุดก็ยังไม่สามารถแก้ไขข้อบกพร่องหรือที่เรียกว่าบั๊กของโค้ดที่สร้างขึ้นมาทั้งหมดได้ ถือว่ายังเป็นจุดที่ต้องมีการพัฒนาต่อไป
จากการศึกษาของ Microsoft Research, Microsoft’s R&D division เผยว่าโมเดล AI ต่าง ๆ อย่าง Claude 3.7 Sonnet ของ Anthropic และ o3-mini ของ OpenAI ไม่สามารถแก้ไขปัญหาต่าง ๆ มากมายตามเกณฑ์มาตรฐานการพัฒนาซอฟต์แวร์ที่เรียกว่า SWE-bench Lite ผลลัพธ์ที่ได้เป็นที่ชัดเจนว่า AI ยังเก่งไม่เท่ากับผู้เชี่ยวชาญในสาขาต่าง ๆ เช่น การเขียนโค้ด เป็นต้น
นักวิจัยได้ทดสอบโมเดลที่ไม่เหมือนกันทั้งหมด 9 โมเดลสำหรับการทดสอบ single prompt-based agent ที่สามารถเข้าถึงเครื่องมือดีบั๊กซึ่งรวมถึงโปรแกรมดีบัก Python โดย AI เหล่านี้ได้รับหน้าที่ให้กีบั๊กซอฟต์แวร์กว่า 300 รายการจาก SWE-bench Lite ซึ่งผลการทดสอบพบว่าโมเดล AI ใหม่ ๆ ยังไม่สามารถทำภารกิจแก้บั๊กสำเร็จได้เกินครึ่ง โดย Claude 3.7 Sonnet มีอัตราความสำเร็จเฉลี่ยสูงสุด 48.4% รองลงมาคือ o1 ของ OpenAI ที่ 30.2% และ o3-mini ที่ 22.1%
ประเด็นที่น่าสนใจคงไม่พ้นคำถามว่า ทำไมการแก้บั๊กของ AI ดันได้ผลต่ำกว่ามาตรฐาน? โมเดลบางโมเดลประสบปัญหาในการใช้เครื่องมือแก้ไขบั๊กรวมถึงความสามารถในการทำความเข้าใจว่าเครื่องมือต่าง ๆ สำหรับการดีบั๊กด้วย
ผลของ Microsoft ไม่ได้เป็นเรื่องน่าตกใจเท่าไหร่นัก จากการศึกษาหลายครั้งพบว่า AI ที่สร้างโค้ดมักจะมีช่องโหว่ด้านความปลอดภัยและข้อผิดพลาด เนื่องจากจุดอ่อนด้านต่าง ๆ เช่น ความสามารถในการทำความเข้าใจตรรกะของการเขียนโปรแกรม อย่าง Devin ซึ่งเป็นเครื่องมือเขียนโค้ดด้วย AI สามารถทำการทดสอบการเขียนโปรแกรมได้เพียง 3 ครั้งจากทั้งหมด 20 ครั้งเท่านั้น
ที่มา TechCrunch