
Sakana สตาร์ตอัป AI จากประเทศญี่ปุ่น ได้เปิดตัวระบบใหม่ที่มีชื่อว่า Fugu ที่มีความโดดเด่นที่ไม่ได้รันแค่โมเดลเพียงโมเดลเดียว แต่สามารถประสานการทำงานของโมเดล AI หลายตัวผ่าน API เดียวกัน เพื่อแก้ไขปัญหาและจัดการงานที่ซับซ้อนได้
ทางบริษัทได้ตั้งชื่อระบบนี้ว่า Fugu Ultra ซึ่ง AI ตัวท็อป มีประสิทธิภาพเทียบเท่ากับโมเดล Fable 5 และ Mythos Preview ของ Anthropic ในการทดสอบ Benchmarks ที่สำคัญด้านวิศวกรรม วิทยาศาสตร์ และการใช้เหตุผล แถมยังทำคะแนนแซงหน้า Fable 5 ได้ในบางงานรูปแบบด้วย
Sakana ระบุว่า Fugu ไม่ได้ใช้เวิร์กโฟลว์หรือการแบ่งบทบาทที่มนุษย์ออกแบบไว้ตายตัว แต่ระบบสามารถเรียนรู้ที่จะประกอบและประสานงานเอเจนต์ต่างๆ จากในระบบได้อย่างชาญฉลาดและมีประสิทธิภาพ โดยมีจุดเด่น 3 อย่างหลัก ๆ ได้แก่
จากการทดสอบพบว่า Fugu ทำการทดสอบได้ดีกว่า Claude Fable 5 ของ Anthropic ในการทดสอบ LiveCodeBench แบบทดสอบโอเพนซอร์สสำหรับวัดประสิทธิภาพการเขียนโค้ดและการแก้ปัญหาซอฟต์แวร์ที่มีการอัปเดตอย่างสม่ำเสมอ โดย Fugu Ultra ทำคะแนนได้ 93.2, Fugu รุ่นปกติ 92.9 ในขณะที่ Fable 5 ทำได้ 89.8
นอกจากนี้ Fugu ยังสามารถเอาชนะโมเดล Claude Mythos Preview ในแบบทดสอบ GPQA-D (Diamond) ซึ่งเป็นข้อสอบปรนัยระดับบัณฑิตศึกษาจำนวน 198 ข้อในสาขาชีววิทยา ฟิสิกส์ และเคมี โดย Fugu Ultra และ Fugu ทำคะแนนเท่ากันที่ 95.5 ขณะที่ Mythos Preview ทำได้ 94.6

Fable 5 และ Mythos 5 ถือเป็นโมเดลที่ฉลาดที่สุดของ Anthropic อย่างไรก็ตาม โมเดลดังกล่าวถูกรัฐบาลสหรัฐฯ สั่งระงับหลังจากเปิดตัวได้เพียง 3 วัน เนื่องจากรัฐบาลสหรัฐฯ ห้ามชาวต่างชาติเข้าถึงทั้งหมด โดยให้เหตุผลด้านความมั่นคงของชาติ
Anthropic เผยว่า Mythos สามารถค้นพบช่องโหว่ในทุกระบบปฏิบัติการหลักและเว็บเบราว์เซอร์ที่นำมาทดสอบ ซึ่งบางช่องโหว่ซ่อนตัวอยู่โดยไม่มีใครตรวจพบมานานหลายสิบปี ทำให้บริษัทต้องออกโปรแกรมควบคุมที่ชื่อว่า Project Glasswing โดยอนุญาตให้เฉพาะองค์กรที่ผ่านการตรวจสอบราว 50 แห่ง (เช่น Google, Apple, Amazon, Microsoft และ CrowdStrike) นำไปใช้สำหรับงานป้องกันความปลอดภัยทางไซเบอร์เท่านั้น จึงทำให้เกิดประเด็นว่า โมเดลที่ฉลาดเกินไปอาจมีผู้ไม่หวังดีนำไปใช้ในทางที่ผิดได้
นอกจากจะเหนือกว่า Claude ในบางการทดสอบแล้ว Sakana AI ยังรายงานว่า Fugu สามารถทำผลงานเหนือกว่าโมเดลสาธารณะระดับแนวหน้าบางรุ่น เช่น Google Gemini 3.1 Pro, OpenAI GPT-5.5 และ Anthropic Claude Opus 4.8 ในงานเฉพาะทางหลายประเภท ตัวอย่างงานที่บริษัทนำมาทดสอบ ได้แก่ การทำวิจัยแบบอัตโนมัติ, การออกแบบเชิงกล, การวิเคราะห์ลายมือภาษาญี่ปุ่น, การเล่นหมากรุก, การแก้รูบิก เป็นต้น
การเปิดตัว Fugu แสดงให้เห็นว่าการแข่งขันในอุตสาหกรรม AI อาจไม่จำกัดอยู่เพียงการสร้างโมเดลที่มีขนาดใหญ่ขึ้น ใช้ข้อมูลมากขึ้น หรือใช้พลังประมวลผลสูงขึ้นเท่านั้น แต่อีกแบบหนึ่งคือการสร้างระบบที่สามารถเลือกและควบคุมโมเดลหลายตัว โดยนำจุดแข็งของแต่ละโมเดลมาใช้ให้เหมาะกับงาน และลดผลกระทบจากจุดอ่อนของโมเดลใดโมเดลหนึ่ง ทำให้เกิดการทำงานที่ดีที่สุดออกมา
ที่มา Sakana.ai





