Sakura สตาร์ตอัป AI จากญี่ปุ่น เปิดตัวโมเดล Fugu ที่ทำผลทดสอบบางอย่างได้ดีกว่า Claude

THE SUMMARY:

Sakana สตาร์ตอัป AI จากประเทศญี่ปุ่น ได้เปิดตัวระบบใหม่ที่มีชื่อว่า Fugu ที่มีความโดดเด่นที่ไม่ได้รันแค่โมเดลเพียงโมเดลเดียว แต่สามารถประสานการทำงานของโมเดล AI หลายตัวผ่าน API เดียวกัน เพื่อแก้ไขปัญหาและจัดการงานที่ซับซ้อนได้

ทางบริษัทได้ตั้งชื่อระบบนี้ว่า Fugu Ultra ซึ่ง AI ตัวท็อป มีประสิทธิภาพเทียบเท่ากับโมเดล Fable 5 และ Mythos Preview ของ Anthropic ในการทดสอบ Benchmarks ที่สำคัญด้านวิศวกรรม วิทยาศาสตร์ และการใช้เหตุผล แถมยังทำคะแนนแซงหน้า Fable 5 ได้ในบางงานรูปแบบด้วย

สถาปัตยกรรมและเทคโนโลยีเบื้องหลัง Fugu

Sakana ระบุว่า Fugu ไม่ได้ใช้เวิร์กโฟลว์หรือการแบ่งบทบาทที่มนุษย์ออกแบบไว้ตายตัว แต่ระบบสามารถเรียนรู้ที่จะประกอบและประสานงานเอเจนต์ต่างๆ จากในระบบได้อย่างชาญฉลาดและมีประสิทธิภาพ โดยมีจุดเด่น 3 อย่างหลัก ๆ ได้แก่

  • ใช้งานง่ายผ่าน API เดียว: Fugu จัดการเลือกและสลับโมเดลที่เหมาะสมที่สุดสำหรับแต่ละงานให้โดยอัตโนมัติ ช่วยลดความซับซ้อนในการจัดการ API และเพิ่มความคุ้มค่าด้านต้นทุน
  • ประสิทธิภาพสูงในงานซับซ้อน: ออกแบบมาเพื่อการเขียนโค้ดและการใช้เหตุผลเชิงลึก
  • ความยืดหยุ่นในการเลือกเอเจนต์: ผู้ใช้งานสามารถเลือกไม่ใช้โมเดลบางตัวออกจากระบบได้ เพื่อให้สอดคล้องกับนโยบายด้านความเป็นส่วนตัว ข้อมูลองค์กร หรือข้อกำหนดทางกฎหมาย

จากการทดสอบพบว่า Fugu ทำการทดสอบได้ดีกว่า Claude Fable 5 ของ Anthropic ในการทดสอบ LiveCodeBench แบบทดสอบโอเพนซอร์สสำหรับวัดประสิทธิภาพการเขียนโค้ดและการแก้ปัญหาซอฟต์แวร์ที่มีการอัปเดตอย่างสม่ำเสมอ โดย Fugu Ultra ทำคะแนนได้ 93.2, Fugu รุ่นปกติ 92.9 ในขณะที่ Fable 5 ทำได้ 89.8

นอกจากนี้ Fugu ยังสามารถเอาชนะโมเดล Claude Mythos Preview ในแบบทดสอบ GPQA-D (Diamond) ซึ่งเป็นข้อสอบปรนัยระดับบัณฑิตศึกษาจำนวน 198 ข้อในสาขาชีววิทยา ฟิสิกส์ และเคมี โดย Fugu Ultra และ Fugu ทำคะแนนเท่ากันที่ 95.5 ขณะที่ Mythos Preview ทำได้ 94.6

Fable 5 และ Mythos 5 ถือเป็นโมเดลที่ฉลาดที่สุดของ Anthropic อย่างไรก็ตาม โมเดลดังกล่าวถูกรัฐบาลสหรัฐฯ สั่งระงับหลังจากเปิดตัวได้เพียง 3 วัน เนื่องจากรัฐบาลสหรัฐฯ ห้ามชาวต่างชาติเข้าถึงทั้งหมด โดยให้เหตุผลด้านความมั่นคงของชาติ

Anthropic เผยว่า Mythos สามารถค้นพบช่องโหว่ในทุกระบบปฏิบัติการหลักและเว็บเบราว์เซอร์ที่นำมาทดสอบ ซึ่งบางช่องโหว่ซ่อนตัวอยู่โดยไม่มีใครตรวจพบมานานหลายสิบปี ทำให้บริษัทต้องออกโปรแกรมควบคุมที่ชื่อว่า Project Glasswing โดยอนุญาตให้เฉพาะองค์กรที่ผ่านการตรวจสอบราว 50 แห่ง (เช่น Google, Apple, Amazon, Microsoft และ CrowdStrike) นำไปใช้สำหรับงานป้องกันความปลอดภัยทางไซเบอร์เท่านั้น จึงทำให้เกิดประเด็นว่า โมเดลที่ฉลาดเกินไปอาจมีผู้ไม่หวังดีนำไปใช้ในทางที่ผิดได้

นอกจากจะเหนือกว่า Claude ในบางการทดสอบแล้ว Sakana AI ยังรายงานว่า Fugu สามารถทำผลงานเหนือกว่าโมเดลสาธารณะระดับแนวหน้าบางรุ่น เช่น Google Gemini 3.1 Pro, OpenAI GPT-5.5 และ Anthropic Claude Opus 4.8 ในงานเฉพาะทางหลายประเภท ตัวอย่างงานที่บริษัทนำมาทดสอบ ได้แก่ การทำวิจัยแบบอัตโนมัติ, การออกแบบเชิงกล, การวิเคราะห์ลายมือภาษาญี่ปุ่น, การเล่นหมากรุก, การแก้รูบิก เป็นต้น

การเปิดตัว Fugu แสดงให้เห็นว่าการแข่งขันในอุตสาหกรรม AI อาจไม่จำกัดอยู่เพียงการสร้างโมเดลที่มีขนาดใหญ่ขึ้น ใช้ข้อมูลมากขึ้น หรือใช้พลังประมวลผลสูงขึ้นเท่านั้น แต่อีกแบบหนึ่งคือการสร้างระบบที่สามารถเลือกและควบคุมโมเดลหลายตัว โดยนำจุดแข็งของแต่ละโมเดลมาใช้ให้เหมาะกับงาน และลดผลกระทบจากจุดอ่อนของโมเดลใดโมเดลหนึ่ง ทำให้เกิดการทำงานที่ดีที่สุดออกมา

ที่มา Sakana.ai

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...