NVIDIA ได้เปิดตัวโมเดล Generative AI เชิงทดลองตัวใหม่ ซึ่งเคลมว่าว่าเป็น “มีดพกสวิสสำหรับเสียง” สามารถสร้างเสียงได้ทุกรูปแบบจากข้อความ รวมถึงแก้ไขไฟล์เสียงที่มีอยู่แล้วได้ด้วย
โมเดล AI มีชื่อเรียกว่า Foundational Generative Audio Transformer Opus 1 หรือ Fugatto สำหรับรับคำสั่งจากข้อความ (Text Prompt) เพื่อสร้างเสียงขึ้นมาใหม่ รวมถึงแก้ไขไฟล์เพลง เสียงพูด และเสียงอื่นๆ ที่มีอยู่ได้ ซึ่งโมเดลนี้ได้รับการออกแบบโดยทีมนักวิจัย AI จากทั่วโลก ทำให้โมเดลนี้มี ความสามารถในการเข้าใจหลายภาษาและสำเนียงที่ต่างกันทั่วโลก
Rafael Valle หนึ่งในนักวิจัยที่อยู่เบื้องหลังโครงการนี้และผู้จัดการฝ่ายวิจัยเสียงประยุกต์ที่ NVIDIA กล่าวว่า “เราต้องการสร้างโมเดลที่เข้าใจและสร้างเสียงได้เช่นเดียวกับมนุษย์” ส่วนการนำไปใช้งานนั้นก็ค่อนข้างหลากหลาย เช่น
NVIDIA ยังไม่ประกาศว่า จะเปิดให้คนทั่วไปเข้าถึงการใช้งาน Fugatto หรือไม่ ใครที่อยากลองใช้งานอาจจะต้องรอประกาศอย่างชัดเจนก่อน ซึ่งโมเดลนี้ไม่ใช่เรื่องใหม่ ใครไม่อยากรอก็มีตัวเลือกอย่าง Meta ที่เปิดตัวชุด AI โอเพนซอร์สที่สามารถสร้างเสียงจากคำอธิบายข้อความได้ ฝั่งของ Google มี AI แปลงข้อความเป็นเพลงของตัวเองที่เรียกว่า MusicLM ซึ่สามารถเข้าถึงได้ผ่านเว็บไซต์ AI Test Kitchen
ที่มา engadget