Home
Tech & Innovation
AI
Fugatto โมเดล AI ใหม่จาก NVIDIA สร้างเสียงจากข้อความ

Fugatto โมเดล AI ใหม่จาก NVIDIA สร้างเสียงจากข้อความ

NVIDIA ได้เปิดตัวโมเดล Generative AI เชิงทดลองตัวใหม่ ซึ่งเคลมว่าว่าเป็น “มีดพกสวิสสำหรับเสียง” สามารถสร้างเสียงได้ทุกรูปแบบจากข้อความ รวมถึงแก้ไขไฟล์เสียงที่มีอยู่แล้วได้ด้วย

โมเดล AI มีชื่อเรียกว่า Foundational Generative Audio Transformer Opus 1 หรือ Fugatto สำหรับรับคำสั่งจากข้อความ (Text Prompt) เพื่อสร้างเสียงขึ้นมาใหม่ รวมถึงแก้ไขไฟล์เพลง เสียงพูด และเสียงอื่นๆ ที่มีอยู่ได้ ซึ่งโมเดลนี้ได้รับการออกแบบโดยทีมนักวิจัย AI จากทั่วโลก ทำให้โมเดลนี้มี ความสามารถในการเข้าใจหลายภาษาและสำเนียงที่ต่างกันทั่วโลก

Rafael Valle หนึ่งในนักวิจัยที่อยู่เบื้องหลังโครงการนี้และผู้จัดการฝ่ายวิจัยเสียงประยุกต์ที่ NVIDIA กล่าวว่า “เราต้องการสร้างโมเดลที่เข้าใจและสร้างเสียงได้เช่นเดียวกับมนุษย์” ส่วนการนำไปใช้งานนั้นก็ค่อนข้างหลากหลาย เช่น

โปรดิวเซอร์สามารถใช้เทคโนโลยีนี้เปลี่ยนไอเดียเป็นเพลงต้นแบบได้อย่างรวดเร็ว ทดลองปรับเปลี่ยนเพลงด้วยการใช้รูปแบบ เสียง และเครื่องดนตรีต่างๆ
สร้างสื่อการเรียนรู้ด้านภาษาด้วยเสียงที่เลือก
นักพัฒนาเกมวิดีโอสามารถใช้ปรับแต่งไฟล์เสียงที่บันทึกไว้แล้วให้สอดคล้องตามการเลือกและการกระทำของผู้เล่น
โมเดลนี้สามารถรวมคำสั่งที่ได้รับการฝึกแยกกัน เช่น การสร้างคำพูดที่ฟังดูโกรธด้วยสำเนียงเฉพาะ หรือเสียงนกร้องระหว่างพายุฝนฟ้าคะนอง จนไปถึงสร้างเสียงที่เปลี่ยนแปลงไปตามเวลา เช่น เสียงพายุฝนที่กระหน่ำขณะเคลื่อนตัวผ่านพื้นดิน

NVIDIA ยังไม่ประกาศว่า จะเปิดให้คนทั่วไปเข้าถึงการใช้งาน Fugatto หรือไม่ ใครที่อยากลองใช้งานอาจจะต้องรอประกาศอย่างชัดเจนก่อน ซึ่งโมเดลนี้ไม่ใช่เรื่องใหม่ ใครไม่อยากรอก็มีตัวเลือกอย่าง Meta ที่เปิดตัวชุด AI โอเพนซอร์สที่สามารถสร้างเสียงจากคำอธิบายข้อความได้ ฝั่งของ Google มี AI แปลงข้อความเป็นเพลงของตัวเองที่เรียกว่า MusicLM ซึ่สามารถเข้าถึงได้ผ่านเว็บไซต์ AI Test Kitchen