เทคโนโลยีการบีบอัดไฟล์เสียงแบบ Lossless ในปัจจุบัน ส่วนใหญ่สามารถลดขนาดไฟล์จากต้นฉบับลงได้เพียงครึ่งเดียวเท่านั้น แต่ล่าสุดมีทีมนักวิจัยจากมหาวิทยาลัยแบกแดด ประเทศอิรัก สามารถบีบอัดไฟล์เสียงได้ถึง 8:1 หรือ 8 เท่า โดยไม่สูญเสียรายละเอียดสำคัญที่หูมนุษย์สามารถแยกแยะได้
ทีมนักวิจัยได้นำเทคนิค ‘Variational Autoencoders’ (VAEs) ซึ่งเป็นโมเดล AI ประเภท Neural Network ที่ถูกออกแบบมาเพื่อการบีบอัดข้อมูลโดยเฉพาะ มาทดลองกับไฟล์เสียงจากคลังของ BBC ไม่ว่าจะเป็นเพลง, เสียงพูด, เสียงสภาพแวดล้อม, เสียงเครื่องจักร ไปจนถึงเสียงสัตว์
โดยไฟล์ทั้งหมดมีคุณภาพมาตรฐาน 44.1 kHz/16-bit และมีความยาวตั้งแต่เสี้ยววินาที ไปจนถึงเกือบ 5 นาที ก่อนจะแปลงเป็นเสียง Mono รวมแล้วความยาวประมาณ 17 นาที ด้วยกัน
ทีมวิจัยได้ทดสอบการบีบอัด 4 ระดับ ได้แก่ 1:1 (ไม่บีบอัด), 2:1, 4:1 และ 8:1 โดยพบว่าการตั้งค่า 8:1 ให้ผลลัพธ์ที่ดีที่สุด ไฟล์มีขนาดเล็กลงอย่างมาก ความผิดพลาด (error) อยู่ในระดับต่ำ และใช้เวลาประมวลผลอยู่ในระดับที่เหมาะสมสำหรับการทำวิจัย โดยเรียกไฟล์เสียงการกระบวนการนี้ว่า ‘Reconstructed Audio’ หรือถูกสร้างขึ้นใหม่
ตัวเลขเหล่านี้ชี้ให้เห็นว่าไฟล์เสียงแบบ reconstructed ยังมีคุณภาพใกล้เคียงกับไฟล์ต้นฉบับ แม้ว่าประสิทธิภาพจะแตกต่างกันไปตามแต่ละตัวอย่างเสียงที่ทดลองก็ตาม
ความพิเศษของเทคนิก VAEs คือ encoder ไม่ได้สร้างรหัสตายตัว แต่จะคำนวณค่าเฉลี่ย (mean) และความแปรปรวน (variance) เพื่อสร้าง ‘พื้นที่ความน่าจะเป็น’ (probability distribution) จากนั้นจึงสุ่มค่ารหัสแฝง (latent code) ขึ้นมา วิธีนี้ช่วยให้ระบบมีความยืดหยุ่น และเก็บรายละเอียดได้ดีกว่านั่นเอง
ตัวโมเดลจะต้องถูกฝึกอย่างปราณีตที่สุดเพื่อให้สามารถทำงานได้ดังเป้าที่ตั้งไว้ ด้วยอัลกอริทึม Adam optimizer ทั้งหมด 30 รอบ ด้วยกัน โดยมีวัตถุประสงค์ 2 ส่วน คือ
แม้ผลลัพธ์จะทำได้ในระดับที่น่าสนใจ แต่ก็ยังมีข้อจำกัดต่าง ๆ มากมาย ไม่ว่าจะเป็น
ถ้าหากสามารถขงัดข้อกำจัดต่าง ๆ ในปัจจุบันไปได้ กระบวนการนี้จะช่วยให้สามารถบีบอัดไฟล์ที่มีขนาด 50MB ให้เหลือเพียง 6MB เท่านั้น ซึ่งจะช่วยให้การเก็บไฟล์เพลงสามารถทำได้ง่ายมากขึ้น ลดภาระทั้งที่จัดเก็บ รวมไปถึงแพลตฟอร์มสตรีมมิงออนไลน์ และกินแบนด์วิดท์น้อยลง เหมาะสำหรับอุปกรณ์พกพาขึ้นอีกหลายเท่า
ที่มา: Headphonesty