มีรายงานว่า Apple, NVIDIA และ Anthropic ใช้คำบรรยายจาก YouTube โดยไม่ได้รับอนุญาตเพื่อฝึกโมเดล AI ชุดข้อมูลนี้ประกอบด้วยคำบรรยายวิดีโอ YouTube จากผู้สร้างรายใหญ่ที่สุดของแพลตฟอร์ม
YouTube ถือเป็นคลังวิดีโอที่ใหญ่ที่สุดในโลก เรียกว่าเป็นแหล่งรวมข้อมูลอันล้ำค่าไม่เพียงแค่คำบรรยายเท่านั้น แต่ยังรวมถึงเสียง วิดีโอ และรูปภาพด้วย ทำให้เป็นชุดข้อมูลที่น่าสนใจสำหรับการฝึกโมเดล AI
ทาง Proof News รายงานว่า มีบริษัทเทคโนโลยีรายใหญ่บางแห่งฝึกฝนโมเดล AI ของตัวเอง โดยใช้ชุดข้อมูลที่ประกอบด้วยคำบรรยายวิดีโอ YouTube มากกว่า 173,000 รายการโดยไม่ได้รับอนุญาต ชุดข้อมูลดังกล่าวสร้างขึ้นโดยบริษัทไม่แสวงหากำไรที่ชื่อว่า EleutherAI ประกอบด้วย คำบรรยายวิดีโอ YouTube จากช่องต่างๆ มากกว่า 48,000 ช่อง และถูกนำไปใช้โดย Apple, NVIDIA และ Anthropic รวมถึงบริษัทอื่นๆ
ผลจากการสืบสวนครั้งนี้เผยให้เห็นว่า เทคโนโลยี AI ส่วนใหญ่สร้างขึ้นด้วยข้อมูลที่ถูกดูดมาจากผู้สร้างคอนเทนท์โดยไม่ได้รับความยินยอมหรือค่าตอบแทน
ชุดข้อมูลนี้ไม่ได้ใช้วิดีโอหรือรูปภาพจาก YouTube ใช้เพียงแค่คำบรรยายวิดีโอจากครีเอเตอร์รายใหญ่ที่สุดของแพลตฟอร์ม เช่น Marques Brownlee และ MrBeast รวมไปถึงสื่อรายใหญ่อย่าง The New York Times, BBC และ ABC News
ทาง Marques Brownlee โพสต์บน X ว่า “Apple ดึงข้อมูลสำหรับฝึกสอน AI มาจากบริษัทหลายแห่ง หนึ่งในนั้นได้รวบรวมข้อมูล/บทบรรยายจำนวนมากจากวิดีโอ YouTube รวมถึงวิดีโอของผมด้วย สิ่งนี้จะเป็นปัญหาต่อเนื่องไปอีกยาวนาน”
ก่อนหน้านี้ทาง Neal Mohan ซีอีโอของ YouTube เคยกล่าวไว้ว่า บริษัทต่างๆ ที่ใช้ข้อมูลของ YouTube เพื่อฝึกโมเดล AI ละเมิดข้อกำหนดและเงื่อนไขของแพลตฟอร์มและบริการซึ่งมีผลบังคับใช้อยู่
จนถึงขณะนี้ บริษัท AI ยังไม่ได้เปิดเผยข้อมูลที่ใช้ในการฝึกโมเดลของตนอย่างโปร่งใส เมื่อต้นเดือนนี้ ศิลปินและช่างภาพได้วิพากษ์วิจารณ์ Apple ที่ไม่เปิดเผยแหล่งที่มาของข้อมูลการฝึกสำหรับ Apple Intelligence ที่จะนำมาใช้กับอุปกรณ์ Apple หลายล้านเครื่องในปีนี้
หากคุณต้องการดูว่าคำบรรยายจากวิดีโอ YouTube ของคุณหรือจากช่องโปรดของคุณเป็นส่วนหนึ่งของชุดข้อมูลหรือไม่ ให้ไปที่เครื่องมือค้นหาของ Proof News