Google researchers เปิดตัวงานวิจัยโมเดล AI ใหม่ที่สามารถเปลี่ยนภาพนิ่งให้เป็นอวาร์ตาร์ที่เร่าสามารถควบคุมด้วนเสียงได้ VLOGGER เป็นงานวิจัยที่ยังไม่เปิดให้ใช้งานแต่ปล่อยตัวอย่างออกมาให้เห็นถึงไอเดียที่น่าสนใจ ซึ่งเราสามารถสร้างอวาร์ตาร์จากภาพนิ่งให้เคลื่อนไหวได้ นอกจากนั้นเรายังเพิ่มไฟลืเสียง ให้ขยับริมฝีปากพูดตามได้อย่างเป็นธรรมชาติ ซึ่งการขยับศีรษะ การแสดงสีหน้า การจ้องตา กะพริบตา ขยับมือ นั้นเรียกว่าทำได้ค่อนข้างน่าสนใจทีเดียว ตัวโมเดลสามมิตินั้นถูกสร้างขึ้นมาจาก diffusion โมเดลที่ใช้เปลี่ยนข้อความเป็นรูปภาพและวิดีโอแบบเดียวกับ MidJourney หรือ Runway แต่เพิ่มความสามารถให้เราควบคุมการทำงานได้มากขึ้น Vlogger นั้นจะผ่านหลายขั้นตอนในการสร้างโมเดลสามมิติขึ้นมา ขั้นตอนแรกนั้นจะใช้เสียงและภาพเป็นวัตถุดิบเริ่มต้น นำไปผ่านกระบวนการสร้างภาพเคลื่อนไหวสามมิติ โดยโมเดล “temporal diffusion” จะเป็นตัวกำหนดเวลาและการเคลื่อนไหว