
อาลีบาบาเปิดตัว “Wan2.6 Series” วิวัฒนาการล่าสุดของโมเดลสร้างสรรค์ภาพและวิดีโอ (Visual Generation Models) พร้อมจุดเด่นที่ให้ผู้ใช้งานสามารถนำรูปลักษณ์และเสียงของตนเองเข้าไปเป็นตัวละครเอกในวิดีโอได้อย่างแนบเนียน
ไฮไลต์สำคัญของการเปิดตัวครั้งนี้คือโมเดล Wan2.6-R2V (Reference-to-Video) ซึ่งถือเป็นโมเดลแรกของจีนที่มีความสามารถด้าน Multimodal Reference Generation โดยผู้ใช้สามารถอัปโหลดวิดีโอต้นฉบับที่มีทั้งภาพและเสียง จากนั้นใช้คำสั่งข้อความ (Text Prompts) เพื่อสร้างฉากหรือเนื้อเรื่องใหม่ โดยที่ตัวละครในวิดีโอยังคงรูปลักษณ์และน้ำเสียงเดิมไว้อย่างครบถ้วน ไม่ว่าจะเป็นมนุษย์ สัตว์ หรือวัตถุ ฟีเจอร์นี้จะเข้ามาพลิกโฉมการผลิตละครสั้นและคอนเทนต์วิดีโอ ให้ครีเอเตอร์สามารถแทรกตัวเองหรือตัวละครที่ต้องการลงไปในฉากที่สร้างโดย AI ได้อย่างกลมกลืน
Wan2.6 Series ได้รับการออกแบบมาเพื่อปลดล็อกขีดจำกัดการเล่าเรื่อง ด้วยฟีเจอร์ Flexible Multi-shot และ Intelligent Multi-shot ที่รองรับการตัดสลับมุมกล้องและการสนทนาที่มีตัวละครหลายตัว (Multi-person dialogue) ได้สมจริงยิ่งขึ้น นอกจากนี้ยังขยายความยาวของวิดีโอได้สูงสุดถึง 15 วินาที พร้อมระบบซิงค์ภาพและเสียง (Audio-visual synchronization) ที่แม่นยำ ทำให้ได้ผลงานที่ต่อเนื่อง สื่ออารมณ์ได้ลึกซึ้ง และมีคุณภาพทัดเทียมระดับมืออาชีพ
นอกเหนือจากงานวิดีโอ อาลีบาบายังได้อัปเกรดโมเดลอื่นๆ ในซีรีส์ ได้แก่ Wan2.6-T2V (ข้อความเป็นวิดีโอ), Wan2.6-I2V (ภาพเป็นวิดีโอ) และโมเดลสร้างภาพนิ่ง (Wan2.6-image/T2I) โดยเพิ่มความสามารถในการใช้เหตุผลเชิงตรรกะขั้นสูง เข้าใจคำสั่งยาวๆ ทั้งภาษาจีนและอังกฤษได้ดีเยี่ยม สามารถสร้างภาพบุคคลที่มีความเที่ยงตรงสูง และควบคุมสไตล์ศิลปะได้อย่างแม่นยำ
สำหรับผู้ที่สนใจใช้งาน สามารถเข้าถึง Wan2.6 Series ได้แล้วผ่าน Model Studio แพลตฟอร์มพัฒนา AI ของอาลีบาบา คลาวด์, เว็บไซต์อย่างเป็นทางการของ Wan และแอปพลิเคชัน Qwen App





