Google DeepMind ได้เปิดตัวเครื่องมือ AI ที่เป็นนวัตกรรมสำหรับการสร้างเพลงประกอบวิดีโอ เครื่องมือขั้นสูงนี้มีทั้งข้อความแจ้งและเนื้อหาของวิดีโอเพื่อสร้างเพลงประกอบที่น่าดึงดูดและปรับแต่งมาโดยเฉพาะ และยังมีข้อความแจ้งเสริมที่ผู้ใช้สามารถระบุเพื่ออธิบายองค์ประกอบเสียงที่ต้องการได้
ด้วยการรวมองค์ประกอบทั้งสองนี้เข้าด้วยกัน ผู้ใช้สามารถสร้างฉากที่มี "โน้ตละคร เสียงเอฟเฟกต์สมจริง หรือบทสนทนาที่เข้ากับตัวละครและโทนของวิดีโอ"
ตัวอย่างเพลงประกอบที่สร้างขึ้นโดยใช้เครื่องมือ AI
เพื่อแสดงให้เห็นถึงความสามารถของเครื่องมือ AI ของ DeepMind มีการจัดแสดงตัวอย่างหลายรายการบนเว็บไซต์ของบริษัท
ในกรณีหนึ่ง วิดีโอที่มีรถยนต์กำลังขับผ่านเมืองไซเบอร์พังค์ถูกจับคู่กับข้อความแจ้งที่มีวลีเช่น "รถลื่นไถล" "เครื่องยนต์เร่งเครื่อง" และ "ดนตรีอิเล็กทรอนิกส์ที่ไพเราะ" เสียงที่สร้างขึ้นประสานกับการเคลื่อนไหวของรถอย่างสมบูรณ์แบบ ทำให้เกิดประสบการณ์ที่น่าตื่นเต้น
ในอีกตัวอย่างหนึ่ง ข้อความแจ้งที่มีคำว่า "แมงกะพรุนเต้นเป็นจังหวะใต้น้ำ" "ชีวิตใต้ทะเล" และ "มหาสมุทร" ทำให้เกิดภาพเสียงใต้น้ำที่ดื่มด่ำ
คุณสมบัติอื่น ๆ ของเครื่องมือสร้างเพลงประกอบนี้
เครื่องมือนี้สามารถสร้างเพลงประกอบสำหรับวิดีโอได้ไม่จำกัดจำนวนโดยอัตโนมัติ ความอเนกประสงค์นี้ทำให้โดดเด่นจากเครื่องมือ AI อื่นๆ ในตลาด
ตัวเลือกเสียงที่หลากหลายนี้ทำให้ผู้ใช้สามารถสำรวจความเป็นไปได้มากมายสำหรับวิดีโอของตน ขจัดความจำเป็นในการซิงโครไนซ์เสียงอย่างพิถีพิถัน ทำให้ผู้ใช้มีโอกาสสร้างสรรค์ที่ไม่มีที่สิ้นสุด
DeepMind อ้างว่าเครื่องมือ AI ได้รับการฝึกฝนเกี่ยวกับวิดีโอ เสียง และคำอธิบายประกอบด้วย “คำอธิบายโดยละเอียดของเสียงและการถอดเสียงบทสนทนาพูด” การฝึกอบรมที่ครอบคลุมนี้ช่วยให้เครื่องสร้างวิดีโอเป็นเสียงสามารถเชื่อมโยงเสียงกับสถานการณ์ภาพได้อย่างสมบูรณ์แบบ
DeepMind รับทราบถึงความท้าทายในการประสานการเคลื่อนไหวของริมฝีปากกับบทสนทนาในการสร้างวิดีโอเป็นเสียง บริษัทกำลังทำงานอย่างแข็งขันเพื่อปรับปรุงแง่มุมของเครื่องมือนี้ โดยมีเป้าหมายเพื่อให้เกิดการประสานกันอย่างราบรื่นระหว่างองค์ประกอบภาพและการได้ยิน
คุณภาพของวิดีโออินพุตอาจส่งผลกระทบอย่างมากต่อเอาต์พุตเสียง ภาพที่มีรอยหยาบหรือบิดเบี้ยวตามข้อมูลของ DeepMind อาจส่งผลให้คุณภาพเสียงลดลงอย่างมาก ผู้ใช้ได้รับการสนับสนุนให้จัดทำวิดีโอคุณภาพสูงเพื่อให้แน่ใจว่ามีการซิงโครไนซ์เสียงและความถูกต้องเหมาะสมที่สุด
เปรียบเทียบกับเครื่องมือ AI อื่นๆ ในอุตสาหกรรม
เครื่องมือ AI ซาวด์แทร็กวิดีโอของ DeepMind มีความโดดเด่นจากเครื่องมืออื่นๆ ในอุตสาหกรรม เช่น โปรแกรมสร้างเอฟเฟกต์เสียงของ ElevenLabs
แม้ว่า ElevenLabs จะใช้ข้อความแจ้งเพียงอย่างเดียว แต่เครื่องมือของ DeepMind จะรวมพิกเซลวิดีโอและข้อความแจ้งเข้าด้วยกัน ทำให้ผู้ใช้ได้รับประสบการณ์เสียงที่ครอบคลุมและดื่มด่ำยิ่งขึ้น
เครื่องมือ AI ของ DeepMind มีศักยภาพในการปรับปรุงความร่วมมือกับเครื่องมือวิดีโอที่สร้างโดย AI อื่นๆ เช่น Veo และ Sora แพลตฟอร์มเหล่านี้สามารถใช้เครื่องมือของ DeepMind เพื่อฝังเสียงที่ซิงโครไนซ์เข้ากับความสามารถในการสร้างวิดีโอ ซึ่งมอบประสบการณ์มัลติมีเดียที่เหนียวแน่นและดื่มด่ำยิ่งขึ้น
Google DeepMind มีลายน้ำ SynthID ในเอาต์พุตเสียงที่ AI สร้างขึ้นเพื่อความโปร่งใสและการจดจำ ลายน้ำนี้ทำหน้าที่เป็นธงซึ่งระบุว่าเสียงถูกสร้างขึ้นโดยใช้เทคโนโลยี AI