تقدم Google DeepMind أداة الذكاء الاصطناعي المبتكرة لإنشاء مقاطع صوتية للفيديو

قدمت Google DeepMind أداة مبتكرة للذكاء الاصطناعي لإنشاء مقاطع صوتية للفيديو. تتضمن هذه الأداة المتقدمة كلاً من المطالبات النصية ومحتويات الفيديو نفسه لإنشاء مقاطع صوتية جذابة ومصممة خصيصًا، وهناك أيضًا مطالبة نصية اختيارية يمكن للمستخدمين تقديمها لوصف العناصر الصوتية المطلوبة.

ومن خلال الجمع بين هذين العنصرين، يمكن للمستخدمين الآن إنتاج مشاهد ذات "موسيقى درامية أو مؤثرات صوتية واقعية أو حوار يتطابق مع شخصيات ونبرة الفيديو".

أمثلة على المقاطع الصوتية التي تم إنشاؤها باستخدام أداة الذكاء الاصطناعي

لتوضيح قدرات أداة الذكاء الاصطناعي الخاصة بـ DeepMind، تم عرض العديد من الأمثلة على موقع الشركة الإلكتروني.

في إحدى الحالات، تم إقران مقطع فيديو يظهر سيارة تسير عبر مدينة سايبربانك بمطالبة نصية تتضمن عبارات مثل "انزلاق السيارات" و"اختناق محرك السيارة" و"الموسيقى الإلكترونية الملائكية". ويتزامن الصوت الناتج بشكل مثالي مع حركات السيارة، مما يخلق تجربة مبهجة.

في مثال آخر، أنتجت عبارة تتضمن مصطلحات مثل "قنديل البحر ينبض تحت الماء" و"الحياة البحرية" و"المحيط" مشهدًا صوتيًا غامرًا تحت الماء.

ميزات أخرى لأداة إنشاء الموسيقى التصويرية هذه

يمكن للأداة إنشاء عدد غير محدود من المقاطع الصوتية لمقاطع الفيديو بشكل مستقل. هذا التنوع يجعله متميزًا عن أدوات الذكاء الاصطناعي الأخرى في السوق.

يتيح هذا التنوع في خيارات الصوت للمستخدمين استكشاف مجموعة واسعة من الإمكانيات لمقاطع الفيديو الخاصة بهم. فهو يلغي الحاجة إلى مزامنة صوتية دقيقة، مما يوفر للمستخدمين فرصًا إبداعية لا نهاية لها.

تدعي شركة DeepMind أن أداة الذكاء الاصطناعي الخاصة بها مدربة على الفيديو والصوت والتعليقات التوضيحية مع "أوصاف تفصيلية للصوت ونصوص الحوار المنطوق". يمكّن هذا التدريب الشامل مولد الفيديو إلى الصوت من ربط الصوت بالسيناريوهات المرئية بشكل مثالي.

تعترف DeepMind بالتحدي المتمثل في مزامنة حركات الشفاه مع الحوار في توليد الفيديو إلى الصوت. وتعمل الشركة بنشاط على تعزيز هذا الجانب من الأداة، بهدف تحقيق التزامن السلس بين العناصر المرئية والسمعية.

يمكن أن تؤثر جودة إدخال الفيديو بشكل كبير على إخراج الصوت. قد تؤدي اللقطات المحببة أو المشوهة، وفقًا لـ DeepMind، إلى انخفاض كبير في جودة الصوت. يتم تشجيع المستخدمين على تقديم مقاطع فيديو عالية الجودة لضمان التزامن الصوتي الأمثل والدقة.

المقارنة مع أدوات الذكاء الاصطناعي الأخرى في الصناعة

تميز أداة AI للموسيقى التصويرية للفيديو الخاصة بـ DeepMind نفسها عن غيرها في الصناعة، مثل مولد المؤثرات الصوتية الخاص بـ ElevenLabs.

في حين أن ElevenLabs تعتمد حصريًا على المطالبات النصية، فإن أداة DeepMind تجمع بين وحدات بكسل الفيديو والمطالبات النصية، مما يوفر للمستخدمين تجربة صوتية أكثر شمولاً وغامرة.

تتمتع أداة الذكاء الاصطناعي الخاصة بـ DeepMind بالقدرة على تعزيز التعاون مع أدوات الفيديو الأخرى التي يتم إنشاؤها بواسطة الذكاء الاصطناعي مثل Veo وSora. يمكن لهذه المنصات الاستفادة من أداة DeepMind لتضمين الصوت المتزامن في إمكانات إنشاء الفيديو الخاصة بها، مما يوفر تجربة وسائط متعددة أكثر تماسكًا وغامرة.

يتضمن Google DeepMind علامة مائية SynthID في الإخراج الصوتي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لأغراض الشفافية والتعرف. تعمل هذه العلامة المائية كعلامة تشير إلى أنه تم إنشاء الصوت باستخدام تقنية الذكاء الاصطناعي.