بيت > يكتشف > تقدم Google DeepMind أداة الذكاء الاصطناعي المبتكرة لإنشاء مقاطع صوتية للفيديو

تقدم Google DeepMind أداة الذكاء الاصطناعي المبتكرة لإنشاء مقاطع صوتية للفيديو

كتب بواسطة
ArticleGPT

تمت مراجعته والتحقق من صحته بواسطة فريق HIX.AI

4 دقائق قراءةJun 21, 2024
تقدم Google DeepMind أداة الذكاء الاصطناعي المبتكرة لإنشاء مقاطع صوتية للفيديو

شيء صغير

كشف Google DeepMind عن أداة جديدة للذكاء الاصطناعي تعمل على إنشاء مقاطع صوتية للفيديو من خلال النظر في كل من المطالبة النصية ومحتوى الفيديو.

قدمت Google DeepMind أداة مبتكرة للذكاء الاصطناعي لإنشاء مقاطع صوتية للفيديو. تتضمن هذه الأداة المتقدمة كلاً من المطالبات النصية ومحتويات الفيديو نفسه لإنشاء مقاطع صوتية جذابة ومصممة خصيصًا، وهناك أيضًا مطالبة نصية اختيارية يمكن للمستخدمين تقديمها لوصف العناصر الصوتية المطلوبة.

ومن خلال الجمع بين هذين العنصرين، يمكن للمستخدمين الآن إنتاج مشاهد ذات "موسيقى درامية أو مؤثرات صوتية واقعية أو حوار يتطابق مع شخصيات ونبرة الفيديو".

أمثلة على المقاطع الصوتية التي تم إنشاؤها باستخدام أداة الذكاء الاصطناعي

لتوضيح قدرات أداة الذكاء الاصطناعي الخاصة بـ DeepMind، تم عرض العديد من الأمثلة على موقع الشركة الإلكتروني.

في إحدى الحالات، تم إقران مقطع فيديو يظهر سيارة تسير عبر مدينة سايبربانك بمطالبة نصية تتضمن عبارات مثل "انزلاق السيارات" و"اختناق محرك السيارة" و"الموسيقى الإلكترونية الملائكية". ويتزامن الصوت الناتج بشكل مثالي مع حركات السيارة، مما يخلق تجربة مبهجة.

في مثال آخر، أنتجت عبارة تتضمن مصطلحات مثل "قنديل البحر ينبض تحت الماء" و"الحياة البحرية" و"المحيط" مشهدًا صوتيًا غامرًا تحت الماء.

ميزات أخرى لأداة إنشاء الموسيقى التصويرية هذه

يمكن للأداة إنشاء عدد غير محدود من المقاطع الصوتية لمقاطع الفيديو بشكل مستقل. هذا التنوع يجعله متميزًا عن أدوات الذكاء الاصطناعي الأخرى في السوق.

يتيح هذا التنوع في خيارات الصوت للمستخدمين استكشاف مجموعة واسعة من الإمكانيات لمقاطع الفيديو الخاصة بهم. فهو يلغي الحاجة إلى مزامنة صوتية دقيقة، مما يوفر للمستخدمين فرصًا إبداعية لا نهاية لها.

تدعي شركة DeepMind أن أداة الذكاء الاصطناعي الخاصة بها مدربة على الفيديو والصوت والتعليقات التوضيحية مع "أوصاف تفصيلية للصوت ونصوص الحوار المنطوق". يمكّن هذا التدريب الشامل مولد الفيديو إلى الصوت من ربط الصوت بالسيناريوهات المرئية بشكل مثالي.

تعترف DeepMind بالتحدي المتمثل في مزامنة حركات الشفاه مع الحوار في توليد الفيديو إلى الصوت. وتعمل الشركة بنشاط على تعزيز هذا الجانب من الأداة، بهدف تحقيق التزامن السلس بين العناصر المرئية والسمعية.

يمكن أن تؤثر جودة إدخال الفيديو بشكل كبير على إخراج الصوت. قد تؤدي اللقطات المحببة أو المشوهة، وفقًا لـ DeepMind، إلى انخفاض كبير في جودة الصوت. يتم تشجيع المستخدمين على تقديم مقاطع فيديو عالية الجودة لضمان التزامن الصوتي الأمثل والدقة.

المقارنة مع أدوات الذكاء الاصطناعي الأخرى في الصناعة

تميز أداة AI للموسيقى التصويرية للفيديو الخاصة بـ DeepMind نفسها عن غيرها في الصناعة، مثل مولد المؤثرات الصوتية الخاص بـ ElevenLabs.

في حين أن ElevenLabs تعتمد حصريًا على المطالبات النصية، فإن أداة DeepMind تجمع بين وحدات بكسل الفيديو والمطالبات النصية، مما يوفر للمستخدمين تجربة صوتية أكثر شمولاً وغامرة.

تتمتع أداة الذكاء الاصطناعي الخاصة بـ DeepMind بالقدرة على تعزيز التعاون مع أدوات الفيديو الأخرى التي يتم إنشاؤها بواسطة الذكاء الاصطناعي مثل Veo وSora. يمكن لهذه المنصات الاستفادة من أداة DeepMind لتضمين الصوت المتزامن في إمكانات إنشاء الفيديو الخاصة بها، مما يوفر تجربة وسائط متعددة أكثر تماسكًا وغامرة.

يتضمن Google DeepMind علامة مائية SynthID في الإخراج الصوتي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لأغراض الشفافية والتعرف. تعمل هذه العلامة المائية كعلامة تشير إلى أنه تم إنشاء الصوت باستخدام تقنية الذكاء الاصطناعي.

بناءً على 3 مصادر بحث

3 مصادر

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

على هذه الصفحة

  • أمثلة على المقاطع الصوتية التي تم إنشاؤها باستخدام أداة الذكاء الاصطناعي
  • ميزات أخرى لأداة إنشاء الموسيقى التصويرية هذه
  • المقارنة مع أدوات الذكاء الاصطناعي الأخرى في الصناعة