Google DeepMind представляет инновационный инструмент искусственного интеллекта для создания саундтреков к видео

Google DeepMind представила инновационный инструмент искусственного интеллекта для создания саундтреков к видео. Этот расширенный инструмент включает в себя как текстовые подсказки, так и содержимое самого видео для создания захватывающих и адаптированных саундтреков, а также имеется дополнительная текстовая подсказка, которую пользователи могут предоставить для описания желаемых аудиоэлементов.

Объединив эти два элемента, пользователи теперь могут создавать сцены с «драматической партитурой, реалистичными звуковыми эффектами или диалогами, которые соответствуют персонажам и тону видео».

Примеры саундтреков, созданных с помощью AI Tool

Чтобы проиллюстрировать возможности инструмента искусственного интеллекта DeepMind, на веб-сайте компании было продемонстрировано несколько примеров.

В одном случае видео, показывающее машину, проезжающую по киберпанк-городу, сопровождалось текстовой подсказкой, включавшей такие фразы, как «занос машины», «дроссель двигателя автомобиля» и «ангельская электронная музыка». Генерируемый звук идеально синхронизируется с движениями автомобиля, создавая волнующие впечатления.

В другом примере подсказка, включающая такие слова, как «медуза, пульсирующая под водой», «морская жизнь» и «океан», создавала захватывающий подводный звуковой ландшафт.

Другие особенности этого инструмента для создания саундтреков

Инструмент может автономно генерировать неограниченное количество саундтреков к видео. Эта универсальность выделяет его среди других инструментов искусственного интеллекта на рынке.

Такое изменение параметров звука позволяет пользователям исследовать широкий спектр возможностей для своих видео. Это устраняет необходимость в тщательной синхронизации звука, предлагая пользователям безграничные творческие возможности.

DeepMind утверждает, что ее инструмент искусственного интеллекта обучен работе с видео, аудио и аннотациями с «подробными описаниями звука и расшифровками устных диалогов». Это комплексное обучение позволяет генератору видео-аудио идеально связывать звук с визуальными сценариями.

DeepMind осознает проблему синхронизации движений губ с диалогом при преобразовании видео в аудио. Компания активно работает над улучшением этого аспекта инструмента, стремясь добиться плавной синхронизации между визуальными и слуховыми элементами.

Качество входного видео может существенно повлиять на вывод звука. По мнению DeepMind, зернистые или искаженные кадры могут привести к значительному снижению качества звука. Пользователям рекомендуется предоставлять видео высокого качества, чтобы обеспечить оптимальную синхронизацию и точность звука.

Сравнение с другими инструментами искусственного интеллекта в отрасли

Инструмент искусственного интеллекта для саундтреков к видео DeepMind отличается от других инструментов в отрасли, таких как генератор звуковых эффектов ElevenLabs.

В то время как ElevenLabs полагается исключительно на текстовые подсказки, инструмент DeepMind сочетает в себе видеопиксели и текстовые подсказки, предлагая пользователям более полный и захватывающий звук.

Инструмент искусственного интеллекта DeepMind может улучшить сотрудничество с другими видеоинструментами, созданными искусственным интеллектом, такими как Veo и Sora. Эти платформы могут использовать инструмент DeepMind для встраивания синхронизированного звука в свои возможности создания видео, обеспечивая более целостный и захватывающий мультимедийный опыт.

Google DeepMind включает водяной знак SynthID в аудиовыход, генерируемый искусственным интеллектом, в целях прозрачности и распознавания. Этот водяной знак служит флагом, указывающим, что звук был создан с использованием технологии искусственного интеллекта.