Google DeepMind presenta una innovadora herramienta de inteligencia artificial para la generación de bandas sonoras de vídeos

Google DeepMind ha introducido una innovadora herramienta de inteligencia artificial para generar bandas sonoras de vídeos. Esta herramienta avanzada incorpora indicaciones de texto y el contenido del propio vídeo para crear bandas sonoras cautivadoras y personalizadas, y también hay una indicación de texto opcional que los usuarios pueden proporcionar para describir los elementos de audio deseados.

Al combinar estos dos elementos, los usuarios ahora pueden producir escenas con “una partitura dramática, efectos de sonido realistas o diálogos que coincidan con los personajes y el tono de un video”.

Ejemplos de bandas sonoras creadas con la herramienta AI

Para ilustrar las capacidades de la herramienta de inteligencia artificial de DeepMind, se muestran varios ejemplos en el sitio web de la compañía.

En un caso, un vídeo que mostraba un automóvil conduciendo por una ciudad ciberpunk se combinó con un mensaje de texto que incluía frases como "autos patinando", "motor de automóvil acelerando" y "música electrónica angelical". El audio generado se sincronizó perfectamente con los movimientos del automóvil, creando una experiencia estimulante.

En otro ejemplo, una indicación que incluía términos como "medusas pulsando bajo el agua", "vida marina" y "océano" produjo un paisaje sonoro submarino inmersivo.

Otras características de esta herramienta de generación de bandas sonoras

La herramienta puede generar de forma autónoma un número ilimitado de bandas sonoras para vídeos. Esta versatilidad la distingue de otras herramientas de IA del mercado.

Esta variación en las opciones de audio permite a los usuarios explorar una amplia gama de posibilidades para sus videos. Elimina la necesidad de una sincronización de audio meticulosa y ofrece a los usuarios infinitas oportunidades creativas.

DeepMind afirma que su herramienta de inteligencia artificial está entrenada en video, audio y anotaciones con "descripciones detalladas de sonido y transcripciones de diálogos hablados". Esta formación integral permite al generador de vídeo a audio vincular perfectamente el audio con los escenarios visuales.

DeepMind reconoce el desafío de sincronizar los movimientos de los labios con el diálogo en su generación de vídeo a audio. La empresa está trabajando activamente para mejorar este aspecto de la herramienta, con el objetivo de lograr una sincronización perfecta entre los elementos visuales y auditivos.

La calidad del vídeo de entrada puede afectar significativamente la salida de audio. Las imágenes granuladas o distorsionadas, según DeepMind, pueden provocar una disminución significativa en la calidad del audio. Se anima a los usuarios a proporcionar vídeos de alta calidad para garantizar una sincronización y fidelidad de audio óptimas.

Comparación con otras herramientas de IA en la industria

La herramienta de inteligencia artificial para bandas sonoras de video de DeepMind se distingue de otras en la industria, como el generador de efectos de sonido de ElevenLabs.

Si bien ElevenLabs se basa exclusivamente en indicaciones de texto, la herramienta de DeepMind combina píxeles de video e indicaciones de texto, ofreciendo a los usuarios una experiencia de audio más completa e inmersiva.

La herramienta de IA de DeepMind tiene el potencial de mejorar las colaboraciones con otras herramientas de vídeo generadas por IA como Veo y Sora. Estas plataformas pueden utilizar la herramienta de DeepMind para incorporar audio sincronizado en sus capacidades de generación de video, brindando una experiencia multimedia más cohesiva e inmersiva.

Google DeepMind incluye una marca de agua SynthID en la salida de audio generada por IA con fines de transparencia y reconocimiento. Esta marca de agua sirve como bandera, indicando que el audio se ha generado utilizando tecnología de inteligencia artificial.