Hogar > Descubrir > Google DeepMind presenta una innovadora herramienta de inteligencia artificial para la generación de bandas sonoras de vídeos

Google DeepMind presenta una innovadora herramienta de inteligencia artificial para la generación de bandas sonoras de vídeos

Escrito por
ArticleGPT

Revisado y verificado por el Equipo HIX.AI

4 minutos de lecturaJun 21, 2024
Google DeepMind presenta una innovadora herramienta de inteligencia artificial para la generación de bandas sonoras de vídeos

En una palabra

Google DeepMind ha presentado una nueva herramienta de inteligencia artificial que crea bandas sonoras de videos considerando tanto un mensaje de texto como el contenido del video.

Google DeepMind ha introducido una innovadora herramienta de inteligencia artificial para generar bandas sonoras de vídeos. Esta herramienta avanzada incorpora indicaciones de texto y el contenido del propio vídeo para crear bandas sonoras cautivadoras y personalizadas, y también hay una indicación de texto opcional que los usuarios pueden proporcionar para describir los elementos de audio deseados.

Al combinar estos dos elementos, los usuarios ahora pueden producir escenas con “una partitura dramática, efectos de sonido realistas o diálogos que coincidan con los personajes y el tono de un video”.

Ejemplos de bandas sonoras creadas con la herramienta AI

Para ilustrar las capacidades de la herramienta de inteligencia artificial de DeepMind, se muestran varios ejemplos en el sitio web de la compañía.

En un caso, un vídeo que mostraba un automóvil conduciendo por una ciudad ciberpunk se combinó con un mensaje de texto que incluía frases como "autos patinando", "motor de automóvil acelerando" y "música electrónica angelical". El audio generado se sincronizó perfectamente con los movimientos del automóvil, creando una experiencia estimulante.

En otro ejemplo, una indicación que incluía términos como "medusas pulsando bajo el agua", "vida marina" y "océano" produjo un paisaje sonoro submarino inmersivo.

Otras características de esta herramienta de generación de bandas sonoras

La herramienta puede generar de forma autónoma un número ilimitado de bandas sonoras para vídeos. Esta versatilidad la distingue de otras herramientas de IA del mercado.

Esta variación en las opciones de audio permite a los usuarios explorar una amplia gama de posibilidades para sus videos. Elimina la necesidad de una sincronización de audio meticulosa y ofrece a los usuarios infinitas oportunidades creativas.

DeepMind afirma que su herramienta de inteligencia artificial está entrenada en video, audio y anotaciones con "descripciones detalladas de sonido y transcripciones de diálogos hablados". Esta formación integral permite al generador de vídeo a audio vincular perfectamente el audio con los escenarios visuales.

DeepMind reconoce el desafío de sincronizar los movimientos de los labios con el diálogo en su generación de vídeo a audio. La empresa está trabajando activamente para mejorar este aspecto de la herramienta, con el objetivo de lograr una sincronización perfecta entre los elementos visuales y auditivos.

La calidad del vídeo de entrada puede afectar significativamente la salida de audio. Las imágenes granuladas o distorsionadas, según DeepMind, pueden provocar una disminución significativa en la calidad del audio. Se anima a los usuarios a proporcionar vídeos de alta calidad para garantizar una sincronización y fidelidad de audio óptimas.

Comparación con otras herramientas de IA en la industria

La herramienta de inteligencia artificial para bandas sonoras de video de DeepMind se distingue de otras en la industria, como el generador de efectos de sonido de ElevenLabs.

Si bien ElevenLabs se basa exclusivamente en indicaciones de texto, la herramienta de DeepMind combina píxeles de video e indicaciones de texto, ofreciendo a los usuarios una experiencia de audio más completa e inmersiva.

La herramienta de IA de DeepMind tiene el potencial de mejorar las colaboraciones con otras herramientas de vídeo generadas por IA como Veo y Sora. Estas plataformas pueden utilizar la herramienta de DeepMind para incorporar audio sincronizado en sus capacidades de generación de video, brindando una experiencia multimedia más cohesiva e inmersiva.

Google DeepMind incluye una marca de agua SynthID en la salida de audio generada por IA con fines de transparencia y reconocimiento. Esta marca de agua sirve como bandera, indicando que el audio se ha generado utilizando tecnología de inteligencia artificial.

Basado en 3 fuentes de búsqueda

3 fuentes

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

En esta página

  • Ejemplos de bandas sonoras creadas con la herramienta AI
  • Otras características de esta herramienta de generación de bandas sonoras
  • Comparación con otras herramientas de IA en la industria