Lar > Descobrir > Google DeepMind apresenta ferramenta inovadora de IA para geração de trilhas sonoras de vídeo

Google DeepMind apresenta ferramenta inovadora de IA para geração de trilhas sonoras de vídeo

Escrito por
ArticleGPT

Revisado e verificado pela Equipe HIX.AI

4 minutos de leituraJun 21, 2024
Google DeepMind apresenta ferramenta inovadora de IA para geração de trilhas sonoras de vídeo

Resumindo

Google DeepMind revelou uma nova ferramenta de IA que cria trilhas sonoras de vídeo considerando tanto um prompt de texto quanto o conteúdo do vídeo.

Google DeepMind introduziu uma ferramenta inovadora de IA para gerar trilhas sonoras de vídeo. Esta ferramenta avançada incorpora prompts de texto e o conteúdo do próprio vídeo para criar trilhas sonoras cativantes e personalizadas, e há também um prompt de texto opcional que os usuários podem fornecer para descrever os elementos de áudio desejados.

Ao combinar esses dois elementos, os usuários agora podem produzir cenas com “uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que correspondam aos personagens e ao tom de um vídeo”.

Exemplos de trilhas sonoras criadas com a ferramenta AI

Para ilustrar as capacidades da ferramenta de IA da DeepMind, vários exemplos foram apresentados no site da empresa.

Em um caso, um vídeo mostrando um carro dirigindo por uma cidade cyberpunk foi acompanhado de um texto que incluía frases como “carros derrapando”, “aceleração do motor do carro” e “música eletrônica angelical”. O áudio gerado sincronizou perfeitamente com os movimentos do carro, criando uma experiência emocionante.

Em outro exemplo, um prompt incluindo termos como “água-viva pulsando debaixo d'água”, “vida marinha” e “oceano” produziu uma paisagem sonora subaquática envolvente.

Outros recursos desta ferramenta de geração de trilha sonora

A ferramenta pode gerar de forma autônoma um número ilimitado de trilhas sonoras para vídeos. Essa versatilidade o diferencia de outras ferramentas de IA do mercado.

Essa variação nas opções de áudio permite aos usuários explorar uma ampla gama de possibilidades para seus vídeos. Elimina a necessidade de sincronização de áudio meticulosa, oferecendo aos usuários infinitas oportunidades criativas.

A DeepMind afirma que sua ferramenta de IA é treinada em vídeo, áudio e anotações com “descrições detalhadas de som e transcrições de diálogos falados”. Este treinamento abrangente permite que o gerador de vídeo para áudio vincule perfeitamente o áudio com cenários visuais.

A DeepMind reconhece o desafio de sincronizar os movimentos labiais com o diálogo em sua geração de vídeo para áudio. A empresa está trabalhando ativamente para aprimorar esse aspecto da ferramenta, visando alcançar uma sincronização perfeita entre elementos visuais e auditivos.

A qualidade do vídeo de entrada pode afetar significativamente a saída de áudio. Imagens granuladas ou distorcidas, de acordo com DeepMind, podem resultar em uma diminuição significativa na qualidade do áudio. Os usuários são incentivados a fornecer vídeos de alta qualidade para garantir sincronização e fidelidade de áudio ideais.

Comparação com outras ferramentas de IA na indústria

A ferramenta AI de trilha sonora de vídeo da DeepMind se diferencia de outras do setor, como o gerador de efeitos sonoros da ElevenLabs.

Embora o ElevenLabs dependa exclusivamente de prompts de texto, a ferramenta da DeepMind combina pixels de vídeo e prompts de texto, oferecendo aos usuários uma experiência de áudio mais abrangente e envolvente.

A ferramenta de IA da DeepMind tem o potencial de aprimorar a colaboração com outras ferramentas de vídeo geradas por IA, como Veo e Sora. Essas plataformas podem utilizar a ferramenta DeepMind para incorporar áudio sincronizado em seus recursos de geração de vídeo, proporcionando uma experiência multimídia mais coesa e envolvente.

Google DeepMind inclui uma marca d’água SynthID na saída de áudio gerada por IA para fins de transparência e reconhecimento. Esta marca d’água serve como sinalizador, indicando que o áudio foi gerado usando tecnologia de IA.

Com base em 3 fontes de pesquisa

3 fontes

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

Nesta página

  • Exemplos de trilhas sonoras criadas com a ferramenta AI
  • Outros recursos desta ferramenta de geração de trilha sonora
  • Comparação com outras ferramentas de IA na indústria