Google DeepMind apresenta ferramenta inovadora de IA para geração de trilhas sonoras de vídeo

Google DeepMind introduziu uma ferramenta inovadora de IA para gerar trilhas sonoras de vídeo. Esta ferramenta avançada incorpora prompts de texto e o conteúdo do próprio vídeo para criar trilhas sonoras cativantes e personalizadas, e há também um prompt de texto opcional que os usuários podem fornecer para descrever os elementos de áudio desejados.

Ao combinar esses dois elementos, os usuários agora podem produzir cenas com “uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que correspondam aos personagens e ao tom de um vídeo”.

Exemplos de trilhas sonoras criadas com a ferramenta AI

Para ilustrar as capacidades da ferramenta de IA da DeepMind, vários exemplos foram apresentados no site da empresa.

Em um caso, um vídeo mostrando um carro dirigindo por uma cidade cyberpunk foi acompanhado de um texto que incluía frases como “carros derrapando”, “aceleração do motor do carro” e “música eletrônica angelical”. O áudio gerado sincronizou perfeitamente com os movimentos do carro, criando uma experiência emocionante.

Em outro exemplo, um prompt incluindo termos como “água-viva pulsando debaixo d'água”, “vida marinha” e “oceano” produziu uma paisagem sonora subaquática envolvente.

Outros recursos desta ferramenta de geração de trilha sonora

A ferramenta pode gerar de forma autônoma um número ilimitado de trilhas sonoras para vídeos. Essa versatilidade o diferencia de outras ferramentas de IA do mercado.

Essa variação nas opções de áudio permite aos usuários explorar uma ampla gama de possibilidades para seus vídeos. Elimina a necessidade de sincronização de áudio meticulosa, oferecendo aos usuários infinitas oportunidades criativas.

A DeepMind afirma que sua ferramenta de IA é treinada em vídeo, áudio e anotações com “descrições detalhadas de som e transcrições de diálogos falados”. Este treinamento abrangente permite que o gerador de vídeo para áudio vincule perfeitamente o áudio com cenários visuais.

A DeepMind reconhece o desafio de sincronizar os movimentos labiais com o diálogo em sua geração de vídeo para áudio. A empresa está trabalhando ativamente para aprimorar esse aspecto da ferramenta, visando alcançar uma sincronização perfeita entre elementos visuais e auditivos.

A qualidade do vídeo de entrada pode afetar significativamente a saída de áudio. Imagens granuladas ou distorcidas, de acordo com DeepMind, podem resultar em uma diminuição significativa na qualidade do áudio. Os usuários são incentivados a fornecer vídeos de alta qualidade para garantir sincronização e fidelidade de áudio ideais.

Comparação com outras ferramentas de IA na indústria

A ferramenta AI de trilha sonora de vídeo da DeepMind se diferencia de outras do setor, como o gerador de efeitos sonoros da ElevenLabs.

Embora o ElevenLabs dependa exclusivamente de prompts de texto, a ferramenta da DeepMind combina pixels de vídeo e prompts de texto, oferecendo aos usuários uma experiência de áudio mais abrangente e envolvente.

A ferramenta de IA da DeepMind tem o potencial de aprimorar a colaboração com outras ferramentas de vídeo geradas por IA, como Veo e Sora. Essas plataformas podem utilizar a ferramenta DeepMind para incorporar áudio sincronizado em seus recursos de geração de vídeo, proporcionando uma experiência multimídia mais coesa e envolvente.

Google DeepMind inclui uma marca d’água SynthID na saída de áudio gerada por IA para fins de transparência e reconhecimento. Esta marca d’água serve como sinalizador, indicando que o áudio foi gerado usando tecnologia de IA.