Google DeepMind présente un outil d'IA innovant pour la génération de bandes sonores vidéo

Google DeepMind a introduit un outil d'IA innovant pour générer des bandes sonores vidéo. Cet outil avancé intègre à la fois des invites textuelles et le contenu de la vidéo elle-même pour créer des bandes sonores captivantes et personnalisées. Il existe également une invite textuelle facultative que les utilisateurs peuvent fournir pour décrire les éléments audio souhaités.

En combinant ces deux éléments, les utilisateurs peuvent désormais produire des scènes avec « une musique dramatique, des effets sonores réalistes ou des dialogues qui correspondent aux personnages et au ton d'une vidéo ».

Exemples de bandes sonores créées à l'aide de l'outil AI

Pour illustrer les capacités de l'outil d'IA de DeepMind, plusieurs exemples ont été présentés sur le site Web de l'entreprise.

Dans un cas, une vidéo montrant une voiture traversant une ville cyberpunk était associée à un message texte comprenant des expressions telles que « dérapage des voitures », « accélération du moteur de la voiture » et « musique électronique angélique ». L'audio généré s'est parfaitement synchronisé avec les mouvements de la voiture, créant une expérience exaltante.

Dans un autre exemple, une invite comprenant des termes tels que « méduse palpitant sous l’eau », « vie marine » et « océan » a produit un paysage sonore sous-marin immersif.

Autres fonctionnalités de cet outil de génération de bande sonore

L'outil peut générer de manière autonome un nombre illimité de bandes sonores pour les vidéos. Cette polyvalence le distingue des autres outils d’IA du marché.

Cette variation des options audio permet aux utilisateurs d'explorer un large éventail de possibilités pour leurs vidéos. Il élimine le besoin d’une synchronisation audio méticuleuse, offrant aux utilisateurs des possibilités créatives infinies.

DeepMind affirme que son outil d'IA est formé sur la vidéo, l'audio et les annotations avec « des descriptions détaillées du son et des transcriptions du dialogue parlé ». Cette formation complète permet au générateur vidéo-audio de lier parfaitement en conséquence l'audio aux scénarios visuels.

DeepMind reconnaît le défi de synchroniser les mouvements des lèvres avec le dialogue dans sa génération vidéo-audio. L'entreprise travaille activement à l'amélioration de cet aspect de l'outil, dans le but d'obtenir une synchronisation transparente entre les éléments visuels et auditifs.

La qualité de la vidéo d'entrée peut affecter considérablement la sortie audio. Selon DeepMind, des images granuleuses ou déformées peuvent entraîner une diminution significative de la qualité audio. Les utilisateurs sont encouragés à fournir des vidéos de haute qualité pour garantir une synchronisation et une fidélité audio optimales.

Comparaison avec d'autres outils d'IA du secteur

L'outil d'IA de bande sonore vidéo de DeepMind se distingue des autres outils du secteur, comme le générateur d'effets sonores d'ElevenLabs.

Alors qu'ElevenLabs s'appuie exclusivement sur des invites textuelles, l'outil de DeepMind combine des pixels vidéo et des invites textuelles, offrant aux utilisateurs une expérience audio plus complète et immersive.

L'outil d'IA de DeepMind a le potentiel d'améliorer les collaborations avec d'autres outils vidéo générés par l'IA comme Veo et Sora. Ces plates-formes peuvent utiliser l'outil de DeepMind pour intégrer l'audio synchronisé dans leurs capacités de génération vidéo, offrant ainsi une expérience multimédia plus cohérente et immersive.

Google DeepMind inclut un filigrane SynthID dans la sortie audio générée par l'IA à des fins de transparence et de reconnaissance. Ce filigrane sert de drapeau, indiquant que l'audio a été généré à l'aide de la technologie IA.