Google DeepMind introduceert innovatieve AI-tool voor het genereren van videosoundtracks

Google DeepMind heeft een innovatieve AI-tool geïntroduceerd voor het genereren van videosoundtracks. Deze geavanceerde tool bevat zowel tekstprompts als de inhoud van de video zelf om boeiende en op maat gemaakte soundtracks te creëren, en er is ook een optionele tekstprompt die gebruikers kunnen opgeven om de gewenste audio-elementen te beschrijven.

Door deze twee elementen te combineren, kunnen gebruikers nu scènes produceren met “een dramascore, realistische geluidseffecten of dialogen die passen bij de karakters en toon van een video.”

Voorbeelden van soundtracks gemaakt met behulp van de AI Tool

Om de mogelijkheden van de AI-tool van DeepMind te illustreren, zijn er verschillende voorbeelden op de website van het bedrijf tentoongesteld.

In één geval werd een video met een auto die door een cyberpunkstad reed, gecombineerd met een tekstprompt met zinnen als 'auto's slippen', 'throttling van automotoren' en 'engelachtige elektronische muziek'. De gegenereerde audio synchroniseerde perfect met de bewegingen van de auto, waardoor een opwindende ervaring ontstond.

In een ander voorbeeld produceerde een prompt met termen als 'kwallen die onderwater pulseren', 'zeeleven' en 'oceaan' een meeslepend onderwatergeluidslandschap.

Andere kenmerken van deze tool voor het genereren van soundtracks

De tool kan autonoom een onbeperkt aantal soundtracks voor video's genereren. Door deze veelzijdigheid onderscheidt het zich van andere AI-tools op de markt.

Door deze variatie in audio-opties kunnen gebruikers een breed scala aan mogelijkheden voor hun video's verkennen. Het elimineert de noodzaak van nauwgezette audiosynchronisatie en biedt gebruikers eindeloze creatieve mogelijkheden.

DeepMind beweert dat zijn AI-tool is getraind op video, audio en annotaties met “gedetailleerde beschrijvingen van geluid en transcripties van gesproken dialoog.” Dankzij deze uitgebreide training kan de video-naar-audiogenerator de audio perfect koppelen aan visuele scenario's.

DeepMind erkent de uitdaging van het synchroniseren van lipbewegingen met dialoog bij het genereren van video naar audio. Het bedrijf werkt actief aan het verbeteren van dit aspect van de tool, met als doel een naadloze synchronisatie tussen visuele en auditieve elementen te bereiken.

De kwaliteit van de ingevoerde video kan de audio-uitvoer aanzienlijk beïnvloeden. Korrelig of vervormd beeldmateriaal kan volgens DeepMind resulteren in een aanzienlijke vermindering van de audiokwaliteit. Gebruikers worden aangemoedigd om video's van hoge kwaliteit aan te bieden om optimale audiosynchronisatie en -getrouwheid te garanderen.

Vergelijking met andere AI-tools in de branche

De AI-tool voor video-soundtracks van DeepMind onderscheidt zich van andere in de branche, zoals de geluidseffectengenerator van ElevenLabs.

Terwijl ElevenLabs uitsluitend afhankelijk is van tekstprompts, combineert de tool van DeepMind videopixels en tekstprompts, waardoor gebruikers een uitgebreidere en meeslepende audio-ervaring worden geboden.

De AI-tool van DeepMind heeft het potentieel om de samenwerking met andere door AI gegenereerde videotools zoals Veo en Sora te verbeteren. Deze platforms kunnen de tool van DeepMind gebruiken om gesynchroniseerde audio in hun videogeneratiemogelijkheden te integreren, waardoor een meer samenhangende en meeslepende multimedia-ervaring wordt geboden.

Google DeepMind bevat een SynthID-watermerk in de door AI gegenereerde audio-uitvoer voor transparantie- en herkenningsdoeleinden. Dit watermerk dient als vlag en geeft aan dat de audio is gegenereerd met behulp van AI-technologie.