Google DeepMind introduserer innovativt AI-verktøy for generering av videolydspor

Google DeepMind har introdusert et innovativt AI-verktøy for å generere videolydspor. Dette avanserte verktøyet inneholder både tekstmeldinger og innholdet i selve videoen for å lage fengslende og skreddersydde lydspor, og det er også en valgfri tekstmelding som brukere kan gi for å beskrive de ønskede lydelementene.

Ved å kombinere disse to elementene, kan brukere nå produsere scener med "en dramascore, realistiske lydeffekter eller dialog som matcher karakterene og tonen i en video."

Eksempler på lydspor laget med AI-verktøyet

For å illustrere egenskapene til DeepMinds AI-verktøy, har flere eksempler blitt vist frem på selskapets nettside.

I ett tilfelle ble en video med en bil som kjørte gjennom en cyberpunk-by sammenkoblet med en tekstmelding som inkluderte setninger som «biler som skrenser», «gass på bilmotorer» og «engleaktig elektronisk musikk». Den genererte lyden synkroniserte perfekt med bilens bevegelser, og skapte en spennende opplevelse.

I et annet eksempel ga en melding som inkluderer begreper som "maneter som pulserer under vann", "liv i havet" og "hav" et oppslukende lydbilde under vann.

Andre funksjoner i dette Soundtrack Generation Tool

Verktøyet kan autonomt generere et ubegrenset antall lydspor for videoer. Denne allsidigheten gjør at den skiller seg ut fra andre AI-verktøy på markedet.

Denne variasjonen i lydalternativer lar brukere utforske et bredt spekter av muligheter for videoene sine. Det eliminerer behovet for grundig lydsynkronisering, og gir brukerne uendelige kreative muligheter.

DeepMind hevder at AI-verktøyet er trent på video, lyd og merknader med "detaljerte beskrivelser av lyd og transkripsjoner av talt dialog." Denne omfattende opplæringen gjør det mulig for video-til-lyd-generatoren å perfekt koble lyden med visuelle scenarier.

DeepMind erkjenner utfordringen med å synkronisere leppebevegelser med dialog i sin video-til-lyd-generasjon. Selskapet jobber aktivt med å forbedre dette aspektet av verktøyet, med sikte på å oppnå sømløs synkronisering mellom visuelle og auditive elementer.

Kvaliteten på inngangsvideoen kan påvirke lydutgangen betydelig. Kornete eller forvrengte opptak, ifølge DeepMind, kan føre til en betydelig reduksjon i lydkvaliteten. Brukere oppfordres til å levere videoer av høy kvalitet for å sikre optimal lydsynkronisering og lydkvalitet.

Sammenligning med andre AI-verktøy i bransjen

DeepMinds videosoundtrack AI-verktøy skiller seg fra andre i bransjen, for eksempel ElevenLabs' lydeffektgenerator.

Mens ElevenLabs utelukkende er avhengig av tekstmeldinger, kombinerer DeepMinds verktøy videopiksler og tekstmeldinger, og tilbyr brukerne en mer omfattende og oppslukende lydopplevelse.

DeepMinds AI-verktøy har potensial til å forbedre samarbeid med andre AI-genererte videoverktøy som Veo og Sora. Disse plattformene kan bruke DeepMinds verktøy for å bygge inn synkronisert lyd i sine videogenereringsevner, og gir en mer sammenhengende og oppslukende multimediaopplevelse.

Google DeepMind inkluderer et SynthID-vannmerke i den AI-genererte lydutgangen for åpenhet og gjenkjennelsesformål. Dette vannmerket fungerer som et flagg, som indikerer at lyden er generert ved hjelp av AI-teknologi.