Google DeepMind introducerer innovativt AI-værktøj til generering af videosoundtrack

Google DeepMind har introduceret et innovativt AI-værktøj til at generere videosoundtracks. Dette avancerede værktøj inkorporerer både tekstprompter og indholdet af selve videoen for at skabe fængslende og skræddersyede lydspor, og der er også en valgfri tekstprompt, som brugerne kan give for at beskrive de ønskede lydelementer.

Ved at kombinere disse to elementer kan brugerne nu producere scener med "en dramascore, realistiske lydeffekter eller dialog, der matcher karaktererne og tonen i en video."

Eksempler på lydspor oprettet ved hjælp af AI-værktøjet

For at illustrere mulighederne i DeepMinds AI-værktøj er der vist adskillige eksempler på virksomhedens hjemmeside.

I et tilfælde blev en video med en bil, der kørte gennem en cyberpunk-by, parret med en tekstprompt, der indeholdt sætninger som "biler, der skrider ud", "gas i bilmotorer" og "engleagtig elektronisk musik". Den genererede lyd synkroniserede perfekt med bilens bevægelser, hvilket skabte en spændende oplevelse.

I et andet eksempel frembragte en prompt med udtryk som "vandmænd, der pulserer under vandet", "liv i havet" og "hav" et fordybende undervandslydbillede.

Andre funktioner i dette Soundtrack Generation Tool

Værktøjet kan selvstændigt generere et ubegrænset antal lydspor til videoer. Denne alsidighed gør, at den skiller sig ud fra andre AI-værktøjer på markedet.

Denne variation i lydindstillinger giver brugerne mulighed for at udforske en bred vifte af muligheder for deres videoer. Det eliminerer behovet for omhyggelig lydsynkronisering, hvilket giver brugerne uendelige kreative muligheder.

DeepMind hævder, at dets AI-værktøj er trænet i video, lyd og annoteringer med "detaljerede beskrivelser af lyd og transskriptioner af talt dialog." Denne omfattende træning gør det muligt for video-til-lyd-generatoren at forbinde lyden med visuelle scenarier perfekt.

DeepMind anerkender udfordringen med at synkronisere læbebevægelser med dialog i sin video-til-lyd-generation. Virksomheden arbejder aktivt på at forbedre dette aspekt af værktøjet med det formål at opnå problemfri synkronisering mellem visuelle og auditive elementer.

Kvaliteten af input-videoen kan påvirke lydoutputtet betydeligt. Kornet eller forvrænget optagelser kan ifølge DeepMind resultere i et betydeligt fald i lydkvaliteten. Brugere opfordres til at levere videoer i høj kvalitet for at sikre optimal lydsynkronisering og troskab.

Sammenligning med andre AI-værktøjer i branchen

DeepMinds videosoundtrack AI-værktøj adskiller sig fra andre i branchen, såsom ElevenLabs' lydeffektgenerator.

Mens ElevenLabs udelukkende er afhængig af tekstprompter, kombinerer DeepMinds værktøj videopixel og tekstprompter, hvilket giver brugerne en mere omfattende og fordybende lydoplevelse.

DeepMinds AI-værktøj har potentialet til at forbedre samarbejdet med andre AI-genererede videoværktøjer som Veo og Sora. Disse platforme kan bruge DeepMinds værktøj til at indlejre synkroniseret lyd i deres videogenereringskapacitet, hvilket giver en mere sammenhængende og fordybende multimedieoplevelse.

Google DeepMind inkluderer et SynthID-vandmærke i den AI-genererede lydoutput til gennemsigtighed og genkendelsesformål. Dette vandmærke fungerer som et flag, der indikerer, at lyden er blevet genereret ved hjælp af AI-teknologi.