Hjem > Opdage > Google DeepMind introducerer innovativt AI-værktøj til generering af videosoundtrack

Google DeepMind introducerer innovativt AI-værktøj til generering af videosoundtrack

Skrevet af
ArticleGPT

Gennemgået og faktatjekket af HIX.AI-teamet

2 min læstJun 21, 2024
Google DeepMind introducerer innovativt AI-værktøj til generering af videosoundtrack

I en nøddeskal

Google DeepMind har afsløret et nyt AI-værktøj, der skaber videosoundtracks ved at overveje både en tekstprompt og videoens indhold.

Google DeepMind har introduceret et innovativt AI-værktøj til at generere videosoundtracks. Dette avancerede værktøj inkorporerer både tekstprompter og indholdet af selve videoen for at skabe fængslende og skræddersyede lydspor, og der er også en valgfri tekstprompt, som brugerne kan give for at beskrive de ønskede lydelementer.

Ved at kombinere disse to elementer kan brugerne nu producere scener med "en dramascore, realistiske lydeffekter eller dialog, der matcher karaktererne og tonen i en video."

Eksempler på lydspor oprettet ved hjælp af AI-værktøjet

For at illustrere mulighederne i DeepMinds AI-værktøj er der vist adskillige eksempler på virksomhedens hjemmeside.

I et tilfælde blev en video med en bil, der kørte gennem en cyberpunk-by, parret med en tekstprompt, der indeholdt sætninger som "biler, der skrider ud", "gas i bilmotorer" og "engleagtig elektronisk musik". Den genererede lyd synkroniserede perfekt med bilens bevægelser, hvilket skabte en spændende oplevelse.

I et andet eksempel frembragte en prompt med udtryk som "vandmænd, der pulserer under vandet", "liv i havet" og "hav" et fordybende undervandslydbillede.

Andre funktioner i dette Soundtrack Generation Tool

Værktøjet kan selvstændigt generere et ubegrænset antal lydspor til videoer. Denne alsidighed gør, at den skiller sig ud fra andre AI-værktøjer på markedet.

Denne variation i lydindstillinger giver brugerne mulighed for at udforske en bred vifte af muligheder for deres videoer. Det eliminerer behovet for omhyggelig lydsynkronisering, hvilket giver brugerne uendelige kreative muligheder.

DeepMind hævder, at dets AI-værktøj er trænet i video, lyd og annoteringer med "detaljerede beskrivelser af lyd og transskriptioner af talt dialog." Denne omfattende træning gør det muligt for video-til-lyd-generatoren at forbinde lyden med visuelle scenarier perfekt.

DeepMind anerkender udfordringen med at synkronisere læbebevægelser med dialog i sin video-til-lyd-generation. Virksomheden arbejder aktivt på at forbedre dette aspekt af værktøjet med det formål at opnå problemfri synkronisering mellem visuelle og auditive elementer.

Kvaliteten af input-videoen kan påvirke lydoutputtet betydeligt. Kornet eller forvrænget optagelser kan ifølge DeepMind resultere i et betydeligt fald i lydkvaliteten. Brugere opfordres til at levere videoer i høj kvalitet for at sikre optimal lydsynkronisering og troskab.

Sammenligning med andre AI-værktøjer i branchen

DeepMinds videosoundtrack AI-værktøj adskiller sig fra andre i branchen, såsom ElevenLabs' lydeffektgenerator.

Mens ElevenLabs udelukkende er afhængig af tekstprompter, kombinerer DeepMinds værktøj videopixel og tekstprompter, hvilket giver brugerne en mere omfattende og fordybende lydoplevelse.

DeepMinds AI-værktøj har potentialet til at forbedre samarbejdet med andre AI-genererede videoværktøjer som Veo og Sora. Disse platforme kan bruge DeepMinds værktøj til at indlejre synkroniseret lyd i deres videogenereringskapacitet, hvilket giver en mere sammenhængende og fordybende multimedieoplevelse.

Google DeepMind inkluderer et SynthID-vandmærke i den AI-genererede lydoutput til gennemsigtighed og genkendelsesformål. Dette vandmærke fungerer som et flag, der indikerer, at lyden er blevet genereret ved hjælp af AI-teknologi.

Baseret på 3 søgekilder

3 kilder

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

På denne side

  • Eksempler på lydspor oprettet ved hjælp af AI-værktøjet
  • Andre funktioner i dette Soundtrack Generation Tool
  • Sammenligning med andre AI-værktøjer i branchen