Hjem > Oppdage > Google DeepMind introduserer innovativt AI-verktøy for generering av videolydspor

Google DeepMind introduserer innovativt AI-verktøy for generering av videolydspor

Skrevet av
ArticleGPT

Gjennomgått og faktasjekket av HIX.AI-teamet

2 min lesingJun 21, 2024
Google DeepMind introduserer innovativt AI-verktøy for generering av videolydspor

I et nøtteskall

Google DeepMind har avduket et nytt AI-verktøy som lager videolydspor ved å vurdere både en tekstmelding og videoens innhold.

Google DeepMind har introdusert et innovativt AI-verktøy for å generere videolydspor. Dette avanserte verktøyet inneholder både tekstmeldinger og innholdet i selve videoen for å lage fengslende og skreddersydde lydspor, og det er også en valgfri tekstmelding som brukere kan gi for å beskrive de ønskede lydelementene.

Ved å kombinere disse to elementene, kan brukere nå produsere scener med "en dramascore, realistiske lydeffekter eller dialog som matcher karakterene og tonen i en video."

Eksempler på lydspor laget med AI-verktøyet

For å illustrere egenskapene til DeepMinds AI-verktøy, har flere eksempler blitt vist frem på selskapets nettside.

I ett tilfelle ble en video med en bil som kjørte gjennom en cyberpunk-by sammenkoblet med en tekstmelding som inkluderte setninger som «biler som skrenser», «gass på bilmotorer» og «engleaktig elektronisk musikk». Den genererte lyden synkroniserte perfekt med bilens bevegelser, og skapte en spennende opplevelse.

I et annet eksempel ga en melding som inkluderer begreper som "maneter som pulserer under vann", "liv i havet" og "hav" et oppslukende lydbilde under vann.

Andre funksjoner i dette Soundtrack Generation Tool

Verktøyet kan autonomt generere et ubegrenset antall lydspor for videoer. Denne allsidigheten gjør at den skiller seg ut fra andre AI-verktøy på markedet.

Denne variasjonen i lydalternativer lar brukere utforske et bredt spekter av muligheter for videoene sine. Det eliminerer behovet for grundig lydsynkronisering, og gir brukerne uendelige kreative muligheter.

DeepMind hevder at AI-verktøyet er trent på video, lyd og merknader med "detaljerte beskrivelser av lyd og transkripsjoner av talt dialog." Denne omfattende opplæringen gjør det mulig for video-til-lyd-generatoren å perfekt koble lyden med visuelle scenarier.

DeepMind erkjenner utfordringen med å synkronisere leppebevegelser med dialog i sin video-til-lyd-generasjon. Selskapet jobber aktivt med å forbedre dette aspektet av verktøyet, med sikte på å oppnå sømløs synkronisering mellom visuelle og auditive elementer.

Kvaliteten på inngangsvideoen kan påvirke lydutgangen betydelig. Kornete eller forvrengte opptak, ifølge DeepMind, kan føre til en betydelig reduksjon i lydkvaliteten. Brukere oppfordres til å levere videoer av høy kvalitet for å sikre optimal lydsynkronisering og lydkvalitet.

Sammenligning med andre AI-verktøy i bransjen

DeepMinds videosoundtrack AI-verktøy skiller seg fra andre i bransjen, for eksempel ElevenLabs' lydeffektgenerator.

Mens ElevenLabs utelukkende er avhengig av tekstmeldinger, kombinerer DeepMinds verktøy videopiksler og tekstmeldinger, og tilbyr brukerne en mer omfattende og oppslukende lydopplevelse.

DeepMinds AI-verktøy har potensial til å forbedre samarbeid med andre AI-genererte videoverktøy som Veo og Sora. Disse plattformene kan bruke DeepMinds verktøy for å bygge inn synkronisert lyd i sine videogenereringsevner, og gir en mer sammenhengende og oppslukende multimediaopplevelse.

Google DeepMind inkluderer et SynthID-vannmerke i den AI-genererte lydutgangen for åpenhet og gjenkjennelsesformål. Dette vannmerket fungerer som et flagg, som indikerer at lyden er generert ved hjelp av AI-teknologi.

Basert på 3 søkekilder

3 kilder

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

På denne siden

  • Eksempler på lydspor laget med AI-verktøyet
  • Andre funksjoner i dette Soundtrack Generation Tool
  • Sammenligning med andre AI-verktøy i bransjen