Dom > Odkryć > Google DeepMind wprowadza innowacyjne narzędzie AI do generowania ścieżki dźwiękowej wideo

Google DeepMind wprowadza innowacyjne narzędzie AI do generowania ścieżki dźwiękowej wideo

Scenariusz
ArticleGPT

Sprawdzone i sprawdzone przez zespół HIX.AI

2 minuty czytaniaJun 21, 2024
Google DeepMind wprowadza innowacyjne narzędzie AI do generowania ścieżki dźwiękowej wideo

W skrócie

Google DeepMind zaprezentowało nowe narzędzie AI, które tworzy ścieżki dźwiękowe wideo, biorąc pod uwagę zarówno podpowiedzi tekstowe, jak i treść wideo.

Google DeepMind wprowadził innowacyjne narzędzie AI do generowania ścieżek dźwiękowych wideo. To zaawansowane narzędzie zawiera zarówno podpowiedzi tekstowe, jak i treść samego filmu, tworząc wciągające i dostosowane ścieżki dźwiękowe. Dostępny jest także opcjonalny komunikat tekstowy, który użytkownicy mogą udostępnić w celu opisania żądanych elementów audio.

Łącząc te dwa elementy, użytkownicy mogą teraz tworzyć sceny z „partyturą dramatyczną, realistycznymi efektami dźwiękowymi lub dialogami pasującymi do postaci i tonu filmu”.

Przykłady ścieżek dźwiękowych utworzonych za pomocą narzędzia AI

Aby zobrazować możliwości narzędzia AI firmy DeepMind, na stronie internetowej firmy zaprezentowano kilka przykładów.

W jednym przypadku film przedstawiający samochód jadący przez cyberpunkowe miasto został połączony z komunikatem tekstowym zawierającym takie wyrażenia, jak „poślizg samochodu”, „dławienie silnika samochodu” czy „anielska muzyka elektroniczna”. Wygenerowany dźwięk idealnie zsynchronizował się z ruchami samochodu, tworząc ekscytujące wrażenia.

W innym przykładzie zachęta zawierająca terminy takie jak „meduza pulsująca pod wodą”, „życie morskie” i „ocean” stworzyła wciągający podwodny krajobraz dźwiękowy.

Inne funkcje tego narzędzia do generowania ścieżki dźwiękowej

Narzędzie może samodzielnie generować nieograniczoną liczbę ścieżek dźwiękowych do filmów. Ta wszechstronność wyróżnia go spośród innych narzędzi AI dostępnych na rynku.

Ta różnorodność opcji audio pozwala użytkownikom odkrywać szeroką gamę możliwości dla swoich filmów. Eliminuje potrzebę skrupulatnej synchronizacji dźwięku, oferując użytkownikom nieograniczone możliwości twórcze.

DeepMind twierdzi, że jego narzędzie AI jest przeszkolone w zakresie wideo, audio i adnotacji zawierających „szczegółowe opisy dźwięków i transkrypcje mówionych dialogów”. Dzięki temu kompleksowemu szkoleniu generator wideo-audio doskonale łączy scenariusze audio ze scenariuszami wizualnymi.

DeepMind zdaje sobie sprawę z wyzwania, jakie stanowi synchronizacja ruchów warg z dialogiem podczas generowania sygnału wideo na audio. Firma aktywnie pracuje nad udoskonaleniem tego aspektu narzędzia, mając na celu osiągnięcie płynnej synchronizacji elementów wizualnych i słuchowych.

Jakość wejściowego wideo może znacząco wpłynąć na wyjście audio. Według DeepMind ziarnisty lub zniekształcony materiał może spowodować znaczny spadek jakości dźwięku. Zachęcamy użytkowników do dostarczania filmów wideo wysokiej jakości, aby zapewnić optymalną synchronizację i wierność dźwięku.

Porównanie z innymi narzędziami AI dostępnymi w branży

Narzędzie AI do ścieżki dźwiękowej wideo DeepMind wyróżnia się na tle innych w branży, takich jak generator efektów dźwiękowych ElevenLabs.

Podczas gdy ElevenLabs opiera się wyłącznie na podpowiedziach tekstowych, narzędzie DeepMind łączy piksele wideo i podpowiedzi tekstowe, oferując użytkownikom bardziej wszechstronne i wciągające wrażenia dźwiękowe.

Narzędzie AI DeepMind może usprawnić współpracę z innymi narzędziami wideo generowanymi przez sztuczną inteligencję, takimi jak Veo i Sora. Platformy te mogą wykorzystywać narzędzie DeepMind do osadzania zsynchronizowanego dźwięku w możliwościach generowania wideo, zapewniając bardziej spójne i wciągające wrażenia multimedialne.

Google DeepMind dołącza znak wodny SynthID do wyjścia audio generowanego przez sztuczną inteligencję w celu zapewnienia przejrzystości i rozpoznawania. Ten znak wodny służy jako flaga wskazująca, że dźwięk został wygenerowany przy użyciu technologii AI.

Na podstawie 3 źródeł wyszukiwania

3 źródła

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

Na tej stronie

  • Przykłady ścieżek dźwiękowych utworzonych za pomocą narzędzia AI
  • Inne funkcje tego narzędzia do generowania ścieżki dźwiękowej
  • Porównanie z innymi narzędziami AI dostępnymi w branży