Google DeepMind wprowadza innowacyjne narzędzie AI do generowania ścieżki dźwiękowej wideo

Google DeepMind wprowadził innowacyjne narzędzie AI do generowania ścieżek dźwiękowych wideo. To zaawansowane narzędzie zawiera zarówno podpowiedzi tekstowe, jak i treść samego filmu, tworząc wciągające i dostosowane ścieżki dźwiękowe. Dostępny jest także opcjonalny komunikat tekstowy, który użytkownicy mogą udostępnić w celu opisania żądanych elementów audio.

Łącząc te dwa elementy, użytkownicy mogą teraz tworzyć sceny z „partyturą dramatyczną, realistycznymi efektami dźwiękowymi lub dialogami pasującymi do postaci i tonu filmu”.

Przykłady ścieżek dźwiękowych utworzonych za pomocą narzędzia AI

Aby zobrazować możliwości narzędzia AI firmy DeepMind, na stronie internetowej firmy zaprezentowano kilka przykładów.

W jednym przypadku film przedstawiający samochód jadący przez cyberpunkowe miasto został połączony z komunikatem tekstowym zawierającym takie wyrażenia, jak „poślizg samochodu”, „dławienie silnika samochodu” czy „anielska muzyka elektroniczna”. Wygenerowany dźwięk idealnie zsynchronizował się z ruchami samochodu, tworząc ekscytujące wrażenia.

W innym przykładzie zachęta zawierająca terminy takie jak „meduza pulsująca pod wodą”, „życie morskie” i „ocean” stworzyła wciągający podwodny krajobraz dźwiękowy.

Inne funkcje tego narzędzia do generowania ścieżki dźwiękowej

Narzędzie może samodzielnie generować nieograniczoną liczbę ścieżek dźwiękowych do filmów. Ta wszechstronność wyróżnia go spośród innych narzędzi AI dostępnych na rynku.

Ta różnorodność opcji audio pozwala użytkownikom odkrywać szeroką gamę możliwości dla swoich filmów. Eliminuje potrzebę skrupulatnej synchronizacji dźwięku, oferując użytkownikom nieograniczone możliwości twórcze.

DeepMind twierdzi, że jego narzędzie AI jest przeszkolone w zakresie wideo, audio i adnotacji zawierających „szczegółowe opisy dźwięków i transkrypcje mówionych dialogów”. Dzięki temu kompleksowemu szkoleniu generator wideo-audio doskonale łączy scenariusze audio ze scenariuszami wizualnymi.

DeepMind zdaje sobie sprawę z wyzwania, jakie stanowi synchronizacja ruchów warg z dialogiem podczas generowania sygnału wideo na audio. Firma aktywnie pracuje nad udoskonaleniem tego aspektu narzędzia, mając na celu osiągnięcie płynnej synchronizacji elementów wizualnych i słuchowych.

Jakość wejściowego wideo może znacząco wpłynąć na wyjście audio. Według DeepMind ziarnisty lub zniekształcony materiał może spowodować znaczny spadek jakości dźwięku. Zachęcamy użytkowników do dostarczania filmów wideo wysokiej jakości, aby zapewnić optymalną synchronizację i wierność dźwięku.

Porównanie z innymi narzędziami AI dostępnymi w branży

Narzędzie AI do ścieżki dźwiękowej wideo DeepMind wyróżnia się na tle innych w branży, takich jak generator efektów dźwiękowych ElevenLabs.

Podczas gdy ElevenLabs opiera się wyłącznie na podpowiedziach tekstowych, narzędzie DeepMind łączy piksele wideo i podpowiedzi tekstowe, oferując użytkownikom bardziej wszechstronne i wciągające wrażenia dźwiękowe.

Narzędzie AI DeepMind może usprawnić współpracę z innymi narzędziami wideo generowanymi przez sztuczną inteligencję, takimi jak Veo i Sora. Platformy te mogą wykorzystywać narzędzie DeepMind do osadzania zsynchronizowanego dźwięku w możliwościach generowania wideo, zapewniając bardziej spójne i wciągające wrażenia multimedialne.

Google DeepMind dołącza znak wodny SynthID do wyjścia audio generowanego przez sztuczną inteligencję w celu zapewnienia przejrzystości i rozpoznawania. Ten znak wodny służy jako flaga wskazująca, że dźwięk został wygenerowany przy użyciu technologii AI.