Google DeepMind hat ein innovatives KI-Tool zur Generierung von Video-Soundtracks vorgestellt. Dieses fortschrittliche Tool integriert sowohl Textaufforderungen als auch den Inhalt des Videos selbst, um fesselnde und maßgeschneiderte Soundtracks zu erstellen. Außerdem gibt es eine optionale Textaufforderung, mit der Benutzer die gewünschten Audioelemente beschreiben können.
Durch die Kombination dieser beiden Elemente können Benutzer jetzt Szenen mit „einer Dramamusik, realistischen Soundeffekten oder Dialogen erstellen, die zu den Charakteren und dem Ton eines Videos passen“.
Beispiele für mit dem KI-Tool erstellte Soundtracks
Um die Fähigkeiten des KI-Tools von DeepMind zu veranschaulichen, wurden auf der Website des Unternehmens mehrere Beispiele präsentiert.
In einem Fall wurde ein Video, in dem ein Auto durch eine Cyberpunk-Stadt fuhr, mit einem Textaufruf gepaart, der Ausdrücke wie „Autos schleudern“, „Motordrosseln“ und „engelsgleiche elektronische Musik“ enthielt. Der generierte Ton war perfekt mit den Bewegungen des Autos synchronisiert und sorgte für ein aufregendes Erlebnis.
In einem anderen Beispiel erzeugte eine Eingabeaufforderung mit Begriffen wie „unter Wasser pulsierende Quallen“, „Meereslebewesen“ und „Ozean“ eine immersive Unterwasser-Klanglandschaft.
Weitere Funktionen dieses Soundtrack-Generierungstools
Das Tool kann autonom eine unbegrenzte Anzahl von Soundtracks für Videos generieren. Diese Vielseitigkeit hebt es von anderen KI-Tools auf dem Markt ab.
Diese Vielfalt an Audiooptionen ermöglicht es Benutzern, eine breite Palette an Möglichkeiten für ihre Videos zu erkunden. Eine sorgfältige Audiosynchronisierung ist nicht mehr erforderlich, sodass Benutzern endlose kreative Möglichkeiten geboten werden.
DeepMind behauptet, dass sein KI-Tool anhand von Video, Audio und Anmerkungen mit „detaillierten Beschreibungen von Ton und Transkripten gesprochener Dialoge“ trainiert wird. Dieses umfassende Training ermöglicht es dem Video-zu-Audio-Generator, das Audio entsprechend perfekt mit visuellen Szenarien zu verknüpfen.
DeepMind ist sich der Herausforderung bewusst, Lippenbewegungen mit Dialogen bei der Video-zu-Audio-Generierung zu synchronisieren. Das Unternehmen arbeitet aktiv an der Verbesserung dieses Aspekts des Tools mit dem Ziel, eine nahtlose Synchronisierung zwischen visuellen und akustischen Elementen zu erreichen.
Die Qualität des Eingangsvideos kann die Audioausgabe erheblich beeinträchtigen. Körniges oder verzerrtes Filmmaterial kann laut DeepMind zu einer erheblichen Verschlechterung der Audioqualität führen. Benutzer werden aufgefordert, qualitativ hochwertige Videos bereitzustellen, um eine optimale Audiosynchronisierung und Wiedergabetreue zu gewährleisten.
Vergleich mit anderen KI-Tools in der Branche
Das KI-Tool für Videosoundtracks von DeepMind unterscheidet sich von anderen in der Branche, beispielsweise dem Soundeffekt-Generator von ElevenLabs.
Während ElevenLabs ausschließlich auf Textaufforderungen setzt, kombiniert das Tool von DeepMind Videopixel und Textaufforderungen und bietet Benutzern so ein umfassenderes und intensiveres Audioerlebnis.
Das KI-Tool von DeepMind hat das Potenzial, die Zusammenarbeit mit anderen KI-generierten Videotools wie Veo und Sora zu verbessern. Diese Plattformen können das Tool von DeepMind nutzen, um synchronisiertes Audio in ihre Videogenerierungsfunktionen einzubetten und so ein einheitlicheres und umfassenderes Multimedia-Erlebnis zu bieten.
Google DeepMind fügt der KI-generierten Audioausgabe aus Transparenz- und Wiedererkennungsgründen ein SynthID-Wasserzeichen hinzu. Dieses Wasserzeichen dient als Flagge und zeigt an, dass das Audio mithilfe von KI-Technologie generiert wurde.