Google DeepMind 推出用于视频配乐生成的创新 AI 工具

Google DeepMind 推出了一款用于生成视频配乐的创新型 AI 工具。这款先进的工具结合了文本提示和视频本身的内容，以创建引人入胜且量身定制的配乐，此外，用户还可以提供可选的文本提示来描述所需的音频元素。

通过结合这两个元素，用户现在可以制作具有“戏剧配乐、逼真的音效或与视频中的人物和基调相匹配的对话”的场景。

使用 AI 工具创建的配乐示例

为了说明 DeepMind 的 AI 工具的功能，该公司网站上展示了几个示例。

例如，一段视频展示了一辆汽车驶过一座赛博朋克城市，视频中还配有一段文字提示，其中包括“汽车打滑”、“汽车发动机节流”和“天使般的电子音乐”等短语。生成的音频与汽车的运动完美同步，创造了一种令人振奋的体验。

在另一个例子中，包含“水下脉动的水母”、“海洋生物”和“海洋”等术语的提示产生了身临其境的水下音景。

该工具可以自主为视频生成无限数量的配乐。这种多功能性使其在市场上的其他 AI 工具中脱颖而出。

音频选项的这种变化让用户可以探索视频的多种可能性。它消除了对细致的音频同步的需要，为用户提供了无尽的创意机会。

DeepMind 声称，其 AI 工具经过视频、音频和注释的训练，其中包含“声音的详细描述和口头对话的记录”。这种全面的训练使视频到音频生成器能够完美地将音频与视觉场景联系起来。

DeepMind 承认，在其视频转音频生成中，将嘴唇动作与对话同步是一项挑战。该公司正积极致力于增强该工具的这一功能，旨在实现视觉和听觉元素之间的无缝同步。

输入视频的质量会显著影响音频输出。DeepMind 表示，模糊或扭曲的画面可能会导致音频质量显著下降。我们鼓励用户提供高质量的视频，以确保最佳的音频同步和保真度。

DeepMind 的视频配乐 AI 工具与业内其他工具（例如 ElevenLabs 的音效生成器）区别开来。

ElevenLabs 完全依赖文本提示，而 DeepMind 的工具则结合了视频像素和文本提示，为用户提供更全面、更身临其境的音频体验。

DeepMind 的 AI 工具有潜力增强与其他 AI 生成视频工具（如 Veo 和 Sora）的协作。这些平台可以利用 DeepMind 的工具将同步音频嵌入到其视频生成功能中，从而提供更具凝聚力和沉浸感的多媒体体验。

Google DeepMind 在 AI 生成的音频输出中包含 SynthID 水印，以提高透明度和识别度。此水印可充当标志，表明音频是使用 AI 技术生成的。