Google DeepMind 推出用於視訊配樂生成的創新人工智慧工具

Google DeepMind 推出了一種創新的人工智慧工具，用於產生視訊配樂。這種高級工具結合了文字提示和影片本身的內容，以創建迷人的客製化音軌，用戶還可以提供可選的文字提示來描述所需的音訊元素。

透過結合這兩個元素，使用者現在可以製作具有「與影片的角色和語氣相符的戲劇配樂、逼真的音效或對話」的場景。

使用 AI 工具創建的配樂範例

為了說明 DeepMind 人工智慧工具的功能，該公司網站上展示了幾個範例。

在一個例子中，一段視頻展示了一輛汽車駛過賽博朋克城市的視頻，並配有文字提示，其中包括“汽車打滑”、“汽車發動機節流”和“天使般的電子音樂”等短語。生成的音訊與汽車的運動完美同步，創造出令人興奮的體驗。

在另一個範例中，包含「水下脈動的水母」、「海洋生物」和「海洋」等術語的提示產生了身臨其境的水下音景。

該工具可以自動生成無限數量的視訊配樂。這種多功能性使其從市場上的其他人工智慧工具中脫穎而出。

音訊選項的這種變化使用戶能夠探索其視訊的各種可能性。它消除了細緻的音訊同步的需要，為用戶提供了無盡的創作機會。

DeepMind 聲稱其人工智慧工具接受了視訊、音訊和註釋的訓練，並具有「聲音的詳細描述和口語對話的文字記錄」。這種全面的訓練使視訊音訊產生器能夠將音訊與視覺場景完美地連結起來。

DeepMind 承認在視訊轉音訊產生過程中將嘴唇運動與對話同步是一項挑戰。該公司正在積極致力於增強該工具的這方面，旨在實現視覺和聽覺元素之間的無縫同步。

輸入視訊的品質會顯著影響音訊輸出。根據 DeepMind 的說法，顆粒狀或扭曲的鏡頭可能會導致音訊品質顯著下降。我們鼓勵用戶提供高品質的視頻，以確保最佳的音頻同步和保真度。

DeepMind 的影片配樂 AI 工具在業界其他工具中脫穎而出，例如 ElevenLabs 的音效產生器。

雖然 ElevenLabs 完全依賴文字提示，但 DeepMind 的工具結合了視訊像素和文字提示，為用戶提供了更全面、更身臨其境的音訊體驗。

DeepMind 的人工智慧工具有潛力增強與 Veo 和 Sora 等其他人工智慧生成視訊工具的協作。這些平台可以利用 DeepMind 的工具將同步音訊嵌入其視訊生成功能中，從而提供更具凝聚力和身臨其境的多媒體體驗。

Google DeepMind 在 AI 產生的音訊輸出中包含 SynthID 浮水印，以實現透明度和識別目的。該水印充當標誌，表明該音訊是使用 AI 技術生成的。