ホーム > 発見する > Google DeepMind、ビデオサウンドトラック生成のための革新的なAIツールを発表

Google DeepMind、ビデオサウンドトラック生成のための革新的なAIツールを発表

によって書かれた
ArticleGPT

HIX.AI チーム によるレビューと事実確認済み

6分で読むJun 21, 2024
Google DeepMind、ビデオサウンドトラック生成のための革新的なAIツールを発表

一言で言えば

Google DeepMind は、テキストプロンプトとビデオの内容の両方を考慮してビデオのサウンドトラックを作成する新しい AI ツールを発表しました。

Google DeepMind は、ビデオのサウンドトラックを生成するための革新的な AI ツールを導入しました。この高度なツールは、テキスト プロンプトとビデオ自体のコンテンツの両方を組み込んで、魅力的でカスタマイズされたサウンドトラックを作成します。また、ユーザーが希望するオーディオ要素を説明するために提供できるオプションのテキスト プロンプトもあります。

これら 2 つの要素を組み合わせることで、ユーザーは「ドラマ音楽、リアルなサウンド効果、またはビデオのキャラクターやトーンに合ったセリフ」のあるシーンを制作できるようになりました。

AIツールを使用して作成されたサウンドトラックの例

DeepMind の AI ツールの機能を説明するために、同社の Web サイトでいくつかの例が紹介されています。

ある例では、サイバーパンクな街を走る車が登場するビデオに、「車が横滑りする」、「車のエンジンがスロットルを回す」、「天使のような電子音楽」などのフレーズを含むテキストプロンプトが組み合わされました。生成されたオーディオは車の動きと完全に同期し、爽快な体験を生み出しました。

別の例では、「水中で脈打つクラゲ」、「海洋生物」、「海」などの用語を含むプロンプトにより、臨場感あふれる水中のサウンドスケープが生成されました。

このサウンドトラック生成ツールのその他の機能

このツールは、ビデオ用のサウンドトラックを無制限に自動生成できます。この汎用性により、このツールは市場の他の AI ツールよりも優れています。

オーディオ オプションの多様性により、ユーザーはビデオの幅広い可能性を探求できます。細心の注意を払ってオーディオを同期させる必要がなくなり、ユーザーに無限の創造的機会が提供されます。

DeepMind は、同社の AI ツールはビデオ、オーディオ、および「音声の詳細な説明と会話の書き起こし」による注釈でトレーニングされていると主張しています。この包括的なトレーニングにより、ビデオからオーディオへのジェネレーターは、オーディオと視覚的なシナリオを完璧にリンクできるようになります。

DeepMind は、ビデオからオーディオへの生成において、唇の動きと会話を同期させることが課題であることを認識しています。同社は、視覚要素と聴覚要素のシームレスな同期を実現することを目指して、ツールのこの側面を強化することに積極的に取り組んでいます。

入力ビデオの品質は、オーディオ出力に大きく影響する可能性があります。DeepMind によると、粗い映像や歪んだ映像は、オーディオ品質の大幅な低下につながる可能性があります。最適なオーディオ同期と忠実度を確保するために、ユーザーは高品質のビデオを提供することが推奨されます。

業界の他のAIツールとの比較

DeepMind のビデオ サウンドトラック AI ツールは、ElevenLabs のサウンド エフェクト ジェネレーターなど、業界の他のツールとは一線を画しています。

ElevenLabs はテキストプロンプトのみに依存していますが、DeepMind のツールはビデオピクセルとテキストプロンプトを組み合わせて、より包括的で没入感のあるオーディオ体験をユーザーに提供します。

DeepMind の AI ツールは、Veo や Sora などの他の AI 生成ビデオ ツールとの連携を強化する可能性があります。これらのプラットフォームは、DeepMind のツールを使用して、同期されたオーディオをビデオ生成機能に埋め込み、よりまとまりのある没入感のあるマルチメディア エクスペリエンスを提供できます。

Google DeepMind は、透明性と認識を目的として、AI 生成オーディオ出力に SynthID ウォーターマークを含めます。このウォーターマークは、オーディオが AI テクノロジーを使用して生成されたことを示すフラグとして機能します。

3 個の検索ソースに基づく

3 ソース

Google DeepMind’s new AI tool uses video pixels and text prompts to generate soundtracks

The new video-to-audio tool will automatically match sounds to the appropriate scenes.

Google DeepMind Unveils AI Tool That Uses Video Pixels and Text Prompts to Generate Soundtracks

Google DeepMind has unveiled a groundbreaking AI technology designed to generate customized video soundtracks. This innovative tool goes beyond text-prompt generation by taking into account the visual content of the video itself.

Google DeepMind unveils V2A, a new AI model that can generate soundtrack and dialogue for videos

Video generation models like Sora, Dream Machine, Veo and Kling are advancing at a rapid pace, allowing users to generate videos from text prompts. But, the majority of these systems are limited to silent videos.

このページについて

  • AIツールを使用して作成されたサウンドトラックの例
  • このサウンドトラック生成ツールのその他の機能
  • 業界の他のAIツールとの比較