Google DeepMind、ビデオサウンドトラック生成のための革新的なAIツールを発表

Google DeepMind は、ビデオのサウンドトラックを生成するための革新的な AI ツールを導入しました。この高度なツールは、テキストプロンプトとビデオ自体のコンテンツの両方を組み込んで、魅力的でカスタマイズされたサウンドトラックを作成します。また、ユーザーが希望するオーディオ要素を説明するために提供できるオプションのテキストプロンプトもあります。

これら 2 つの要素を組み合わせることで、ユーザーは「ドラマ音楽、リアルなサウンド効果、またはビデオのキャラクターやトーンに合ったセリフ」のあるシーンを制作できるようになりました。

AIツールを使用して作成されたサウンドトラックの例

DeepMind の AI ツールの機能を説明するために、同社の Web サイトでいくつかの例が紹介されています。

ある例では、サイバーパンクな街を走る車が登場するビデオに、「車が横滑りする」、「車のエンジンがスロットルを回す」、「天使のような電子音楽」などのフレーズを含むテキストプロンプトが組み合わされました。生成されたオーディオは車の動きと完全に同期し、爽快な体験を生み出しました。

別の例では、「水中で脈打つクラゲ」、「海洋生物」、「海」などの用語を含むプロンプトにより、臨場感あふれる水中のサウンドスケープが生成されました。

このサウンドトラック生成ツールのその他の機能

このツールは、ビデオ用のサウンドトラックを無制限に自動生成できます。この汎用性により、このツールは市場の他の AI ツールよりも優れています。

オーディオオプションの多様性により、ユーザーはビデオの幅広い可能性を探求できます。細心の注意を払ってオーディオを同期させる必要がなくなり、ユーザーに無限の創造的機会が提供されます。

DeepMind は、同社の AI ツールはビデオ、オーディオ、および「音声の詳細な説明と会話の書き起こし」による注釈でトレーニングされていると主張しています。この包括的なトレーニングにより、ビデオからオーディオへのジェネレーターは、オーディオと視覚的なシナリオを完璧にリンクできるようになります。

DeepMind は、ビデオからオーディオへの生成において、唇の動きと会話を同期させることが課題であることを認識しています。同社は、視覚要素と聴覚要素のシームレスな同期を実現することを目指して、ツールのこの側面を強化することに積極的に取り組んでいます。

入力ビデオの品質は、オーディオ出力に大きく影響する可能性があります。DeepMind によると、粗い映像や歪んだ映像は、オーディオ品質の大幅な低下につながる可能性があります。最適なオーディオ同期と忠実度を確保するために、ユーザーは高品質のビデオを提供することが推奨されます。

業界の他のAIツールとの比較

DeepMind のビデオサウンドトラック AI ツールは、ElevenLabs のサウンドエフェクトジェネレーターなど、業界の他のツールとは一線を画しています。

ElevenLabs はテキストプロンプトのみに依存していますが、DeepMind のツールはビデオピクセルとテキストプロンプトを組み合わせて、より包括的で没入感のあるオーディオ体験をユーザーに提供します。

DeepMind の AI ツールは、Veo や Sora などの他の AI 生成ビデオツールとの連携を強化する可能性があります。これらのプラットフォームは、DeepMind のツールを使用して、同期されたオーディオをビデオ生成機能に埋め込み、よりまとまりのある没入感のあるマルチメディアエクスペリエンスを提供できます。

Google DeepMind は、透明性と認識を目的として、AI 生成オーディオ出力に SynthID ウォーターマークを含めます。このウォーターマークは、オーディオが AI テクノロジーを使用して生成されたことを示すフラグとして機能します。