Google DeepMind Memperkenalkan Alat AI Inovatif untuk Pembuatan Soundtrack Video

Google DeepMind telah memperkenalkan alat AI inovatif untuk menghasilkan soundtrack video. Alat canggih ini menggabungkan perintah teks dan konten video itu sendiri untuk membuat soundtrack yang menawan dan disesuaikan, dan ada juga perintah teks opsional yang dapat diberikan pengguna untuk mendeskripsikan elemen audio yang diinginkan.

Dengan menggabungkan kedua elemen tersebut, pengguna kini dapat menghasilkan adegan dengan “skor drama, efek suara realistis, atau dialog yang sesuai dengan karakter dan nada video”.

Contoh Soundtrack yang Dibuat Menggunakan Alat AI

Untuk mengilustrasikan kemampuan alat AI DeepMind, beberapa contoh telah dipamerkan di situs web perusahaan.

Dalam satu contoh, video yang menampilkan mobil melaju melalui kota cyberpunk dipasangkan dengan teks yang menyertakan frasa seperti "mobil tergelincir", "pelambatan mesin mobil", dan "musik elektronik yang indah". Audio yang dihasilkan tersinkronisasi sempurna dengan pergerakan mobil, menciptakan pengalaman yang menggembirakan.

Dalam contoh lain, perintah yang menyertakan istilah seperti "ubur-ubur berdenyut di bawah air", "kehidupan laut", dan "lautan" menghasilkan lanskap suara bawah air yang imersif.

Fitur Lain dari Alat Pembuatan Soundtrack ini

Alat ini dapat secara mandiri menghasilkan soundtrack dalam jumlah tak terbatas untuk video. Fleksibilitas ini membuatnya menonjol dari alat AI lainnya di pasar.

Variasi dalam opsi audio ini memungkinkan pengguna menjelajahi beragam kemungkinan untuk video mereka. Ini menghilangkan kebutuhan akan sinkronisasi audio yang cermat, menawarkan peluang kreatif tanpa akhir kepada pengguna.

DeepMind mengklaim bahwa alat AI-nya dilatih pada video, audio, dan anotasi dengan “deskripsi rinci tentang suara dan transkrip dialog lisan.” Pelatihan komprehensif ini memungkinkan generator video-ke-audio menghubungkan audio dengan skenario visual secara sempurna.

DeepMind menyadari tantangan dalam menyinkronkan gerakan bibir dengan dialog dalam generasi video-ke-audio. Perusahaan secara aktif berupaya menyempurnakan aspek alat ini, yang bertujuan untuk mencapai sinkronisasi yang mulus antara elemen visual dan pendengaran.

Kualitas video input dapat mempengaruhi output audio secara signifikan. Rekaman yang berbintik atau terdistorsi, menurut DeepMind, dapat mengakibatkan penurunan kualitas audio secara signifikan. Pengguna didorong untuk menyediakan video berkualitas tinggi untuk memastikan sinkronisasi dan fidelitas audio yang optimal.

Perbandingan dengan Alat AI Lainnya di Industri

Alat AI soundtrack video DeepMind membedakan dirinya dari alat lain di industri ini, seperti generator efek suara ElevenLabs.

Meskipun ElevenLabs hanya mengandalkan perintah teks, alat DeepMind menggabungkan piksel video dan perintah teks, menawarkan pengalaman audio yang lebih komprehensif dan mendalam kepada pengguna.

Alat AI DeepMind berpotensi meningkatkan kolaborasi dengan alat video lain yang dihasilkan AI seperti Veo dan Sora. Platform ini dapat memanfaatkan alat DeepMind untuk menyematkan audio tersinkronisasi ke dalam kemampuan pembuatan videonya, sehingga memberikan pengalaman multimedia yang lebih kohesif dan mendalam.

Google DeepMind menyertakan tanda air SynthID dalam keluaran audio yang dihasilkan AI untuk tujuan transparansi dan pengenalan. Tanda air ini berfungsi sebagai bendera yang menandakan bahwa audio tersebut dihasilkan menggunakan teknologi AI.