Google DeepMind, 비디오 사운드트랙 생성을 위한 혁신적인 AI 도구 출시

Google DeepMind는 비디오 사운드트랙을 생성하기 위한 혁신적인 AI 도구를 도입했습니다. 이 고급 도구는 텍스트 프롬프트와 비디오 자체의 콘텐츠를 모두 통합하여 매력적이고 맞춤화된 사운드트랙을 생성하며, 사용자가 원하는 오디오 요소를 설명하기 위해 제공할 수 있는 선택적 텍스트 프롬프트도 있습니다.

이 두 가지 요소를 결합함으로써 사용자는 이제 “영상의 캐릭터와 톤에 맞는 드라마 음악, 사실적인 음향 효과 또는 대화”가 포함된 장면을 제작할 수 있습니다.

AI 도구를 사용하여 만든 사운드트랙의 예

DeepMind AI 도구의 기능을 설명하기 위해 회사 웹사이트에 몇 가지 예가 소개되었습니다.

한 예로, 사이버펑크 도시를 주행하는 자동차를 담은 비디오는 "자동차 미끄러짐", "자동차 엔진 조절", "천사의 전자 음악"과 같은 문구가 포함된 텍스트 프롬프트와 짝을 이루었습니다. 생성된 오디오는 자동차의 움직임과 완벽하게 동기화되어 짜릿한 경험을 선사합니다.

또 다른 예에서는 "수 중에서 맥동하는 해파리", "해양 생물", "바다"와 같은 용어를 포함하는 프롬프트를 사용하여 몰입감 넘치는 수중 사운드스케이프를 생성했습니다.

이 사운드트랙 생성 도구의 다른 기능

이 도구는 비디오용 사운드트랙을 무제한으로 자동 생성할 수 있습니다. 이러한 다재다능함은 시장의 다른 AI 도구보다 돋보입니다.

오디오 옵션의 이러한 변형을 통해 사용자는 비디오에 대한 다양한 가능성을 탐색할 수 있습니다. 세심한 오디오 동기화가 필요하지 않으므로 사용자에게 무한한 창의적 기회를 제공합니다.

DeepMind는 자사의 AI 도구가 "소리에 대한 자세한 설명 및 음성 대화 내용"을 통해 비디오, 오디오 및 주석에 대해 교육을 받았다고 주장합니다. 이 포괄적인 교육을 통해 비디오-오디오 생성기는 오디오와 시각적 시나리오를 완벽하게 연결할 수 있습니다.

DeepMind는 비디오-오디오 생성에서 입술 움직임을 대화와 동기화하는 과제를 인정합니다. 회사는 시각 요소와 청각 요소 간의 원활한 동기화를 목표로 도구의 이러한 측면을 향상시키기 위해 적극적으로 노력하고 있습니다.

입력 비디오의 품질은 오디오 출력에 큰 영향을 미칠 수 있습니다. DeepMind에 따르면 영상이 거칠거나 왜곡되면 오디오 품질이 크게 저하될 수 있습니다. 사용자는 최적의 오디오 동기화 및 충실도를 보장하기 위해 고품질 비디오를 제공하는 것이 좋습니다.

업계의 다른 AI 도구와의 비교

DeepMind의 비디오 사운드트랙 AI 도구는 ElevenLabs의 사운드 효과 생성기와 같은 업계의 다른 도구와 차별화됩니다.

ElevenLabs는 텍스트 프롬프트에만 의존하는 반면 DeepMind의 도구는 비디오 픽셀과 텍스트 프롬프트를 결합하여 사용자에게 보다 포괄적이고 몰입감 있는 오디오 경험을 제공합니다.

DeepMind의 AI 도구는 Veo 및 Sora와 같은 다른 AI 생성 비디오 도구와의 협업을 향상시킬 수 있는 잠재력을 가지고 있습니다. 이러한 플랫폼은 DeepMind의 도구를 활용하여 동기화된 오디오를 비디오 생성 기능에 포함시켜 보다 응집력 있고 몰입감 있는 멀티미디어 경험을 제공할 수 있습니다.

Google DeepMind에는 투명성과 인식 목적을 위해 AI 생성 오디오 출력에 SynthID 워터마크가 포함되어 있습니다. 이 워터마크는 오디오가 AI 기술을 사용하여 생성되었음을 나타내는 플래그 역할을 합니다.