Google DeepMind, Video Müziği Oluşturma için Yenilikçi Yapay Zeka Aracını Tanıtıyor

Google DeepMind, video müzikleri oluşturmak için yenilikçi bir yapay zeka aracı tanıttı. Bu gelişmiş araç, büyüleyici ve özelleştirilmiş müzikler oluşturmak için hem metin istemlerini hem de videonun içeriğini birleştirir ve ayrıca kullanıcıların istenen ses öğelerini açıklamak için sağlayabileceği isteğe bağlı bir metin istemi de vardır.

Kullanıcılar artık bu iki unsuru birleştirerek "drama müziği, gerçekçi ses efektleri veya videonun karakterleri ve tonuyla eşleşen diyaloglar" içeren sahneler üretebiliyor.

AI Aracı Kullanılarak Oluşturulan Film Müziği Örnekleri

DeepMind'ın yapay zeka aracının yeteneklerini göstermek için şirketin web sitesinde çeşitli örnekler sergilendi.

Bir örnekte, bir siberpunk şehrinde ilerleyen bir arabayı gösteren bir video, "arabaların kayması", "araba motorunun kısılması" ve "melek elektronik müziği" gibi ifadeler içeren bir metin istemiyle eşleştirildi. Oluşturulan ses, otomobilin hareketleriyle mükemmel bir şekilde senkronize olarak heyecan verici bir deneyim yarattı.

Başka bir örnekte, "su altında titreşen denizanası", "deniz yaşamı" ve "okyanus" gibi terimleri içeren bir bilgi istemi, sürükleyici bir su altı ses manzarası oluşturdu.

Bu Film Müziği Oluşturma Aracının Diğer Özellikleri

Araç, videolar için bağımsız olarak sınırsız sayıda film müziği oluşturabilir. Bu çok yönlülük, onu piyasadaki diğer yapay zeka araçlarından farklı kılıyor.

Ses seçeneklerindeki bu çeşitlilik, kullanıcıların videoları için çok çeşitli olasılıkları keşfetmesine olanak tanır. Titiz ses senkronizasyonu ihtiyacını ortadan kaldırarak kullanıcılara sonsuz yaratıcı fırsatlar sunar.

DeepMind, yapay zeka aracının video, ses ve açıklamalar üzerine eğitildiğini ve "sesle ilgili ayrıntılı açıklamalar ve konuşulan diyalogların transkriptlerini" içerdiğini iddia ediyor. Bu kapsamlı eğitim, videodan sese oluşturucunun sesi görsel senaryolara uygun şekilde mükemmel şekilde bağlamasını sağlar.

DeepMind, videodan sese dönüştürme işleminde dudak hareketlerini diyalogla senkronize etmenin zorluğunu kabul ediyor. Şirket, görsel ve işitsel öğeler arasında kesintisiz senkronizasyon sağlamayı hedefleyerek aracın bu yönünü geliştirmek için aktif olarak çalışıyor.

Giriş videosunun kalitesi ses çıkışını önemli ölçüde etkileyebilir. DeepMind'a göre grenli veya bozuk görüntüler, ses kalitesinde önemli bir düşüşe neden olabilir. Optimum ses senkronizasyonu ve aslına uygunluğu sağlamak için kullanıcıların yüksek kaliteli videolar sağlamaları teşvik edilir.

Sektördeki Diğer Yapay Zeka Araçlarıyla Karşılaştırma

DeepMind'ın video müziği yapay zeka aracı, ElevenLabs'ın ses efektleri oluşturucusu gibi sektördeki diğerlerinden farklılaşıyor.

ElevenLabs yalnızca metin komutlarına güvenirken, DeepMind'ın aracı video piksellerini ve metin komutlarını birleştirerek kullanıcılara daha kapsamlı ve sürükleyici bir ses deneyimi sunuyor.

DeepMind'ın AI aracı, Veo ve Sora gibi diğer AI tarafından oluşturulan video araçlarıyla işbirliklerini geliştirme potansiyeline sahiptir. Bu platformlar, senkronize sesi video oluşturma yeteneklerine dahil etmek için DeepMind'in aracını kullanarak daha uyumlu ve sürükleyici bir multimedya deneyimi sağlayabilir.

Google DeepMind, şeffaflık ve tanıma amacıyla yapay zeka tarafından oluşturulan ses çıkışına bir SynthID filigranı içerir. Bu filigran, sesin yapay zeka teknolojisi kullanılarak oluşturulduğunu gösteren bir bayrak görevi görür.