Google DeepMind presenta un innovativo strumento di intelligenza artificiale per la generazione di colonne sonore video

Google DeepMind ha introdotto un innovativo strumento AI per generare colonne sonore video. Questo strumento avanzato incorpora sia istruzioni di testo che il contenuto del video stesso per creare colonne sonore accattivanti e su misura, e c'è anche un messaggio di testo opzionale che gli utenti possono fornire per descrivere gli elementi audio desiderati.

Combinando questi due elementi, gli utenti possono ora produrre scene con “una colonna sonora drammatica, effetti sonori realistici o dialoghi che si adattano ai personaggi e al tono di un video”.

Esempi di colonne sonore create utilizzando lo strumento AI

Per illustrare le capacità dello strumento AI di DeepMind, sul sito web dell'azienda sono stati presentati diversi esempi.

In un caso, un video in cui si vedeva un'auto che attraversava una città cyberpunk era abbinato a un messaggio di testo che includeva frasi come "auto che slittano", "motore che accelera" e "musica elettronica angelica". L'audio generato si sincronizzava perfettamente con i movimenti dell'auto, creando un'esperienza esilarante.

In un altro esempio, un messaggio che includeva termini come "meduse che pulsano sott'acqua", "vita marina" e "oceano" ha prodotto un paesaggio sonoro subacqueo coinvolgente.

Altre caratteristiche di questo strumento di generazione di colonne sonore

Lo strumento può generare autonomamente un numero illimitato di colonne sonore per i video. Questa versatilità lo distingue dagli altri strumenti di intelligenza artificiale sul mercato.

Questa variazione nelle opzioni audio consente agli utenti di esplorare un'ampia gamma di possibilità per i propri video. Elimina la necessità di una meticolosa sincronizzazione audio, offrendo agli utenti infinite opportunità creative.

DeepMind afferma che il suo strumento di intelligenza artificiale è addestrato su video, audio e annotazioni con "descrizioni dettagliate del suono e trascrizioni dei dialoghi parlati". Questa formazione completa consente al generatore di video-audio di collegare perfettamente l'audio con gli scenari visivi.

DeepMind riconosce la sfida di sincronizzare i movimenti delle labbra con il dialogo nella sua generazione da video ad audio. L'azienda sta lavorando attivamente per migliorare questo aspetto dello strumento, con l'obiettivo di ottenere una sincronizzazione perfetta tra gli elementi visivi e uditivi.

La qualità del video in ingresso può influenzare in modo significativo l'uscita audio. Filmati granulosi o distorti, secondo DeepMind, possono comportare una diminuzione significativa della qualità audio. Gli utenti sono incoraggiati a fornire video di alta qualità per garantire una sincronizzazione e una fedeltà audio ottimali.

Confronto con altri strumenti di intelligenza artificiale nel settore

Lo strumento AI per la colonna sonora video di DeepMind si distingue dagli altri del settore, come il generatore di effetti sonori di ElevenLabs.

Mentre ElevenLabs si basa esclusivamente su istruzioni di testo, lo strumento di DeepMind combina pixel video e istruzioni di testo, offrendo agli utenti un'esperienza audio più completa e coinvolgente.

Lo strumento AI di DeepMind ha il potenziale per migliorare le collaborazioni con altri strumenti video generati dall'intelligenza artificiale come Veo e Sora. Queste piattaforme possono utilizzare lo strumento di DeepMind per incorporare l'audio sincronizzato nelle loro capacità di generazione video, fornendo un'esperienza multimediale più coesa e coinvolgente.

Google DeepMind include una filigrana SynthID nell'output audio generato dall'intelligenza artificiale per scopi di trasparenza e riconoscimento. Questa filigrana funge da flag, indicando che l'audio è stato generato utilizzando la tecnologia AI.