Equipe FAIR da Meta lança modelos de IA para geração de imagem para texto e texto para música

A equipe Fundamental AI Research (FAIR) da Meta lançou recentemente cinco novos modelos de pesquisa de inteligência artificial (IA) . Esses modelos têm aplicações amplas, incluindo geração de imagem para texto e texto para música, bem como preenchimento de código aprimorado e detecção de fala gerada por IA.

Modelo Camaleão: Geração de Imagens e Texto

Um dos modelos destacados lançados é o Chameleon, uma família de modelos mistos capazes de gerar imagens e texto.

Ao contrário dos modelos tradicionais que se concentram em resultados unimodais, o Chameleon pode processar entradas que consistem em texto e imagens e gerar uma combinação de texto e imagens como saída. Esse recurso abre novas possibilidades, como a geração de legendas criativas para imagens ou o uso de prompts de texto e imagens para criar cenas totalmente novas.

Modelo de previsão multitoken

A equipe FAIR da Meta também fez avanços significativos nos modelos de conclusão de código, introduzindo uma nova abordagem chamada previsão de vários tokens. Ao contrário da abordagem anterior de uma palavra por vez, este novo método treina modelos de linguagem para prever múltiplas palavras futuras simultaneamente, o que ajuda a treinar modelos de IA para prever palavras com mais rapidez.

JASCO: geração musical de IA

O terceiro modelo lançado pela equipe FAIR da Meta é o JASCO, que oferece controle aprimorado sobre a geração de música por IA. Ao contrário dos modelos existentes de conversão de texto em música que dependem exclusivamente de entradas de texto, o JASCO pode aceitar várias entradas, incluindo acordes e batidas, permitindo mais versatilidade e criatividade na geração de música.

AudioSeal: localizando fala gerada por IA

AudioSeal é um sistema inovador que pode incorporar marcas d'água em clipes de áudio gerados por IA. Essa técnica permite a detecção precisa de segmentos gerados por IA em trechos de áudio mais longos, fornecendo uma ferramenta valiosa para identificar desinformação e fraudes.

Aprimoramento da diversidade em modelos de texto para imagem

Para garantir que os modelos de texto para imagem reflitam a diversidade geográfica e cultural do mundo, a equipe FAIR da Meta desenvolveu indicadores automáticos para avaliar potenciais disparidades geográficas nestes modelos.

Ao conduzir um estudo de anotação em grande escala e coletar feedback extenso, o Meta visa melhorar as avaliações de modelos de texto para imagem e promover a diversidade em imagens geradas por IA.

A publicação de códigos e anotações de avaliação de disparidades geográficas permitirá aos investigadores melhorar a representação e a inclusão dos seus modelos generativos.

Esforços da Meta investidos no desenvolvimento de IA

O compromisso da Meta com o desenvolvimento da IA é evidente em seus investimentos substanciais em IA e na divisão de desenvolvimento do metaverso, Reality Labs.

Com despesas projetadas para atingir entre US$ 35 bilhões e US$ 40 bilhões[1] até o final de 2024, a Meta pretende construir vários serviços e plataformas de IA, incluindo assistentes de IA, aplicativos de realidade aumentada e IAs empresariais.

“Estamos construindo uma série de serviços de IA diferentes, desde nosso assistente de IA até aplicativos e óculos de realidade aumentada, até APIs [interfaces de programação de aplicativos] que ajudam os criadores a envolver suas comunidades e com as quais os fãs podem interagir, até IAs de negócios que acreditamos que todos os negócios eventualmente usarão em nossa plataforma”, destacado pelo CEO da Meta , Mark Zuckerberg .