Lar > Descobrir > Equipe FAIR da Meta lança modelos de IA para geração de imagem para texto e texto para música

Equipe FAIR da Meta lança modelos de IA para geração de imagem para texto e texto para música

Escrito por
ArticleGPT

Revisado e verificado pela Equipe HIX.AI

4 minutos de leitura8 days ago
Equipe FAIR da Meta lança modelos de IA para geração de imagem para texto e texto para música

Resumindo

A Meta revelou cinco novos modelos de pesquisa de IA, incluindo aqueles capazes de gerar texto e imagens e detectar fala gerada por IA em trechos de áudio maiores.

A equipe Fundamental AI Research (FAIR) da Meta lançou recentemente cinco novos modelos de pesquisa de inteligência artificial (IA) . Esses modelos têm aplicações amplas, incluindo geração de imagem para texto e texto para música, bem como preenchimento de código aprimorado e detecção de fala gerada por IA.

Modelo Camaleão: Geração de Imagens e Texto

Um dos modelos destacados lançados é o Chameleon, uma família de modelos mistos capazes de gerar imagens e texto.

Ao contrário dos modelos tradicionais que se concentram em resultados unimodais, o Chameleon pode processar entradas que consistem em texto e imagens e gerar uma combinação de texto e imagens como saída. Esse recurso abre novas possibilidades, como a geração de legendas criativas para imagens ou o uso de prompts de texto e imagens para criar cenas totalmente novas.

Modelo de previsão multitoken

A equipe FAIR da Meta também fez avanços significativos nos modelos de conclusão de código, introduzindo uma nova abordagem chamada previsão de vários tokens. Ao contrário da abordagem anterior de uma palavra por vez, este novo método treina modelos de linguagem para prever múltiplas palavras futuras simultaneamente, o que ajuda a treinar modelos de IA para prever palavras com mais rapidez.

JASCO: geração musical de IA

O terceiro modelo lançado pela equipe FAIR da Meta é o JASCO, que oferece controle aprimorado sobre a geração de música por IA. Ao contrário dos modelos existentes de conversão de texto em música que dependem exclusivamente de entradas de texto, o JASCO pode aceitar várias entradas, incluindo acordes e batidas, permitindo mais versatilidade e criatividade na geração de música.

AudioSeal: localizando fala gerada por IA

AudioSeal é um sistema inovador que pode incorporar marcas d'água em clipes de áudio gerados por IA. Essa técnica permite a detecção precisa de segmentos gerados por IA em trechos de áudio mais longos, fornecendo uma ferramenta valiosa para identificar desinformação e fraudes.

Aprimoramento da diversidade em modelos de texto para imagem

Para garantir que os modelos de texto para imagem reflitam a diversidade geográfica e cultural do mundo, a equipe FAIR da Meta desenvolveu indicadores automáticos para avaliar potenciais disparidades geográficas nestes modelos.

Ao conduzir um estudo de anotação em grande escala e coletar feedback extenso, o Meta visa melhorar as avaliações de modelos de texto para imagem e promover a diversidade em imagens geradas por IA.

A publicação de códigos e anotações de avaliação de disparidades geográficas permitirá aos investigadores melhorar a representação e a inclusão dos seus modelos generativos.

Esforços da Meta investidos no desenvolvimento de IA

O compromisso da Meta com o desenvolvimento da IA é evidente em seus investimentos substanciais em IA e na divisão de desenvolvimento do metaverso, Reality Labs.

Com despesas projetadas para atingir entre US$ 35 bilhões e US$ 40 bilhões[1] até o final de 2024, a Meta pretende construir vários serviços e plataformas de IA, incluindo assistentes de IA, aplicativos de realidade aumentada e IAs empresariais.

“Estamos construindo uma série de serviços de IA diferentes, desde nosso assistente de IA até aplicativos e óculos de realidade aumentada, até APIs [interfaces de programação de aplicativos] que ajudam os criadores a envolver suas comunidades e com as quais os fãs podem interagir, até IAs de negócios que acreditamos que todos os negócios eventualmente usarão em nossa plataforma”, destacado pelo CEO da Meta , Mark Zuckerberg .

Com base em 3 fontes de pesquisa

3 fontes

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

Nesta página

  • Modelo Camaleão: Geração de Imagens e Texto
  • Modelo de previsão multitoken
  • JASCO: geração musical de IA
  • Aprimoramento da diversidade em modelos de texto para imagem
  • Esforços da Meta investidos no desenvolvimento de IA