El equipo FAIR de Meta lanza modelos de inteligencia artificial para la generación de imagen a texto y de texto a música

El equipo de Investigación Fundamental de IA (FAIR) de Meta ha lanzado recientemente cinco nuevos modelos de investigación de inteligencia artificial (IA) . Estos modelos tienen una amplia gama de aplicaciones, incluida la generación de imagen a texto y de texto a música, así como una finalización de código mejorada y detección de voz generada por IA.

Modelo Camaleón: Generación de Imágenes y Texto

Uno de los modelos lanzados a destacar es Chameleon, una familia de modelos multimodales capaces de generar tanto imágenes como texto.

A diferencia de los modelos tradicionales que se centran en resultados unimodales, Chameleon puede procesar entradas que consisten en texto e imágenes y generar una combinación de texto e imágenes como salida. Esta capacidad abre nuevas posibilidades, como generar subtítulos creativos para imágenes o usar mensajes de texto e imágenes para crear escenas completamente nuevas.

Modelo de predicción de múltiples tokens

El equipo FAIR de Meta también ha logrado avances significativos en los modelos de finalización de código al introducir un nuevo enfoque llamado predicción de múltiples tokens. A diferencia del enfoque anterior de una palabra a la vez, este nuevo método entrena modelos de lenguaje para predecir múltiples palabras futuras simultáneamente, lo que ayuda a entrenar modelos de IA para predecir palabras más rápido.

JASCO: Generación de música con IA

El tercer modelo lanzado por el equipo FAIR de Meta es JASCO, que ofrece un control mejorado sobre la generación de música con IA. A diferencia de los modelos existentes de conversión de texto a música que se basan únicamente en entradas de texto, JASCO puede aceptar varias entradas, incluidos acordes y ritmos, lo que permite una mayor versatilidad y creatividad a la hora de generar música.

AudioSeal: localización de voz generada por IA

AudioSeal es un sistema innovador que puede incorporar marcas de agua en clips de audio generados por IA. Esta técnica permite la detección precisa de segmentos generados por IA dentro de fragmentos de audio más largos, lo que proporciona una herramienta valiosa para identificar información errónea y estafas.

Mejora de la diversidad en modelos de texto a imagen

Para garantizar que los modelos de texto a imagen reflejen la diversidad geográfica y cultural del mundo, el equipo FAIR de Meta ha desarrollado indicadores automáticos para evaluar posibles disparidades geográficas en estos modelos.

Al realizar un estudio de anotaciones a gran escala y recopilar una amplia retroalimentación, Meta tiene como objetivo mejorar las evaluaciones de los modelos de texto a imagen y promover la diversidad en las imágenes generadas por IA.

La publicación de códigos y anotaciones de evaluación de disparidades geográficas permitirá a los investigadores mejorar la representación y la inclusión de sus modelos generativos.

Los esfuerzos de Meta invertidos en el desarrollo de la IA

El compromiso de Meta con el desarrollo de la IA es evidente en sus sustanciales gastos de capital en IA y en la división de desarrollo de metaverso Reality Labs.

Con gastos proyectados que alcanzarán entre $ 35 mil millones y $ 40 mil millones[1] para fines de 2024, Meta tiene como objetivo construir varios servicios y plataformas de inteligencia artificial, incluidos asistentes de inteligencia artificial, aplicaciones de realidad aumentada e inteligencia artificial empresarial.

"Estamos creando una serie de servicios de IA diferentes, desde nuestro asistente de IA hasta aplicaciones y gafas de realidad aumentada, pasando por API [interfaces de programación de aplicaciones] que ayudan a los creadores a involucrarse con sus comunidades y con las que los fanáticos pueden interactuar, hasta IA comerciales que creemos que cada las empresas eventualmente utilizarán nuestra plataforma”, destacó el CEO de Meta , Mark Zuckerberg .