L'équipe FAIR de Meta publie des modèles d'IA pour la génération d'image en texte et de texte en musique

L'équipe FAIR (Fundamental AI Research) de Meta a récemment publié cinq nouveaux modèles de recherche sur l'intelligence artificielle (IA) . Ces modèles ont des applications très diverses, notamment la génération d'images en texte et de texte en musique, ainsi qu'une complétion de code améliorée et une détection de la parole générée par l'IA.

Modèle caméléon : génération d'images et de texte

L'un des modèles remarquables publiés est Chameleon, une famille de modèles mixtes capables de générer à la fois des images et du texte.

Contrairement aux modèles traditionnels axés sur les résultats unimodaux, Chameleon peut traiter des entrées composées à la fois de texte et d'images et générer une combinaison de texte et d'images en sortie. Cette fonctionnalité ouvre de nouvelles possibilités, telles que la génération de légendes créatives pour les images ou l'utilisation d'invites textuelles et d'images pour créer des scènes entièrement nouvelles.

Modèle de prédiction multi-jetons

L'équipe FAIR de Meta a également réalisé des progrès significatifs dans les modèles de complétion de code en introduisant une nouvelle approche appelée prédiction multi-jetons. Contrairement à l’approche précédente, un mot à la fois, cette nouvelle méthode entraîne les modèles linguistiques à prédire simultanément plusieurs mots futurs, ce qui permet d’entraîner les modèles d’IA à prédire les mots plus rapidement.

JASCO : Génération de musique IA

Le troisième modèle publié par l'équipe FAIR de Meta est JASCO, qui offre un contrôle amélioré sur la génération de musique AI. Contrairement aux modèles de conversion texte-musique existants qui reposent uniquement sur des entrées de texte, JASCO peut accepter diverses entrées, notamment des accords et des rythmes, permettant ainsi plus de polyvalence et de créativité dans la génération de musique.

AudioSeal : localisation de la parole générée par l'IA

AudioSeal est un système révolutionnaire capable d'intégrer des filigranes dans des clips audio générés par l'IA. Cette technique permet la détection précise des segments générés par l’IA dans des extraits audio plus longs, fournissant ainsi un outil précieux pour identifier la désinformation et les escroqueries.

Amélioration de la diversité dans les modèles texte-image

Pour garantir que les modèles texte-image reflètent la diversité géographique et culturelle du monde, l'équipe FAIR de Meta a développé des indicateurs automatiques pour évaluer les disparités géographiques potentielles dans ces modèles.

En menant une étude d'annotation à grande échelle et en collectant de nombreux commentaires, Meta vise à améliorer les évaluations des modèles texte-image et à promouvoir la diversité des images générées par l'IA.

La publication de codes d’évaluation et d’annotations des disparités géographiques permettra aux chercheurs d’améliorer la représentation et l’inclusivité de leurs modèles génératifs.

Les efforts de Meta investis dans le développement de l'IA

L'engagement de Meta dans le développement de l'IA est évident dans ses dépenses en capital substantielles dans l'IA et dans la division de développement de métaverses Reality Labs.

Avec des dépenses qui devraient atteindre entre 35 et 40 milliards de dollars[1] d’ici fin 2024, Meta vise à créer divers services et plates-formes d’IA, notamment des assistants d’IA, des applications de réalité augmentée et des IA d’entreprise.

« Nous construisons un certain nombre de services d'IA différents, de notre assistant d'IA aux applications et lunettes de réalité augmentée, en passant par les API [interfaces de programmation d'applications] qui aident les créateurs à impliquer leurs communautés et avec lesquelles les fans peuvent interagir, jusqu'aux IA d'entreprise que nous pensons chaque jour. les entreprises utiliseront éventuellement notre plate-forme », a souligné le PDG de Meta , Mark Zuckerberg .