Команда Meta's FAIR выпускает модели искусственного интеллекта для преобразования изображения в текст и преобразования текста в музыку

Команда Meta по фундаментальным исследованиям искусственного интеллекта (FAIR) недавно выпустила пять новых исследовательских моделей искусственного интеллекта (ИИ) . Эти модели имеют широкий спектр применения, включая генерацию изображения в текст и текст в музыку, а также улучшенное завершение кода и обнаружение речи, сгенерированной ИИ.

Модель «Хамелеон»: генерация изображений и текста

Одной из примечательных выпущенных моделей является Chameleon, семейство смешанно-модальных моделей, способных генерировать как изображения, так и текст.

В отличие от традиционных моделей, ориентированных на одномодальные результаты, Chameleon может обрабатывать входные данные, состоящие как из текста, так и из изображений, и генерировать на выходе комбинацию текста и изображений. Эта возможность открывает новые возможности, такие как создание креативных подписей к изображениям или использование текстовых подсказок и изображений для создания совершенно новых сцен.

Модель прогнозирования с несколькими токенами

Команда Meta из FAIR также добилась значительных успехов в моделях завершения кода, представив новый подход, называемый предсказанием нескольких токенов. В отличие от предыдущего подхода «по одному слову за раз», этот новый метод обучает языковые модели прогнозировать несколько будущих слов одновременно, что помогает обучать модели ИИ быстрее предсказывать слова.

JASCO: Генерация музыки с помощью искусственного интеллекта

Третья модель, выпущенная командой Meta FAIR, — это JASCO, которая предлагает улучшенный контроль над созданием музыки с помощью искусственного интеллекта. В отличие от существующих моделей преобразования текста в музыку, которые полагаются исключительно на ввод текста, JASCO может принимать различные входные данные, включая аккорды и доли, что обеспечивает большую универсальность и творческий подход при создании музыки.

AudioSeal: обнаружение речи, сгенерированной искусственным интеллектом

AudioSeal — это новаторская система, которая может вставлять водяные знаки в аудиоклипы, созданные искусственным интеллектом. Этот метод позволяет точно обнаруживать сегменты, созданные ИИ, в более длинных аудиофрагментах, предоставляя ценный инструмент для выявления дезинформации и мошенничества.

Повышение разнообразия в моделях преобразования текста в изображение

Чтобы модели преобразования текста в изображения отражали географическое и культурное разнообразие мира, команда Meta's FAIR разработала автоматические индикаторы для оценки потенциальных географических различий в этих моделях.

Проведя крупномасштабное исследование аннотаций и собрав обширную обратную связь, Meta стремится улучшить оценку моделей преобразования текста в изображение и способствовать разнообразию изображений, генерируемых ИИ.

Выпуск кодов и аннотаций для оценки географических различий позволит исследователям улучшить представление и инклюзивность своих генеративных моделей.

Усилия Meta вложены в разработку искусственного интеллекта

Приверженность Meta развитию ИИ очевидна в ее значительных капитальных затратах на ИИ и подразделение Reality Labs, занимающееся разработкой метавселенной.

По прогнозам, к концу 2024 года расходы составят от 35 до 40 миллиардов долларов[1]. Meta стремится создать различные сервисы и платформы искусственного интеллекта, включая помощников искусственного интеллекта, приложения дополненной реальности и бизнес-ИИ.

«Мы создаем ряд различных ИИ-сервисов: от нашего ИИ-помощника до приложений и очков дополненной реальности, до API [интерфейсов прикладного программирования], которые помогают создателям вовлекать свои сообщества и с которыми фанаты могут взаимодействовать, до бизнес-ИИ, о которых, как мы думаем, каждый бизнес в конечном итоге будет использовать нашу платформу», — подчеркнул генеральный директор Meta Марк Цукерберг .

Команда Meta's FAIR выпускает модели искусственного интеллекта для преобразования изображения в текст и текста в музыку

Модель «Хамелеон»: генерация изображений и текста

Модель прогнозирования с несколькими токенами

JASCO: Генерация музыки с помощью искусственного интеллекта

Повышение разнообразия в моделях преобразования текста в изображение

Усилия Meta вложены в разработку искусственного интеллекта