Команда Meta по фундаментальным исследованиям искусственного интеллекта (FAIR) недавно выпустила пять новых исследовательских моделей искусственного интеллекта (ИИ) . Эти модели имеют широкий спектр применения, включая генерацию изображения в текст и текст в музыку, а также улучшенное завершение кода и обнаружение речи, сгенерированной ИИ.
Модель «Хамелеон»: генерация изображений и текста
Одной из примечательных выпущенных моделей является Chameleon, семейство смешанно-модальных моделей, способных генерировать как изображения, так и текст.
В отличие от традиционных моделей, ориентированных на одномодальные результаты, Chameleon может обрабатывать входные данные, состоящие как из текста, так и из изображений, и генерировать на выходе комбинацию текста и изображений. Эта возможность открывает новые возможности, такие как создание креативных подписей к изображениям или использование текстовых подсказок и изображений для создания совершенно новых сцен.
Модель прогнозирования с несколькими токенами
Команда Meta из FAIR также добилась значительных успехов в моделях завершения кода, представив новый подход, называемый предсказанием нескольких токенов. В отличие от предыдущего подхода «по одному слову за раз», этот новый метод обучает языковые модели прогнозировать несколько будущих слов одновременно, что помогает обучать модели ИИ быстрее предсказывать слова.
JASCO: Генерация музыки с помощью искусственного интеллекта
Третья модель, выпущенная командой Meta FAIR, — это JASCO, которая предлагает улучшенный контроль над созданием музыки с помощью искусственного интеллекта. В отличие от существующих моделей преобразования текста в музыку, которые полагаются исключительно на ввод текста, JASCO может принимать различные входные данные, включая аккорды и доли, что обеспечивает большую универсальность и творческий подход при создании музыки.
AudioSeal: обнаружение речи, сгенерированной искусственным интеллектом
AudioSeal — это новаторская система, которая может вставлять водяные знаки в аудиоклипы, созданные искусственным интеллектом. Этот метод позволяет точно обнаруживать сегменты, созданные ИИ, в более длинных аудиофрагментах, предоставляя ценный инструмент для выявления дезинформации и мошенничества.
Повышение разнообразия в моделях преобразования текста в изображение
Чтобы модели преобразования текста в изображения отражали географическое и культурное разнообразие мира, команда Meta's FAIR разработала автоматические индикаторы для оценки потенциальных географических различий в этих моделях.
Проведя крупномасштабное исследование аннотаций и собрав обширную обратную связь, Meta стремится улучшить оценку моделей преобразования текста в изображение и способствовать разнообразию изображений, генерируемых ИИ.
Выпуск кодов и аннотаций для оценки географических различий позволит исследователям улучшить представление и инклюзивность своих генеративных моделей.
Усилия Meta вложены в разработку искусственного интеллекта
Приверженность Meta развитию ИИ очевидна в ее значительных капитальных затратах на ИИ и подразделение Reality Labs, занимающееся разработкой метавселенной.
По прогнозам, к концу 2024 года расходы составят от 35 до 40 миллиардов долларов[1]. Meta стремится создать различные сервисы и платформы искусственного интеллекта, включая помощников искусственного интеллекта, приложения дополненной реальности и бизнес-ИИ.
«Мы создаем ряд различных ИИ-сервисов: от нашего ИИ-помощника до приложений и очков дополненной реальности, до API [интерфейсов прикладного программирования], которые помогают создателям вовлекать свои сообщества и с которыми фанаты могут взаимодействовать, до бизнес-ИИ, о которых, как мы думаем, каждый бизнес в конечном итоге будет использовать нашу платформу», — подчеркнул генеральный директор Meta Марк Цукерберг .