Дом > Обнаружить > Команда Meta's FAIR выпускает модели искусственного интеллекта для преобразования изображения в текст и текста в музыку

Команда Meta's FAIR выпускает модели искусственного интеллекта для преобразования изображения в текст и текста в музыку

Написано
ArticleGPT

Проверено и проверено командой HIX.AI

4 минуты чтения8 days ago
Команда Meta's FAIR выпускает модели искусственного интеллекта для преобразования изображения в текст и текста в музыку

В двух словах

Meta представила пять новых исследовательских моделей искусственного интеллекта, в том числе способных генерировать как текст, так и изображения, а также обнаруживать речь, сгенерированную искусственным интеллектом, в больших аудиофрагментах.

Команда Meta по фундаментальным исследованиям искусственного интеллекта (FAIR) недавно выпустила пять новых исследовательских моделей искусственного интеллекта (ИИ) . Эти модели имеют широкий спектр применения, включая генерацию изображения в текст и текст в музыку, а также улучшенное завершение кода и обнаружение речи, сгенерированной ИИ.

Модель «Хамелеон»: генерация изображений и текста

Одной из примечательных выпущенных моделей является Chameleon, семейство смешанно-модальных моделей, способных генерировать как изображения, так и текст.

В отличие от традиционных моделей, ориентированных на одномодальные результаты, Chameleon может обрабатывать входные данные, состоящие как из текста, так и из изображений, и генерировать на выходе комбинацию текста и изображений. Эта возможность открывает новые возможности, такие как создание креативных подписей к изображениям или использование текстовых подсказок и изображений для создания совершенно новых сцен.

Модель прогнозирования с несколькими токенами

Команда Meta из FAIR также добилась значительных успехов в моделях завершения кода, представив новый подход, называемый предсказанием нескольких токенов. В отличие от предыдущего подхода «по одному слову за раз», этот новый метод обучает языковые модели прогнозировать несколько будущих слов одновременно, что помогает обучать модели ИИ быстрее предсказывать слова.

JASCO: Генерация музыки с помощью искусственного интеллекта

Третья модель, выпущенная командой Meta FAIR, — это JASCO, которая предлагает улучшенный контроль над созданием музыки с помощью искусственного интеллекта. В отличие от существующих моделей преобразования текста в музыку, которые полагаются исключительно на ввод текста, JASCO может принимать различные входные данные, включая аккорды и доли, что обеспечивает большую универсальность и творческий подход при создании музыки.

AudioSeal: обнаружение речи, сгенерированной искусственным интеллектом

AudioSeal — это новаторская система, которая может вставлять водяные знаки в аудиоклипы, созданные искусственным интеллектом. Этот метод позволяет точно обнаруживать сегменты, созданные ИИ, в более длинных аудиофрагментах, предоставляя ценный инструмент для выявления дезинформации и мошенничества.

Повышение разнообразия в моделях преобразования текста в изображение

Чтобы модели преобразования текста в изображения отражали географическое и культурное разнообразие мира, команда Meta's FAIR разработала автоматические индикаторы для оценки потенциальных географических различий в этих моделях.

Проведя крупномасштабное исследование аннотаций и собрав обширную обратную связь, Meta стремится улучшить оценку моделей преобразования текста в изображение и способствовать разнообразию изображений, генерируемых ИИ.

Выпуск кодов и аннотаций для оценки географических различий позволит исследователям улучшить представление и инклюзивность своих генеративных моделей.

Усилия Meta вложены в разработку искусственного интеллекта

Приверженность Meta развитию ИИ очевидна в ее значительных капитальных затратах на ИИ и подразделение Reality Labs, занимающееся разработкой метавселенной.

По прогнозам, к концу 2024 года расходы составят от 35 до 40 миллиардов долларов[1]. Meta стремится создать различные сервисы и платформы искусственного интеллекта, включая помощников искусственного интеллекта, приложения дополненной реальности и бизнес-ИИ.

«Мы создаем ряд различных ИИ-сервисов: от нашего ИИ-помощника до приложений и очков дополненной реальности, до API [интерфейсов прикладного программирования], которые помогают создателям вовлекать свои сообщества и с которыми фанаты могут взаимодействовать, до бизнес-ИИ, о которых, как мы думаем, каждый бизнес в конечном итоге будет использовать нашу платформу», — подчеркнул генеральный директор Meta Марк Цукерберг .

На основе поисковых источников: 3

3 источники

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

На этой странице

  • Модель «Хамелеон»: генерация изображений и текста
  • Модель прогнозирования с несколькими токенами
  • JASCO: Генерация музыки с помощью искусственного интеллекта
  • Повышение разнообразия в моделях преобразования текста в изображение
  • Усилия Meta вложены в разработку искусственного интеллекта