ホーム > 発見する > Meta の FAIR チームが画像からテキスト、テキストから音楽を生成する AI モデルをリリース

Meta の FAIR チームが画像からテキスト、テキストから音楽を生成する AI モデルをリリース

によって書かれた
ArticleGPT

HIX.AI チーム によるレビューと事実確認済み

6分で読む8 days ago
Meta の FAIR チームが画像からテキスト、テキストから音楽を生成する AI モデルをリリース

一言で言えば

Meta は、テキストと画像の両方を生成したり、より大きな音声抜粋内で AI が生成した音声を検出したりできるものを含む、5 つの新しい AI 研究モデルを発表しました。

Meta の基礎 AI 研究 (FAIR) チームは最近、 5 つの新しい人工知能 (AI)研究モデルをリリースしました。これらのモデルは、画像からテキストやテキストから音楽の生成、コード補完の改善、AI 生成音声の検出など、幅広い用途に使用できます。

カメレオンモデル: 画像とテキストの生成

リリースされた注目すべきモデルの 1 つは、画像とテキストの両方を生成できる混合モード モデル ファミリである Chameleon です。

単一モードの結果に重点を置く従来のモデルとは異なり、Chameleon はテキストと画像の両方を含む入力を処理し、テキストと画像の組み合わせを出力として生成できます。この機能により、画像にクリエイティブなキャプションを生成したり、テキスト プロンプトと画像を使用してまったく新しいシーンを作成したりするなど、新しい可能性が開かれます。

マルチトークン予測モデル

Meta の FAIR チームは、マルチトークン予測と呼ばれる新しいアプローチを導入することで、コード補完モデルにも大きな進歩をもたらしました。以前の 1 単語ずつのアプローチとは異なり、この新しい方法では、複数の将来の単語を同時に予測するように言語モデルをトレーニングします。これにより、AI モデルをより速くトレーニングして単語を予測できるようになります。

JASCO: AI音楽生成

Meta の FAIR チームがリリースした 3 番目のモデルは JASCO で、AI による音楽生成の制御が向上しています。テキスト入力のみに依存する既存のテキストから音楽への変換モデルとは異なり、JASCO はコードやビートを含むさまざまな入力を受け入れることができるため、音楽生成の汎用性と創造性が向上します。

AudioSeal: AI 生成音声の検出

AudioSeal は、AI が生成したオーディオ クリップに透かしを埋め込むことができる画期的なシステムです。この技術により、長いオーディオ スニペット内の AI が生成したセグメントを正確に検出できるようになり、誤情報や詐欺を識別するための貴重なツールが提供されます。

テキストから画像へのモデルにおける多様性の強化

テキストから画像へのモデルが世界の地理的および文化的多様性を反映するように、Meta の FAIR チームは、これらのモデルにおける潜在的な地理的差異を評価する自動指標を開発しました。

Meta は、大規模な注釈研究を実施し、広範なフィードバックを収集することで、テキストから画像へのモデルの評価を改善し、AI 生成画像の多様性を促進することを目指しています。

地理的格差の評価コードと注釈のリリースにより、研究者は生成モデルの表現と包括性を高めることができます。

AI開発に投資したMetaの取り組み

Meta の AI 開発への取り組みは、AI とメタバース開発部門 Reality Labs への多額の資本支出からも明らかです。

Metaは、2024年末までに支出額が350億ドルから400億ドル[1]に達すると予測されており、AIアシスタント、拡張現実アプリ、ビジネスAIなど、さまざまなAIサービスとプラットフォームの構築を目指しています。

「当社は、AIアシスタントから拡張現実アプリやグラス、クリエイターがコミュニティに参加しファンが交流するのに役立つAPI(アプリケーションプログラミングインターフェース)、そして最終的には当社のプラットフォーム上のすべての企業が使用すると思われるビジネスAIまで、さまざまなAIサービスを構築しています」とMetaのCEO、マーク・ザッカーバーグ氏は強調した。

3 個の検索ソースに基づく

3 ソース

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

このページについて

  • カメレオンモデル: 画像とテキストの生成
  • マルチトークン予測モデル
  • JASCO: AI音楽生成
  • テキストから画像へのモデルにおける多様性の強化
  • AI開発に投資したMetaの取り組み