Meta の FAIR チームが画像からテキスト、テキストから音楽を生成する AI モデルをリリース

Meta の基礎 AI 研究 (FAIR) チームは最近、 5 つの新しい人工知能 (AI)研究モデルをリリースしました。これらのモデルは、画像からテキストやテキストから音楽の生成、コード補完の改善、AI 生成音声の検出など、幅広い用途に使用できます。

カメレオンモデル: 画像とテキストの生成

リリースされた注目すべきモデルの 1 つは、画像とテキストの両方を生成できる混合モードモデルファミリである Chameleon です。

単一モードの結果に重点を置く従来のモデルとは異なり、Chameleon はテキストと画像の両方を含む入力を処理し、テキストと画像の組み合わせを出力として生成できます。この機能により、画像にクリエイティブなキャプションを生成したり、テキストプロンプトと画像を使用してまったく新しいシーンを作成したりするなど、新しい可能性が開かれます。

マルチトークン予測モデル

Meta の FAIR チームは、マルチトークン予測と呼ばれる新しいアプローチを導入することで、コード補完モデルにも大きな進歩をもたらしました。以前の 1 単語ずつのアプローチとは異なり、この新しい方法では、複数の将来の単語を同時に予測するように言語モデルをトレーニングします。これにより、AI モデルをより速くトレーニングして単語を予測できるようになります。

JASCO: AI音楽生成

Meta の FAIR チームがリリースした 3 番目のモデルは JASCO で、AI による音楽生成の制御が向上しています。テキスト入力のみに依存する既存のテキストから音楽への変換モデルとは異なり、JASCO はコードやビートを含むさまざまな入力を受け入れることができるため、音楽生成の汎用性と創造性が向上します。

AudioSeal: AI 生成音声の検出

AudioSeal は、AI が生成したオーディオクリップに透かしを埋め込むことができる画期的なシステムです。この技術により、長いオーディオスニペット内の AI が生成したセグメントを正確に検出できるようになり、誤情報や詐欺を識別するための貴重なツールが提供されます。

テキストから画像へのモデルにおける多様性の強化

テキストから画像へのモデルが世界の地理的および文化的多様性を反映するように、Meta の FAIR チームは、これらのモデルにおける潜在的な地理的差異を評価する自動指標を開発しました。

Meta は、大規模な注釈研究を実施し、広範なフィードバックを収集することで、テキストから画像へのモデルの評価を改善し、AI 生成画像の多様性を促進することを目指しています。

地理的格差の評価コードと注釈のリリースにより、研究者は生成モデルの表現と包括性を高めることができます。

AI開発に投資したMetaの取り組み

Meta の AI 開発への取り組みは、AI とメタバース開発部門 Reality Labs への多額の資本支出からも明らかです。

Metaは、2024年末までに支出額が350億ドルから400億ドル[1]に達すると予測されており、AIアシスタント、拡張現実アプリ、ビジネスAIなど、さまざまなAIサービスとプラットフォームの構築を目指しています。

「当社は、AIアシスタントから拡張現実アプリやグラス、クリエイターがコミュニティに参加しファンが交流するのに役立つAPI（アプリケーションプログラミングインターフェース）、そして最終的には当社のプラットフォーム上のすべての企業が使用すると思われるビジネスAIまで、さまざまなAIサービスを構築しています」とMetaのCEO、マーク・ザッカーバーグ氏は強調した。