Rumah > Menemukan > Tim FAIR Meta Merilis Model AI untuk Pembuatan Gambar-ke-Teks dan Teks-ke-Musik

Tim FAIR Meta Merilis Model AI untuk Pembuatan Gambar-ke-Teks dan Teks-ke-Musik

Ditulis oleh
ArticleGPT

Ditinjau dan diperiksa faktanya oleh Tim HIX.AI

4 menit membaca8 days ago
Tim FAIR Meta Merilis Model AI untuk Pembuatan Gambar-ke-Teks dan Teks-ke-Musik

Pendeknya

Meta telah meluncurkan lima model penelitian AI baru, termasuk model yang mampu menghasilkan teks dan gambar serta mendeteksi ucapan yang dihasilkan AI dalam kutipan audio yang lebih besar.

Tim Fundamental AI Research (FAIR) Meta baru-baru ini merilis lima model penelitian kecerdasan buatan (AI) baru . Model-model ini memiliki aplikasi yang luas, termasuk pembuatan gambar-ke-teks dan teks-ke-musik, serta penyelesaian kode yang lebih baik dan deteksi ucapan yang dihasilkan AI.

Model Bunglon: Pembuatan Gambar dan Teks

Salah satu model penting yang dirilis adalah Chameleon, rangkaian model modal campuran yang mampu menghasilkan gambar dan teks.

Berbeda dengan model tradisional yang berfokus pada hasil unimodal, Chameleon dapat memproses masukan yang terdiri dari teks dan gambar serta menghasilkan kombinasi teks dan gambar sebagai keluaran. Kemampuan ini membuka kemungkinan-kemungkinan baru, seperti menghasilkan teks kreatif untuk gambar atau menggunakan perintah teks dan gambar untuk membuat adegan yang benar-benar baru.

Model Prediksi Multi-Token

Tim Meta FAIR juga telah membuat kemajuan signifikan dalam model penyelesaian kode dengan memperkenalkan pendekatan baru yang disebut prediksi multi-token. Berbeda dengan pendekatan satu kata pada satu waktu sebelumnya, metode baru ini melatih model bahasa untuk memprediksi beberapa kata di masa depan secara bersamaan, sehingga membantu melatih Model AI untuk memprediksi kata dengan lebih cepat.

JASCO: Generasi Musik AI

Model ketiga yang dirilis oleh tim FAIR Meta adalah JASCO, yang menawarkan peningkatan kontrol atas pembuatan musik AI. Tidak seperti model text-to-musik yang hanya mengandalkan input teks, JASCO dapat menerima berbagai input, termasuk akord dan ketukan, sehingga memungkinkan lebih banyak fleksibilitas dan kreativitas dalam menghasilkan musik.

AudioSeal: Menemukan Ucapan yang Dihasilkan AI

AudioSeal adalah sistem inovatif yang dapat menyematkan tanda air pada klip audio yang dihasilkan AI. Teknik ini memungkinkan deteksi tepat segmen yang dihasilkan AI dalam cuplikan audio yang lebih panjang, sehingga menyediakan alat yang berharga untuk mengidentifikasi misinformasi dan penipuan.

Peningkatan Keberagaman dalam Model Text-to-Image

Untuk memastikan model text-to-image mencerminkan keragaman geografis dan budaya dunia, tim FAIR Meta telah mengembangkan indikator otomatis untuk mengevaluasi potensi kesenjangan geografis dalam model ini.

Dengan melakukan studi anotasi berskala besar dan mengumpulkan masukan yang luas, Meta bertujuan untuk meningkatkan evaluasi model teks-ke-gambar dan mendorong keragaman dalam gambar yang dihasilkan AI.

Peluncuran kode dan anotasi evaluasi kesenjangan geografis akan memungkinkan peneliti meningkatkan representasi dan inklusivitas model generatif mereka.

Upaya Meta Berinvestasi dalam Pengembangan AI

Komitmen Meta terhadap pengembangan AI terlihat dari belanja modalnya yang besar untuk AI dan divisi pengembangan metaverse Reality Labs.

Dengan pengeluaran yang diproyeksikan mencapai antara $35 miliar dan $40 miliar[1] pada akhir tahun 2024, Meta bertujuan untuk membangun berbagai layanan dan platform AI, termasuk asisten AI, aplikasi augmented reality, dan AI bisnis.

“Kami sedang membangun sejumlah layanan AI yang berbeda, mulai dari asisten AI kami hingga aplikasi dan kacamata augmented reality, hingga API [antarmuka pemrograman aplikasi] yang membantu pembuat konten berinteraksi dengan komunitas mereka dan yang dapat berinteraksi dengan penggemar, hingga AI bisnis yang kami rasa setiap orang dapat berinteraksi dengan mereka. bisnis pada akhirnya akan menggunakan platform kami, ”tegas CEO Meta Mark Zuckerberg .

Berdasarkan 3 sumber pencarian

3 sumber

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

Di halaman ini

  • Model Bunglon: Pembuatan Gambar dan Teks
  • Model Prediksi Multi-Token
  • JASCO: Generasi Musik AI
  • Peningkatan Keberagaman dalam Model Text-to-Image
  • Upaya Meta Berinvestasi dalam Pengembangan AI