Tim FAIR Meta Merilis Model AI untuk Pembuatan Gambar-ke-Teks dan Teks-ke-Musik

Tim Fundamental AI Research (FAIR) Meta baru-baru ini merilis lima model penelitian kecerdasan buatan (AI) baru . Model-model ini memiliki aplikasi yang luas, termasuk pembuatan gambar-ke-teks dan teks-ke-musik, serta penyelesaian kode yang lebih baik dan deteksi ucapan yang dihasilkan AI.

Model Bunglon: Pembuatan Gambar dan Teks

Salah satu model penting yang dirilis adalah Chameleon, rangkaian model modal campuran yang mampu menghasilkan gambar dan teks.

Berbeda dengan model tradisional yang berfokus pada hasil unimodal, Chameleon dapat memproses masukan yang terdiri dari teks dan gambar serta menghasilkan kombinasi teks dan gambar sebagai keluaran. Kemampuan ini membuka kemungkinan-kemungkinan baru, seperti menghasilkan teks kreatif untuk gambar atau menggunakan perintah teks dan gambar untuk membuat adegan yang benar-benar baru.

Model Prediksi Multi-Token

Tim Meta FAIR juga telah membuat kemajuan signifikan dalam model penyelesaian kode dengan memperkenalkan pendekatan baru yang disebut prediksi multi-token. Berbeda dengan pendekatan satu kata pada satu waktu sebelumnya, metode baru ini melatih model bahasa untuk memprediksi beberapa kata di masa depan secara bersamaan, sehingga membantu melatih Model AI untuk memprediksi kata dengan lebih cepat.

JASCO: Generasi Musik AI

Model ketiga yang dirilis oleh tim FAIR Meta adalah JASCO, yang menawarkan peningkatan kontrol atas pembuatan musik AI. Tidak seperti model text-to-musik yang hanya mengandalkan input teks, JASCO dapat menerima berbagai input, termasuk akord dan ketukan, sehingga memungkinkan lebih banyak fleksibilitas dan kreativitas dalam menghasilkan musik.

AudioSeal: Menemukan Ucapan yang Dihasilkan AI

AudioSeal adalah sistem inovatif yang dapat menyematkan tanda air pada klip audio yang dihasilkan AI. Teknik ini memungkinkan deteksi tepat segmen yang dihasilkan AI dalam cuplikan audio yang lebih panjang, sehingga menyediakan alat yang berharga untuk mengidentifikasi misinformasi dan penipuan.

Peningkatan Keberagaman dalam Model Text-to-Image

Untuk memastikan model text-to-image mencerminkan keragaman geografis dan budaya dunia, tim FAIR Meta telah mengembangkan indikator otomatis untuk mengevaluasi potensi kesenjangan geografis dalam model ini.

Dengan melakukan studi anotasi berskala besar dan mengumpulkan masukan yang luas, Meta bertujuan untuk meningkatkan evaluasi model teks-ke-gambar dan mendorong keragaman dalam gambar yang dihasilkan AI.

Peluncuran kode dan anotasi evaluasi kesenjangan geografis akan memungkinkan peneliti meningkatkan representasi dan inklusivitas model generatif mereka.

Upaya Meta Berinvestasi dalam Pengembangan AI

Komitmen Meta terhadap pengembangan AI terlihat dari belanja modalnya yang besar untuk AI dan divisi pengembangan metaverse Reality Labs.

Dengan pengeluaran yang diproyeksikan mencapai antara $35 miliar dan $40 miliar[1] pada akhir tahun 2024, Meta bertujuan untuk membangun berbagai layanan dan platform AI, termasuk asisten AI, aplikasi augmented reality, dan AI bisnis.

“Kami sedang membangun sejumlah layanan AI yang berbeda, mulai dari asisten AI kami hingga aplikasi dan kacamata augmented reality, hingga API [antarmuka pemrograman aplikasi] yang membantu pembuat konten berinteraksi dengan komunitas mereka dan yang dapat berinteraksi dengan penggemar, hingga AI bisnis yang kami rasa setiap orang dapat berinteraksi dengan mereka. bisnis pada akhirnya akan menggunakan platform kami, ”tegas CEO Meta Mark Zuckerberg .