Meta 的 FAIR 團隊發布了用於圖像到文字和文字到音樂生成的 AI 模型

Meta 的基礎人工智慧研究（FAIR）團隊最近發布了五個新的人工智慧（AI）研究模型。這些模型具有廣泛的應用，包括圖像到文字和文字到音樂的生成，以及改進的程式碼完成和人工智慧生成語音的檢測。

變色龍模型：圖像和文字生成

Chameleon 是發布的值得注意的模型之一，它是一個能夠產生圖像和文字的混合模式模型系列。

與專注於單峰結果的傳統模型不同，Chameleon 可以處理由文字和圖像組成的輸入，並產生文字和圖像的組合作為輸出。此功能開啟了新的可能性，例如為圖像生成創意標題或使用文字提示和圖像來創建全新的場景。

Meta 的 FAIR 團隊還透過引入一種稱為多令牌預測的新方法，在程式碼完成模型方面取得了重大進展。與先前一個單字的方法不同，這種新方法訓練語言模型同時預測多個未來單詞，這有助於訓練人工智慧模型更快預測單字。

Meta 的 FAIR 團隊發布的第三個模型是 JASCO，它改進了對 AI 音樂生成的控制。與僅依賴文字輸入的現有文字到音樂模型不同，JASCO 可以接受各種輸入，包括和弦和節拍，從而在生成音樂時具有更多的多功能性和創造力。

AudioSeal：定位人工智慧產生的語音

AudioSeal 是一個突破性的系統，可以在人工智慧生成的音訊剪輯中嵌入浮水印。該技術能夠在較長的音訊片段中精確檢測人工智慧產生的片段，為識別錯誤訊息和詐騙提供了寶貴的工具。

為了確保文字到圖像模型反映世界的地理和文化多樣性，Meta 的 FAIR 團隊開發了自動指標來評估這些模型中潛在的地理差異。

透過進行大規模註釋研究並收集廣泛的回饋，Meta 旨在改進文字到圖像模型的評估並促進人工智慧生成圖像的多樣性。

地理差異評估代碼和註釋的發布將使研究人員能夠增強其生成模型的代表性和包容性。

Meta 對人工智慧開發的承諾體現在其在人工智慧和元宇宙開發部門 Reality Labs 上的大量資本支出。

到 2024 年底，支出預計將達到 350 億至 400 億美元[1]，Meta 的目標是建立各種人工智慧服務和平台，包括人工智慧助理、擴增實境應用程式和商業人工智慧。

「我們正在建立許多不同的人工智慧服務，從人工智慧助理到擴增實境應用程式和眼鏡，到幫助創作者參與社群並讓粉絲可以與之互動的API [應用程式介面]，再到我們認為每個人都可以使用的商業人工智慧。” Meta 執行長馬克祖克柏強調：“業務最終將在我們的平台上使用。”