Meta 的 FAIR 团队发布用于图像转文本和文本转音乐生成的 AI 模型

Meta 的基础人工智能研究 (FAIR) 团队最近发布了五个新的人工智能 (AI)研究模型。这些模型具有广泛的应用，包括图像到文本和文本到音乐的生成，以及改进的代码补全和 AI 生成的语音的检测。

变色龙模型：图像和文本生成

发布的值得注意的模型之一是 Chameleon，这是一组能够生成图像和文本的混合模式模型。

与专注于单峰结果的传统模型不同，Chameleon 可以处理由文本和图像组成的输入，并生成文本和图像的组合作为输出。此功能开辟了新的可能性，例如为图像生成创意标题或使用文本提示和图像创建全新的场景。

Meta 的 FAIR 团队还通过引入一种称为多标记预测的新方法，在代码完成模型方面取得了重大进展。与以前的一次预测一个单词的方法不同，这种新方法训练语言模型同时预测多个未来单词，这有助于训练 AI 模型更快地预测单词。

Meta 的 FAIR 团队发布的第三个模型是 JASCO，它提供了对 AI 音乐生成的改进控制。与仅依赖文本输入的现有文本转音乐模型不同，JASCO 可以接受各种输入，包括和弦和节拍，从而在生成音乐时具有更多的灵活性和创造力。

AudioSeal：定位 AI 生成的语音

AudioSeal 是一种突破性的系统，可以在 AI 生成的音频片段中嵌入水印。该技术能够精确检测较长音频片段中 AI 生成的片段，为识别错误信息和诈骗提供了宝贵的工具。

为了确保文本到图像模型反映世界的地理和文化多样性，Meta 的 FAIR 团队开发了自动指标来评估这些模型中潜在的地理差异。

通过开展大规模注释研究并收集大量反馈，Meta 旨在改进文本到图像模型的评估并促进 AI 生成的图像的多样性。

地理差异评估代码和注释的发布将使研究人员能够增强其生成模型的代表性和包容性。

Meta 对 AI 开发的承诺体现在其对 AI 和元宇宙开发部门 Reality Labs 的大量资本支出上。

Meta 的目标是构建各种 AI 服务和平台，包括 AI 助手、增强现实应用程序和商业 AI，预计到 2024 年底支出将达到 350 亿至 400 亿美元[1]。

Meta 首席执行官马克·扎克伯格强调：“我们正在构建许多不同的人工智能服务，从我们的人工智能助手到增强现实应用程序和眼镜，再到帮助创作者参与社区并与粉丝互动的 API [应用程序编程接口]，以及我们认为我们平台上的每个企业最终都会使用的商业人工智能。”