首页 > 发现 > Meta 的 FAIR 团队发布用于图像转文本和文本转音乐生成的 AI 模型

Meta 的 FAIR 团队发布用于图像转文本和文本转音乐生成的 AI 模型

作者
ArticleGPT

HIX.AI 团队 审核并核实

阅读时间:4分钟8 days ago
Meta 的 FAIR 团队发布用于图像转文本和文本转音乐生成的 AI 模型

简而言之

Meta 推出了五种新的 AI 研究模型,包括能够生成文本和图像以及在较大的音频片段中检测 AI 生成的语音的模型。

Meta 的基础人工智能研究 (FAIR) 团队最近发布了五个新的人工智能 (AI)研究模型。这些模型具有广泛的应用,包括图像到文本和文本到音乐的生成,以及改进的代码补全和 AI 生成的语音的检测。

变色龙模型:图像和文本生成

发布的值得注意的模型之一是 Chameleon,这是一组能够生成图像和文本的混合模式模型。

与专注于单峰结果的传统模型不同,Chameleon 可以处理由文本和图像组成的输入,并生成文本和图像的组合作为输出。此功能开辟了新的可能性,例如为图像生成创意标题或使用文本提示和图像创建全新的场景。

多标记预测模型

Meta 的 FAIR 团队还通过引入一种称为多标记预测的新方法,在代码完成模型方面取得了重大进展。与以前的一次预测一个单词的方法不同,这种新方法训练语言模型同时预测多个未来单词,这有助于训练 AI 模型更快地预测单词。

JASCO:AI 音乐生成

Meta 的 FAIR 团队发布的第三个模型是 JASCO,它提供了对 AI 音乐生成的改进控制。与仅依赖文本输入的现有文本转音乐模型不同,JASCO 可以接受各种输入,包括和弦和节拍,从而在生成音乐时具有更多的灵活性和创造力。

AudioSeal:定位 AI 生成的语音

AudioSeal 是一种突破性的系统,可以在 AI 生成的音频片段中嵌入水印。该技术能够精确检测较长音频片段中 AI 生成的片段,为识别错误信息和诈骗提供了宝贵的工具。

文本到图像模型中的多样性增强

为了确保文本到图像模型反映世界的地理和文化多样性,Meta 的 FAIR 团队开发了自动指标来评估这些模型中潜在的地理差异。

通过开展大规模注释研究并收集大量反馈,Meta 旨在改进文本到图像模型的评估并促进 AI 生成的图像的多样性。

地理差异评估代码和注释的发布将使研究人员能够增强其生成模型的代表性和包容性。

Meta 在 AI 开发方面的投入

Meta 对 AI 开发的承诺体现在其对 AI 和元宇宙开发部门 Reality Labs 的大量资本支出上。

Meta 的目标是构建各种 AI 服务和平台,包括 AI 助手、增强现实应用程序和商业 AI,预计到 2024 年底支出将达到 350 亿至 400 亿美元[1]。

Meta 首席执行官马克·扎克伯格强调:“我们正在构建许多不同的人工智能服务,从我们的人工智能助手到增强现实应用程序和眼镜,再到帮助创作者参与社区并与粉丝互动的 API [应用程序编程接口],以及我们认为我们平台上的每个企业最终都会使用的商业人工智能。”

基于 3 个搜索来源

3 来源

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

在本页

  • 变色龙模型:图像和文本生成
  • 多标记预测模型
  • JASCO:AI 音乐生成
  • 文本到图像模型中的多样性增强
  • Meta 在 AI 开发方面的投入