> 발견하다 > Meta의 FAIR 팀, 이미지-텍스트 및 텍스트-음악 생성을 위한 AI 모델 출시

Meta의 FAIR 팀, 이미지-텍스트 및 텍스트-음악 생성을 위한 AI 모델 출시

작성자:
ArticleGPT

HIX.AI 팀의 검토 및 사실 확인

6분 읽기8 days ago
Meta의 FAIR 팀, 이미지-텍스트 및 텍스트-음악 생성을 위한 AI 모델 출시

간단히 말해서

Meta는 텍스트와 이미지를 모두 생성하고 더 큰 오디오 발췌 내에서 AI 생성 음성을 감지할 수 있는 모델을 포함하여 5가지 새로운 AI 연구 모델을 공개했습니다.

메타의 기초 AI 연구(FAIR) 팀은 최근 5가지 새로운 인공 지능(AI) 연구 모델을 출시했습니다. 이러한 모델은 이미지를 텍스트로, 텍스트를 음악으로 변환하는 기능은 물론 향상된 코드 완성 및 AI 생성 음성 감지 기능을 포함한 광범위한 애플리케이션을 갖추고 있습니다.

카멜레온 모델: 이미지 및 텍스트 생성

출시된 주목할만한 모델 중 하나는 이미지와 텍스트를 모두 생성할 수 있는 혼합 모드 모델 제품군인 Chameleon입니다.

단봉 결과에 초점을 맞춘 기존 모델과 달리 Chameleon은 텍스트와 이미지로 구성된 입력을 처리하고 텍스트와 이미지의 조합을 출력으로 생성할 수 있습니다. 이 기능은 이미지에 창의적인 캡션을 생성하거나 텍스트 프롬프트와 이미지를 사용하여 완전히 새로운 장면을 만드는 등 새로운 가능성을 열어줍니다.

다중 토큰 예측 모델

Meta의 FAIR 팀은 멀티 토큰 예측이라는 새로운 접근 방식을 도입하여 코드 완성 모델에서도 상당한 발전을 이루었습니다. 이전의 한 번에 한 단어 접근 방식과 달리 이 새로운 방법은 언어 모델을 훈련하여 미래의 여러 단어를 동시에 예측하므로 AI 모델이 단어를 더 빠르게 예측하도록 훈련하는 데 도움이 됩니다.

JASCO: AI 음악 세대

Meta의 FAIR 팀이 출시한 세 번째 모델은 AI 음악 생성에 대한 향상된 제어 기능을 제공하는 JASCO입니다. 텍스트 입력에만 의존하는 기존의 텍스트-음악 모델과 달리 JASCO는 코드와 비트를 포함한 다양한 입력을 수용할 수 있어 음악 생성에 더 많은 다양성과 창의성을 제공합니다.

AudioSeal: AI가 생성한 음성 찾기

AudioSeal은 AI가 생성한 오디오 클립에 워터마크를 삽입할 수 있는 획기적인 시스템입니다. 이 기술을 사용하면 긴 오디오 조각 내에서 AI 생성 세그먼트를 정확하게 감지할 수 있어 잘못된 정보와 사기를 식별하는 데 유용한 도구를 제공합니다.

텍스트-이미지 모델의 다양성 향상

텍스트-이미지 모델이 전 세계의 지리적, 문화적 다양성을 반영하도록 하기 위해 Meta의 FAIR 팀은 이러한 모델의 잠재적인 지리적 차이를 평가하는 자동 지표를 개발했습니다.

Meta는 대규모 주석 연구를 수행하고 광범위한 피드백을 수집함으로써 텍스트-이미지 모델의 평가를 개선하고 AI 생성 이미지의 다양성을 촉진하는 것을 목표로 합니다.

지리적 불일치 평가 코드 및 주석의 출시를 통해 연구자는 생성 모델의 표현과 포괄성을 향상할 수 있습니다.

AI 개발에 투자한 메타의 노력

AI 개발에 대한 Meta의 헌신은 AI와 메타버스 개발 부서인 Reality Labs에 대한 상당한 자본 지출에서 분명하게 드러납니다.

2024년 말까지 지출이 350억~400억 달러에 이를 것으로 예상되는 Meta는 AI 비서, 증강 현실 앱, 비즈니스 AI를 포함한 다양한 AI 서비스 및 플랫폼을 구축하는 것을 목표로 합니다.

“우리는 AI 비서부터 증강 현실 앱과 안경, 제작자가 커뮤니티에 참여하고 팬이 상호 작용할 수 있는 API(애플리케이션 프로그래밍 인터페이스), 우리가 항상 생각하는 비즈니스 AI에 이르기까지 다양한 AI 서비스를 구축하고 있습니다. Meta CEO Mark Zuckerberg 가 강조한 "우리 플랫폼의 비즈니스는 결국 사용할 것입니다."

3개의 검색 소스를 기반으로 함

3 출처

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

이 페이지에서

  • 카멜레온 모델: 이미지 및 텍스트 생성
  • 다중 토큰 예측 모델
  • JASCO: AI 음악 세대
  • 텍스트-이미지 모델의 다양성 향상
  • AI 개발에 투자한 메타의 노력