Meta의 FAIR 팀, 이미지-텍스트 및 텍스트-음악 생성을 위한 AI 모델 출시

메타의 기초 AI 연구(FAIR) 팀은 최근 5가지 새로운 인공 지능(AI) 연구 모델을 출시했습니다. 이러한 모델은 이미지를 텍스트로, 텍스트를 음악으로 변환하는 기능은 물론 향상된 코드 완성 및 AI 생성 음성 감지 기능을 포함한 광범위한 애플리케이션을 갖추고 있습니다.

카멜레온 모델: 이미지 및 텍스트 생성

출시된 주목할만한 모델 중 하나는 이미지와 텍스트를 모두 생성할 수 있는 혼합 모드 모델 제품군인 Chameleon입니다.

단봉 결과에 초점을 맞춘 기존 모델과 달리 Chameleon은 텍스트와 이미지로 구성된 입력을 처리하고 텍스트와 이미지의 조합을 출력으로 생성할 수 있습니다. 이 기능은 이미지에 창의적인 캡션을 생성하거나 텍스트 프롬프트와 이미지를 사용하여 완전히 새로운 장면을 만드는 등 새로운 가능성을 열어줍니다.

다중 토큰 예측 모델

Meta의 FAIR 팀은 멀티 토큰 예측이라는 새로운 접근 방식을 도입하여 코드 완성 모델에서도 상당한 발전을 이루었습니다. 이전의 한 번에 한 단어 접근 방식과 달리 이 새로운 방법은 언어 모델을 훈련하여 미래의 여러 단어를 동시에 예측하므로 AI 모델이 단어를 더 빠르게 예측하도록 훈련하는 데 도움이 됩니다.

JASCO: AI 음악 세대

Meta의 FAIR 팀이 출시한 세 번째 모델은 AI 음악 생성에 대한 향상된 제어 기능을 제공하는 JASCO입니다. 텍스트 입력에만 의존하는 기존의 텍스트-음악 모델과 달리 JASCO는 코드와 비트를 포함한 다양한 입력을 수용할 수 있어 음악 생성에 더 많은 다양성과 창의성을 제공합니다.

AudioSeal: AI가 생성한 음성 찾기

AudioSeal은 AI가 생성한 오디오 클립에 워터마크를 삽입할 수 있는 획기적인 시스템입니다. 이 기술을 사용하면 긴 오디오 조각 내에서 AI 생성 세그먼트를 정확하게 감지할 수 있어 잘못된 정보와 사기를 식별하는 데 유용한 도구를 제공합니다.

텍스트-이미지 모델의 다양성 향상

텍스트-이미지 모델이 전 세계의 지리적, 문화적 다양성을 반영하도록 하기 위해 Meta의 FAIR 팀은 이러한 모델의 잠재적인 지리적 차이를 평가하는 자동 지표를 개발했습니다.

Meta는 대규모 주석 연구를 수행하고 광범위한 피드백을 수집함으로써 텍스트-이미지 모델의 평가를 개선하고 AI 생성 이미지의 다양성을 촉진하는 것을 목표로 합니다.

지리적 불일치 평가 코드 및 주석의 출시를 통해 연구자는 생성 모델의 표현과 포괄성을 향상할 수 있습니다.

AI 개발에 투자한 메타의 노력

AI 개발에 대한 Meta의 헌신은 AI와 메타버스 개발 부서인 Reality Labs에 대한 상당한 자본 지출에서 분명하게 드러납니다.

2024년 말까지 지출이 350억~400억 달러에 이를 것으로 예상되는 Meta는 AI 비서, 증강 현실 앱, 비즈니스 AI를 포함한 다양한 AI 서비스 및 플랫폼을 구축하는 것을 목표로 합니다.

“우리는 AI 비서부터 증강 현실 앱과 안경, 제작자가 커뮤니티에 참여하고 팬이 상호 작용할 수 있는 API(애플리케이션 프로그래밍 인터페이스), 우리가 항상 생각하는 비즈니스 AI에 이르기까지 다양한 AI 서비스를 구축하고 있습니다. Meta CEO Mark Zuckerberg 가 강조한 "우리 플랫폼의 비즈니스는 결국 사용할 것입니다."