최근에는 Apple, Anthropic, Nvidia, Salesforce 등이 YouTube 자막을 활용하여 AI 시스템을 훈련시킨 것으로 밝혀졌습니다. 이 데이터세트는 48,000개 이상의 채널에 속하는 170,000개 이상의 YouTube 동영상 에서 추출된 자막으로 구성됩니다.
콘텐츠 제작자인 Marques Brownleeone에 따르면, “Apple은 여러 회사로부터 AI에 대한 데이터를 공급했습니다.” 그는 자신의 X 게시물에서 Apple이 YouTube 동영상에서 대본을 포함한 방대한 양의 데이터를 스크랩했다고 밝혔습니다.
YouTube 자막 데이터 세트는 비영리 단체인 EleutherAI에서 개발한 The Pile이라는 대규모 컬렉션의 일부입니다. 이 컬렉션의 목표는 AI 개발을 위한 귀중한 데이터 세트를 거대 기술 기업 외부에 제공하는 것입니다.
YouTube 기록과 함께 The Pile에는 책, Wikipedia 기사, 유럽 의회 연설, 심지어 Enron의 이메일을 포함한 다양한 소스의 데이터세트가 포함되어 있습니다. The Pile은 Apple이 OpenELM AI 모델을 훈련하는 데 사용하는 등 인기를 얻고 있으며, Salesforce의 AI 모델은 86,000회 이상 다운로드되었습니다.
윤리적 및 법적 의미
YouTube 서비스 약관 위반
AI 모델 교육을 위해 YouTube 콘텐츠, 특히 스크랩한 캡션의 형태를 사용하면 YouTube 서비스 약관 위반 가능성에 대한 의문이 제기됩니다.
YouTube 의 CEO 닐 모한(Neal Mohan)은 이전에 AI 훈련을 위해 대본을 포함한 비디오 콘텐츠를 사용하는 것은 플랫폼의 조건에 어긋난다고 밝혔습니다. OpenAI YouTube 콘텐츠를 기반으로 소라를 훈련하는지 여부를 공개하지 않았습니다.
콘텐츠 제작자의 동의 부족
AI 교육을 위해 YouTube 동영상을 사용하는 것과 관련된 주요 우려 사항 중 하나는 제작자의 동의가 부족하다는 것입니다. 많은 콘텐츠 제작자는 자신의 저작물이 무단으로 사용되는 것에 대해 불만을 표시했으며, 특히 삭제된 동영상이나 이후 온라인 활동을 삭제한 제작자의 동영상의 경우 더욱 그렇습니다.
"The David Pakman Show"의 David Pakman과 Complexly의 CEO인 Julia Walsh와 같은 제작자는 콘텐츠 제작에 투자하는 노력과 자원을 강조하면서 좌절감을 표명했습니다.
의혹에 대한 기업들의 반응
혐의에 대해 Anthropic의 대변인 Jennifer Martinez는 The Pile 데이터 세트의 활용에는 YouTube 자막의 "매우 작은 하위 집합"만 포함되어 있으며 YouTube 서비스 약관을 위반하지 않는다고 밝혔습니다.