Kürzlich wurde bekannt, dass Apple, Anthropic, Nvidia und Salesforce unter anderem YouTube Untertitel nutzten, um ihre KI-Systeme zu trainieren. Dieser Datensatz besteht aus Untertiteln, die aus über 170.000 YouTube Videos extrahiert wurden, die zu mehr als 48.000 Kanälen gehören .
„Apple hat Daten für seine KI von mehreren Unternehmen bezogen“, so Content Creator Marques Brownleeone. In seinem X-Post enthüllte er, dass Apple riesige Datenmengen, darunter auch Transkripte, aus YouTube Videos gescrapt hat.
Der YouTube Untertitel-Datensatz ist Teil einer größeren Sammlung namens The Pile, die von der gemeinnützigen Organisation EleutherAI entwickelt wurde. Diese Sammlung soll auch außerhalb großer Technologieunternehmen einen wertvollen Datensatz für die KI-Entwicklung bereitstellen.
Neben den YouTube Transkripten enthält The Pile Datensätze aus verschiedenen Quellen, darunter Bücher, Wikipedia-Artikel, Reden des Europäischen Parlaments und sogar E-Mails von Enron. The Pile wird immer beliebter, da Apple es zum Trainieren seines OpenELM-KI-Modells verwendet hat und das KI-Modell von Salesforce mehr als 86.000 Mal heruntergeladen wurde.
Ethische und rechtliche Auswirkungen
Verstoß gegen die Nutzungsbedingungen von YouTube
Die Verwendung von YouTube Inhalten, insbesondere in Form von kopierten Untertiteln, zum Trainieren von KI-Modellen wirft Fragen zu möglichen Verstößen gegen die Nutzungsbedingungen von YouTube auf.
YouTube -CEO Neal Mohan hatte zuvor erklärt, dass die Verwendung von Videoinhalten, einschließlich Transkripten, zum Trainieren von KI gegen die Bedingungen der Plattform verstoßen würde. OpenAI hat nicht bekannt gegeben, ob es Sora auf der Grundlage von YouTube Inhalten trainiert.
Fehlende Zustimmung der Inhaltsersteller
Eine der größten Sorgen im Zusammenhang mit der Verwendung von YouTube Videos für das KI-Training ist die fehlende Zustimmung der Urheber. Viele Inhaltsersteller drückten ihre Frustration über die unbefugte Verwendung ihrer Arbeit aus, insbesondere wenn es sich um gelöschte Videos oder solche von Erstellern handelt, die ihre Online-Präsenz inzwischen gelöscht haben.
Kreative wie David Pakman von „The David Pakman Show“ und Julia Walsh, CEO von Complexly, äußerten ihren Frust und betonten, wie viel Aufwand und Ressourcen sie in die Produktion von Inhalten investieren.
Reaktionen der Unternehmen auf die Vorwürfe
Als Reaktion auf die Vorwürfe erklärte Sprecherin Jennifer Martinez von Anthropic, dass ihre Nutzung des The Pile-Datensatzes lediglich „eine sehr kleine Teilmenge“ der YouTube Untertitel umfasse und nicht gegen die Servicebedingungen von YouTube verstoße.