Metas FAIR-Team veröffentlicht KI-Modelle zur Bild-zu-Text- und Text-zu-Musik-Generierung

Metas Fundamental AI Research (FAIR)-Team hat kürzlich fünf neue Forschungsmodelle für künstliche Intelligenz (KI) veröffentlicht. Diese Modelle haben vielfältige Anwendungsmöglichkeiten, darunter die Generierung von Bild zu Text und Text zu Musik sowie eine verbesserte Codevervollständigung und Erkennung von KI-generierter Sprache.

Chamäleon-Modell: Bilder und Textgenerierung

Eines der bemerkenswerten veröffentlichten Modelle ist Chameleon, eine Familie gemischt-modaler Modelle, die sowohl Bilder als auch Text generieren können.

Im Gegensatz zu herkömmlichen Modellen, die sich auf unimodale Ergebnisse konzentrieren, kann Chameleon sowohl Text- als auch Bildeingaben verarbeiten und als Ausgabe eine Kombination aus Text und Bildern generieren. Diese Fähigkeit eröffnet neue Möglichkeiten, wie beispielsweise die Generierung kreativer Bildunterschriften oder die Verwendung von Textaufforderungen und Bildern zum Erstellen völlig neuer Szenen.

Multi-Token-Vorhersagemodell

Das FAIR-Team von Meta hat auch bei Codevervollständigungsmodellen bedeutende Fortschritte erzielt, indem es einen neuen Ansatz namens Multi-Token-Vorhersage eingeführt hat. Im Gegensatz zum vorherigen Ansatz, bei dem jeweils nur ein Wort auf einmal vorhergesagt wurde, trainiert diese neue Methode Sprachmodelle, mehrere zukünftige Wörter gleichzeitig vorherzusagen, was dazu beiträgt, KI-Modelle zu trainieren, Wörter schneller vorherzusagen.

JASCO: Musikgenerierung mit künstlicher Intelligenz

Das dritte von Metas FAIR-Team veröffentlichte Modell ist JASCO, das eine verbesserte Kontrolle über die KI-Musikgenerierung bietet. Im Gegensatz zu bestehenden Text-to-Music-Modellen, die ausschließlich auf Texteingaben basieren, kann JASCO verschiedene Eingaben akzeptieren, darunter Akkorde und Beats, was mehr Vielseitigkeit und Kreativität bei der Musikgenerierung ermöglicht.

AudioSeal: KI-generierte Sprache lokalisieren

AudioSeal ist ein bahnbrechendes System, das Wasserzeichen in KI-generierte Audioclips einbetten kann. Diese Technik ermöglicht die präzise Erkennung von KI-generierten Segmenten in längeren Audioausschnitten und stellt ein wertvolles Werkzeug zur Identifizierung von Fehlinformationen und Betrug dar.

Verbesserung der Diversität in Text-zu-Bild-Modellen

Um sicherzustellen, dass Text-Bild-Modelle die geografische und kulturelle Vielfalt der Welt widerspiegeln, hat das FAIR-Team von Meta automatische Indikatoren entwickelt, um potenzielle geografische Unterschiede in diesen Modellen zu bewerten.

Durch die Durchführung einer groß angelegten Annotation-Studie und das Sammeln umfassender Rückmeldungen möchte Meta die Bewertungen von Text-zu-Bild-Modellen verbessern und die Vielfalt bei KI-generierten Bildern fördern.

Durch die Veröffentlichung von Bewertungscodes und Anmerkungen zu geografischen Disparitäten können Forscher die Darstellung und Inklusivität ihrer generativen Modelle verbessern.

Meta investiert in die KI-Entwicklung

Das Engagement von Meta in der KI-Entwicklung zeigt sich in den erheblichen Kapitalausgaben für KI und die Metaverse-Entwicklungsabteilung Reality Labs.

Mit voraussichtlichen Ausgaben zwischen 35 und 40 Milliarden US-Dollar[1] bis Ende 2024 zielt Meta darauf ab, verschiedene KI-Dienste und -Plattformen aufzubauen, darunter KI-Assistenten, Augmented-Reality-Apps und Business-KIs.

„Wir entwickeln eine Reihe unterschiedlicher KI-Dienste, von unserem KI-Assistenten über Augmented-Reality-Apps und -Brillen bis hin zu APIs [Anwendungsprogrammierschnittstellen], die Entwicklern helfen, ihre Communities einzubinden und mit denen Fans interagieren können, und Business-KIs, die unserer Meinung nach letztendlich jedes Unternehmen auf unserer Plattform nutzen wird“, betonte Meta-CEO Mark Zuckerberg .