Heim > Entdecken > Metas FAIR-Team veröffentlicht KI-Modelle zur Bild-zu-Text- und Text-zu-Musik-Generierung

Metas FAIR-Team veröffentlicht KI-Modelle zur Bild-zu-Text- und Text-zu-Musik-Generierung

Geschrieben von
ArticleGPT

Überprüft und auf Fakten geprüft vom HIX.AI-Team

4 Minuten Lesezeit6 days ago
Metas FAIR-Team veröffentlicht KI-Modelle zur Bild-zu-Text- und Text-zu-Musik-Generierung

Kurzgesagt

Meta hat fünf neue KI-Forschungsmodelle vorgestellt, darunter solche, die sowohl Text als auch Bilder generieren und KI-generierte Sprache in längeren Audioausschnitten erkennen können.

Metas Fundamental AI Research (FAIR)-Team hat kürzlich fünf neue Forschungsmodelle für künstliche Intelligenz (KI) veröffentlicht. Diese Modelle haben vielfältige Anwendungsmöglichkeiten, darunter die Generierung von Bild zu Text und Text zu Musik sowie eine verbesserte Codevervollständigung und Erkennung von KI-generierter Sprache.

Chamäleon-Modell: Bilder und Textgenerierung

Eines der bemerkenswerten veröffentlichten Modelle ist Chameleon, eine Familie gemischt-modaler Modelle, die sowohl Bilder als auch Text generieren können.

Im Gegensatz zu herkömmlichen Modellen, die sich auf unimodale Ergebnisse konzentrieren, kann Chameleon sowohl Text- als auch Bildeingaben verarbeiten und als Ausgabe eine Kombination aus Text und Bildern generieren. Diese Fähigkeit eröffnet neue Möglichkeiten, wie beispielsweise die Generierung kreativer Bildunterschriften oder die Verwendung von Textaufforderungen und Bildern zum Erstellen völlig neuer Szenen.

Multi-Token-Vorhersagemodell

Das FAIR-Team von Meta hat auch bei Codevervollständigungsmodellen bedeutende Fortschritte erzielt, indem es einen neuen Ansatz namens Multi-Token-Vorhersage eingeführt hat. Im Gegensatz zum vorherigen Ansatz, bei dem jeweils nur ein Wort auf einmal vorhergesagt wurde, trainiert diese neue Methode Sprachmodelle, mehrere zukünftige Wörter gleichzeitig vorherzusagen, was dazu beiträgt, KI-Modelle zu trainieren, Wörter schneller vorherzusagen.

JASCO: Musikgenerierung mit künstlicher Intelligenz

Das dritte von Metas FAIR-Team veröffentlichte Modell ist JASCO, das eine verbesserte Kontrolle über die KI-Musikgenerierung bietet. Im Gegensatz zu bestehenden Text-to-Music-Modellen, die ausschließlich auf Texteingaben basieren, kann JASCO verschiedene Eingaben akzeptieren, darunter Akkorde und Beats, was mehr Vielseitigkeit und Kreativität bei der Musikgenerierung ermöglicht.

AudioSeal: KI-generierte Sprache lokalisieren

AudioSeal ist ein bahnbrechendes System, das Wasserzeichen in KI-generierte Audioclips einbetten kann. Diese Technik ermöglicht die präzise Erkennung von KI-generierten Segmenten in längeren Audioausschnitten und stellt ein wertvolles Werkzeug zur Identifizierung von Fehlinformationen und Betrug dar.

Verbesserung der Diversität in Text-zu-Bild-Modellen

Um sicherzustellen, dass Text-Bild-Modelle die geografische und kulturelle Vielfalt der Welt widerspiegeln, hat das FAIR-Team von Meta automatische Indikatoren entwickelt, um potenzielle geografische Unterschiede in diesen Modellen zu bewerten.

Durch die Durchführung einer groß angelegten Annotation-Studie und das Sammeln umfassender Rückmeldungen möchte Meta die Bewertungen von Text-zu-Bild-Modellen verbessern und die Vielfalt bei KI-generierten Bildern fördern.

Durch die Veröffentlichung von Bewertungscodes und Anmerkungen zu geografischen Disparitäten können Forscher die Darstellung und Inklusivität ihrer generativen Modelle verbessern.

Meta investiert in die KI-Entwicklung

Das Engagement von Meta in der KI-Entwicklung zeigt sich in den erheblichen Kapitalausgaben für KI und die Metaverse-Entwicklungsabteilung Reality Labs.

Mit voraussichtlichen Ausgaben zwischen 35 und 40 Milliarden US-Dollar[1] bis Ende 2024 zielt Meta darauf ab, verschiedene KI-Dienste und -Plattformen aufzubauen, darunter KI-Assistenten, Augmented-Reality-Apps und Business-KIs.

„Wir entwickeln eine Reihe unterschiedlicher KI-Dienste, von unserem KI-Assistenten über Augmented-Reality-Apps und -Brillen bis hin zu APIs [Anwendungsprogrammierschnittstellen], die Entwicklern helfen, ihre Communities einzubinden und mit denen Fans interagieren können, und Business-KIs, die unserer Meinung nach letztendlich jedes Unternehmen auf unserer Plattform nutzen wird“, betonte Meta-CEO Mark Zuckerberg .

Basierend auf 3 Suchquellen

3 Quellen

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

Auf dieser Seite

  • Chamäleon-Modell: Bilder und Textgenerierung
  • Multi-Token-Vorhersagemodell
  • JASCO: Musikgenerierung mit künstlicher Intelligenz
  • Verbesserung der Diversität in Text-zu-Bild-Modellen
  • Meta investiert in die KI-Entwicklung