Thuis > Ontdekken > Meta's FAIR-team brengt AI-modellen uit voor het genereren van afbeeldingen naar tekst en tekst naar muziek

Meta's FAIR-team brengt AI-modellen uit voor het genereren van afbeeldingen naar tekst en tekst naar muziek

Geschreven door
ArticleGPT

Beoordeeld en op feiten gecontroleerd door het HIX.AI-team

4 minuten lezen8 days ago
Meta's FAIR-team brengt AI-modellen uit voor het genereren van afbeeldingen naar tekst en tekst naar muziek

In een notendop

Meta heeft vijf nieuwe AI-onderzoeksmodellen onthuld, waaronder modellen die zowel tekst als afbeeldingen kunnen genereren en door AI gegenereerde spraak kunnen detecteren in grotere audiofragmenten.

Meta's Fundamental AI Research (FAIR)-team heeft onlangs vijf nieuwe onderzoeksmodellen voor kunstmatige intelligentie (AI) uitgebracht. Deze modellen hebben uiteenlopende toepassingen, waaronder het genereren van afbeeldingen naar tekst en tekst naar muziek, evenals verbeterde codeaanvulling en detectie van door AI gegenereerde spraak.

Kameleonmodel: genereren van afbeeldingen en tekst

Een van de opmerkelijke modellen die is uitgebracht is Chameleon, een familie van gemengd-modale modellen die zowel afbeeldingen als tekst kunnen genereren.

In tegenstelling tot traditionele modellen die zich richten op unimodale resultaten, kan Chameleon invoer bestaande uit zowel tekst als afbeeldingen verwerken en een combinatie van tekst en afbeeldingen als uitvoer genereren. Deze mogelijkheid opent nieuwe mogelijkheden, zoals het genereren van creatieve bijschriften voor afbeeldingen of het gebruik van tekstprompts en afbeeldingen om geheel nieuwe scènes te creëren.

Voorspellingsmodel met meerdere tokens

Het FAIR-team van Meta heeft ook aanzienlijke vooruitgang geboekt in de modellen voor het voltooien van code door een nieuwe aanpak te introduceren, genaamd multi-token-voorspelling. In tegenstelling tot de vorige benadering van één woord per keer, traint deze nieuwe methode taalmodellen om meerdere toekomstige woorden tegelijkertijd te voorspellen, wat helpt om AI-modellen te trainen om woorden sneller te voorspellen.

JASCO: AI Muziekgeneratie

Het derde model dat door Meta's FAIR-team is uitgebracht, is JASCO, dat verbeterde controle biedt over het genereren van AI-muziek. In tegenstelling tot bestaande tekst-naar-muziek-modellen die uitsluitend afhankelijk zijn van tekstinvoer, kan JASCO verschillende invoer accepteren, waaronder akkoorden en beats, waardoor er meer veelzijdigheid en creativiteit ontstaat bij het genereren van muziek.

AudioSeal: door AI gegenereerde spraak lokaliseren

AudioSeal is een baanbrekend systeem dat watermerken kan insluiten in door AI gegenereerde audioclips. Deze techniek maakt de nauwkeurige detectie van door AI gegenereerde segmenten binnen langere audiofragmenten mogelijk, waardoor een waardevol hulpmiddel wordt geboden voor het identificeren van verkeerde informatie en oplichting.

Diversiteitsverbetering in tekst-naar-beeldmodellen

Om ervoor te zorgen dat tekst-naar-beeldmodellen de geografische en culturele diversiteit van de wereld weerspiegelen, heeft Meta's FAIR-team automatische indicatoren ontwikkeld om potentiële geografische verschillen in deze modellen te evalueren.

Door een grootschalig annotatieonderzoek uit te voeren en uitgebreide feedback te verzamelen, wil Meta de evaluaties van tekst-naar-afbeelding-modellen verbeteren en de diversiteit in door AI gegenereerde afbeeldingen bevorderen.

Het vrijgeven van evaluatiecodes en annotaties voor geografische verschillen zal onderzoekers in staat stellen de representatie en inclusiviteit van hun generatieve modellen te verbeteren.

Meta's inspanningen geïnvesteerd in AI-ontwikkeling

Meta's toewijding aan de ontwikkeling van AI komt duidelijk tot uiting in de aanzienlijke kapitaaluitgaven aan AI en de metaverse-ontwikkelingsdivisie Reality Labs.

Met uitgaven die naar verwachting eind 2024 tussen de 35 miljard en 40 miljard dollar [1] zullen bedragen, wil Meta verschillende AI-diensten en -platforms bouwen, waaronder AI-assistenten, augmented reality-apps en zakelijke AI's.

“We bouwen een aantal verschillende AI-diensten, van onze AI-assistent tot augmented reality-apps en -brillen, tot API’s [application programming interfaces] die makers helpen hun gemeenschappen te betrekken en waarmee fans kunnen communiceren, tot zakelijke AI’s waarvan we denken dat ze allemaal business uiteindelijk op ons platform zal gebruiken”, benadrukt Mark Zuckerberg , CEO van Meta.

Gebaseerd op 3 zoekbronnen

3 bronnen

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

Op deze pagina

  • Kameleonmodel: genereren van afbeeldingen en tekst
  • Voorspellingsmodel met meerdere tokens
  • JASCO: AI Muziekgeneratie
  • Diversiteitsverbetering in tekst-naar-beeldmodellen
  • Meta's inspanningen geïnvesteerd in AI-ontwikkeling