Meta's FAIR-team brengt AI-modellen uit voor het genereren van afbeeldingen naar tekst en tekst naar muziek

Meta's Fundamental AI Research (FAIR)-team heeft onlangs vijf nieuwe onderzoeksmodellen voor kunstmatige intelligentie (AI) uitgebracht. Deze modellen hebben uiteenlopende toepassingen, waaronder het genereren van afbeeldingen naar tekst en tekst naar muziek, evenals verbeterde codeaanvulling en detectie van door AI gegenereerde spraak.

Kameleonmodel: genereren van afbeeldingen en tekst

Een van de opmerkelijke modellen die is uitgebracht is Chameleon, een familie van gemengd-modale modellen die zowel afbeeldingen als tekst kunnen genereren.

In tegenstelling tot traditionele modellen die zich richten op unimodale resultaten, kan Chameleon invoer bestaande uit zowel tekst als afbeeldingen verwerken en een combinatie van tekst en afbeeldingen als uitvoer genereren. Deze mogelijkheid opent nieuwe mogelijkheden, zoals het genereren van creatieve bijschriften voor afbeeldingen of het gebruik van tekstprompts en afbeeldingen om geheel nieuwe scènes te creëren.

Voorspellingsmodel met meerdere tokens

Het FAIR-team van Meta heeft ook aanzienlijke vooruitgang geboekt in de modellen voor het voltooien van code door een nieuwe aanpak te introduceren, genaamd multi-token-voorspelling. In tegenstelling tot de vorige benadering van één woord per keer, traint deze nieuwe methode taalmodellen om meerdere toekomstige woorden tegelijkertijd te voorspellen, wat helpt om AI-modellen te trainen om woorden sneller te voorspellen.

JASCO: AI Muziekgeneratie

Het derde model dat door Meta's FAIR-team is uitgebracht, is JASCO, dat verbeterde controle biedt over het genereren van AI-muziek. In tegenstelling tot bestaande tekst-naar-muziek-modellen die uitsluitend afhankelijk zijn van tekstinvoer, kan JASCO verschillende invoer accepteren, waaronder akkoorden en beats, waardoor er meer veelzijdigheid en creativiteit ontstaat bij het genereren van muziek.

AudioSeal: door AI gegenereerde spraak lokaliseren

AudioSeal is een baanbrekend systeem dat watermerken kan insluiten in door AI gegenereerde audioclips. Deze techniek maakt de nauwkeurige detectie van door AI gegenereerde segmenten binnen langere audiofragmenten mogelijk, waardoor een waardevol hulpmiddel wordt geboden voor het identificeren van verkeerde informatie en oplichting.

Diversiteitsverbetering in tekst-naar-beeldmodellen

Om ervoor te zorgen dat tekst-naar-beeldmodellen de geografische en culturele diversiteit van de wereld weerspiegelen, heeft Meta's FAIR-team automatische indicatoren ontwikkeld om potentiële geografische verschillen in deze modellen te evalueren.

Door een grootschalig annotatieonderzoek uit te voeren en uitgebreide feedback te verzamelen, wil Meta de evaluaties van tekst-naar-afbeelding-modellen verbeteren en de diversiteit in door AI gegenereerde afbeeldingen bevorderen.

Het vrijgeven van evaluatiecodes en annotaties voor geografische verschillen zal onderzoekers in staat stellen de representatie en inclusiviteit van hun generatieve modellen te verbeteren.

Meta's inspanningen geïnvesteerd in AI-ontwikkeling

Meta's toewijding aan de ontwikkeling van AI komt duidelijk tot uiting in de aanzienlijke kapitaaluitgaven aan AI en de metaverse-ontwikkelingsdivisie Reality Labs.

Met uitgaven die naar verwachting eind 2024 tussen de 35 miljard en 40 miljard dollar [1] zullen bedragen, wil Meta verschillende AI-diensten en -platforms bouwen, waaronder AI-assistenten, augmented reality-apps en zakelijke AI's.

“We bouwen een aantal verschillende AI-diensten, van onze AI-assistent tot augmented reality-apps en -brillen, tot API’s [application programming interfaces] die makers helpen hun gemeenschappen te betrekken en waarmee fans kunnen communiceren, tot zakelijke AI’s waarvan we denken dat ze allemaal business uiteindelijk op ons platform zal gebruiken”, benadrukt Mark Zuckerberg , CEO van Meta.