Metas FAIR-team frigiver AI-modeller til billed-til-tekst og tekst-til-musik-generering

Metas Fundamental AI Research (FAIR) team har for nylig udgivet fem nye kunstig intelligens (AI) forskningsmodeller. Disse modeller har en bred vifte af applikationer, herunder billed-til-tekst og tekst-til-musik-generering, samt forbedret kodefuldførelse og detektering af AI-genereret tale.

Kamæleonmodel: Billeder og tekstgenerering

En af de bemærkelsesværdige modeller, der er frigivet, er Chameleon, en familie af blandede modeller, der er i stand til at generere både billeder og tekst.

I modsætning til traditionelle modeller, der fokuserer på unimodale resultater, kan Chameleon behandle input bestående af både tekst og billeder og generere en kombination af tekst og billeder som output. Denne funktion åbner op for nye muligheder, såsom at generere kreative billedtekster til billeder eller bruge tekstprompter og billeder til at skabe helt nye scener.

Multi-token forudsigelsesmodel

Metas FAIR-team har også gjort betydelige fremskridt inden for kodefuldførelsesmodeller ved at introducere en ny tilgang kaldet multi-token forudsigelse. I modsætning til den tidligere et-ord-ad-gangen-tilgang træner denne nye metode sprogmodeller til at forudsige flere fremtidige ord samtidigt, hvilket hjælper med at træne AI-modeller til at forudsige ord hurtigere.

JASCO: AI Music Generation

Den tredje model udgivet af Metas FAIR-team er JASCO, som tilbyder forbedret kontrol over AI-musikgenerering. I modsætning til eksisterende tekst-til-musik-modeller, der udelukkende er afhængige af tekstinput, kan JASCO acceptere forskellige input, inklusive akkorder og beats, hvilket giver mulighed for mere alsidighed og kreativitet i at generere musik.

AudioSeal: Lokalisering af AI-genereret tale

AudioSeal er et banebrydende system, der kan indlejre vandmærker i AI-genererede lydklip. Denne teknik muliggør præcis detektion af AI-genererede segmenter inden for længere lyduddrag, hvilket giver et værdifuldt værktøj til at identificere misinformation og svindel.

Forbedring af mangfoldighed i tekst-til-billede-modeller

For at sikre, at tekst-til-billede-modeller afspejler den geografiske og kulturelle mangfoldighed i verden, har Metas FAIR-team udviklet automatiske indikatorer til at evaluere potentielle geografiske forskelle i disse modeller.

Ved at udføre en storstilet annotationsundersøgelse og indsamle omfattende feedback, sigter Meta på at forbedre evalueringer af tekst-til-billede-modeller og fremme diversitet i AI-genererede billeder.

Frigivelsen af evalueringskoder og annotationer for geografiske forskelle vil gøre det muligt for forskere at forbedre repræsentationen og inklusiviteten af deres generative modeller.

Metas indsats investeret i AI-udvikling

Metas forpligtelse til AI-udvikling er tydelig i dets betydelige anlægsinvesteringer på AI og metaverse-udviklingsafdelingen Reality Labs.

Med udgifter, der forventes at nå op på mellem $35 milliarder og $40 milliarder[1] ved udgangen af 2024, sigter Meta mod at bygge forskellige AI-tjenester og -platforme, herunder AI-assistenter, augmented reality-apps og business AI'er.

"Vi bygger en række forskellige AI-tjenester, fra vores AI-assistent til augmented reality-apps og -briller, til API'er [applikationsprogrammeringsgrænseflader], der hjælper skabere med at engagere deres fællesskaber, og som fans kan interagere med, til forretnings-AI'er, som vi tror, forretninger til sidst på vores platform vil bruge,” fremhævet af Meta CEO Mark Zuckerberg .

Metas FAIR-team frigiver AI-modeller til billed-til-tekst- og tekst-til-musik-generering

Kamæleonmodel: Billeder og tekstgenerering

Multi-token forudsigelsesmodel

JASCO: AI Music Generation

Forbedring af mangfoldighed i tekst-til-billede-modeller

Metas indsats investeret i AI-udvikling