Metas FAIR-team lanserer AI-modeller for bilde-til-tekst og tekst-til-musikk-generering

Metas Fundamental AI Research (FAIR)-team har nylig sluppet fem nye forskningsmodeller for kunstig intelligens (AI) . Disse modellene har omfattende applikasjoner, inkludert bilde-til-tekst og tekst-til-musikk generering, samt forbedret kodefullføring og gjenkjenning av AI-generert tale.

Kameleonmodell: Bilder og tekstgenerering

En av de bemerkelsesverdige modellene som er utgitt er Chameleon, en familie av blandede modeller som er i stand til å generere både bilder og tekst.

I motsetning til tradisjonelle modeller som fokuserer på unimodale resultater, kan Chameleon behandle input som består av både tekst og bilder og generere en kombinasjon av tekst og bilder som utdata. Denne muligheten åpner for nye muligheter, for eksempel å generere kreative bildetekster for bilder eller bruke tekstmeldinger og bilder for å lage helt nye scener.

Multi-token prediksjonsmodell

Metas FAIR-team har også gjort betydelige fremskritt i kodefullføringsmodeller ved å introdusere en ny tilnærming kalt multi-token prediksjon. I motsetning til den forrige ett-ord-om-gangen-tilnærmingen, trener denne nye metoden språkmodeller til å forutsi flere fremtidige ord samtidig, noe som hjelper til med å trene AI-modeller til å forutsi ord raskere.

JASCO: AI Music Generation

Den tredje modellen utgitt av Metas FAIR-team er JASCO, som tilbyr forbedret kontroll over AI-musikkgenerering. I motsetning til eksisterende tekst-til-musikk-modeller som utelukkende er avhengige av tekstinndata, kan JASCO akseptere ulike innganger, inkludert akkorder og beats, noe som gir mer allsidighet og kreativitet i å generere musikk.

AudioSeal: Lokalisering av AI-generert tale

AudioSeal er et banebrytende system som kan legge inn vannmerker i AI-genererte lydklipp. Denne teknikken muliggjør nøyaktig deteksjon av AI-genererte segmenter i lengre lydbiter, og gir et verdifullt verktøy for å identifisere feilinformasjon og svindel.

Forbedring av mangfold i tekst-til-bilde-modeller

For å sikre at tekst-til-bilde-modeller gjenspeiler det geografiske og kulturelle mangfoldet i verden, har Metas FAIR-team utviklet automatiske indikatorer for å evaluere potensielle geografiske forskjeller i disse modellene.

Ved å gjennomføre en storstilt kommentarstudie og samle inn omfattende tilbakemeldinger, har Meta som mål å forbedre evalueringer av tekst-til-bilde-modeller og fremme mangfold i AI-genererte bilder.

Utgivelsen av evalueringskoder og merknader for geografiske forskjeller vil gjøre det mulig for forskere å forbedre representasjonen og inkluderendeheten til deres generative modeller.

Metas innsats investert i AI-utvikling

Metas forpliktelse til AI-utvikling er tydelig i dets betydelige kapitalutgifter på AI og metavers-utviklingsdivisjonen Reality Labs.

Med utgifter anslått til å nå mellom $35 milliarder og $40 milliarder[1] innen utgangen av 2024, har Meta som mål å bygge ulike AI-tjenester og plattformer, inkludert AI-assistenter, apper for utvidet virkelighet og forretnings-AI.

«Vi bygger en rekke forskjellige AI-tjenester, fra AI-assistenten vår til apper og briller med utvidet virkelighet, til APIer [applikasjonsprogrammeringsgrensesnitt] som hjelper skapere med å engasjere fellesskapene deres og som fans kan samhandle med, til forretnings-AIer som vi tror hver virksomheten til slutt på plattformen vår vil bruke,” fremhevet av Meta-sjef Mark Zuckerberg .