Hjem > Opdage > Metas FAIR-team frigiver AI-modeller til billed-til-tekst- og tekst-til-musik-generering

Metas FAIR-team frigiver AI-modeller til billed-til-tekst- og tekst-til-musik-generering

Skrevet af
ArticleGPT

Gennemgået og faktatjekket af HIX.AI-teamet

4 min læst6 days ago
Metas FAIR-team frigiver AI-modeller til billed-til-tekst- og tekst-til-musik-generering

I en nøddeskal

Meta har afsløret fem nye AI-forskningsmodeller, inklusive dem, der er i stand til at generere både tekst og billeder og registrere AI-genereret tale i større lyduddrag.

Metas Fundamental AI Research (FAIR) team har for nylig udgivet fem nye kunstig intelligens (AI) forskningsmodeller. Disse modeller har en bred vifte af applikationer, herunder billed-til-tekst og tekst-til-musik-generering, samt forbedret kodefuldførelse og detektering af AI-genereret tale.

Kamæleonmodel: Billeder og tekstgenerering

En af de bemærkelsesværdige modeller, der er frigivet, er Chameleon, en familie af blandede modeller, der er i stand til at generere både billeder og tekst.

I modsætning til traditionelle modeller, der fokuserer på unimodale resultater, kan Chameleon behandle input bestående af både tekst og billeder og generere en kombination af tekst og billeder som output. Denne funktion åbner op for nye muligheder, såsom at generere kreative billedtekster til billeder eller bruge tekstprompter og billeder til at skabe helt nye scener.

Multi-token forudsigelsesmodel

Metas FAIR-team har også gjort betydelige fremskridt inden for kodefuldførelsesmodeller ved at introducere en ny tilgang kaldet multi-token forudsigelse. I modsætning til den tidligere et-ord-ad-gangen-tilgang træner denne nye metode sprogmodeller til at forudsige flere fremtidige ord samtidigt, hvilket hjælper med at træne AI-modeller til at forudsige ord hurtigere.

JASCO: AI Music Generation

Den tredje model udgivet af Metas FAIR-team er JASCO, som tilbyder forbedret kontrol over AI-musikgenerering. I modsætning til eksisterende tekst-til-musik-modeller, der udelukkende er afhængige af tekstinput, kan JASCO acceptere forskellige input, inklusive akkorder og beats, hvilket giver mulighed for mere alsidighed og kreativitet i at generere musik.

AudioSeal: Lokalisering af AI-genereret tale

AudioSeal er et banebrydende system, der kan indlejre vandmærker i AI-genererede lydklip. Denne teknik muliggør præcis detektion af AI-genererede segmenter inden for længere lyduddrag, hvilket giver et værdifuldt værktøj til at identificere misinformation og svindel.

Forbedring af mangfoldighed i tekst-til-billede-modeller

For at sikre, at tekst-til-billede-modeller afspejler den geografiske og kulturelle mangfoldighed i verden, har Metas FAIR-team udviklet automatiske indikatorer til at evaluere potentielle geografiske forskelle i disse modeller.

Ved at udføre en storstilet annotationsundersøgelse og indsamle omfattende feedback, sigter Meta på at forbedre evalueringer af tekst-til-billede-modeller og fremme diversitet i AI-genererede billeder.

Frigivelsen af evalueringskoder og annotationer for geografiske forskelle vil gøre det muligt for forskere at forbedre repræsentationen og inklusiviteten af deres generative modeller.

Metas indsats investeret i AI-udvikling

Metas forpligtelse til AI-udvikling er tydelig i dets betydelige anlægsinvesteringer på AI og metaverse-udviklingsafdelingen Reality Labs.

Med udgifter, der forventes at nå op på mellem $35 milliarder og $40 milliarder[1] ved udgangen af 2024, sigter Meta mod at bygge forskellige AI-tjenester og -platforme, herunder AI-assistenter, augmented reality-apps og business AI'er.

"Vi bygger en række forskellige AI-tjenester, fra vores AI-assistent til augmented reality-apps og -briller, til API'er [applikationsprogrammeringsgrænseflader], der hjælper skabere med at engagere deres fællesskaber, og som fans kan interagere med, til forretnings-AI'er, som vi tror, forretninger til sidst på vores platform vil bruge,” fremhævet af Meta CEO Mark Zuckerberg .

Baseret på 3 søgekilder

3 kilder

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

På denne side

  • Kamæleonmodel: Billeder og tekstgenerering
  • Multi-token forudsigelsesmodel
  • JASCO: AI Music Generation
  • Forbedring af mangfoldighed i tekst-til-billede-modeller
  • Metas indsats investeret i AI-udvikling