Il team FAIR di Meta rilascia modelli AI per la generazione di immagini in testo e testo in musica

Il team Fundamental AI Research (FAIR) di Meta ha recentemente rilasciato cinque nuovi modelli di ricerca sull'intelligenza artificiale (AI) . Questi modelli hanno applicazioni ad ampio raggio, inclusa la generazione di immagini in testo e di testo in musica, nonché un migliore completamento del codice e rilevamento del parlato generato dall’intelligenza artificiale.

Modello Camaleonte: Generazione di Immagini e Testo

Uno dei modelli degni di nota rilasciati è Chameleon, una famiglia di modelli misti in grado di generare sia immagini che testo.

A differenza dei modelli tradizionali che si concentrano su risultati unimodali, Chameleon può elaborare input costituiti sia da testo che da immagini e generare una combinazione di testo e immagini come output. Questa funzionalità apre nuove possibilità, come la generazione di didascalie creative per le immagini o l'utilizzo di suggerimenti di testo e immagini per creare scene completamente nuove.

Modello di previsione multi-token

Il team FAIR di Meta ha anche compiuto progressi significativi nei modelli di completamento del codice introducendo un nuovo approccio chiamato previsione multi-token. A differenza del precedente approccio “una parola alla volta”, questo nuovo metodo addestra i modelli linguistici a prevedere più parole future contemporaneamente, il che aiuta ad addestrare i modelli AI a prevedere le parole più velocemente.

JASCO: Generazione musicale AI

Il terzo modello rilasciato dal team FAIR di Meta è JASCO, che offre un migliore controllo sulla generazione di musica AI. A differenza dei modelli text-to-music esistenti che si basano esclusivamente su input di testo, JASCO può accettare vari input, inclusi accordi e ritmi, consentendo maggiore versatilità e creatività nella generazione di musica.

AudioSeal: localizzazione del parlato generato dall'intelligenza artificiale

AudioSeal è un sistema rivoluzionario in grado di incorporare filigrane nelle clip audio generate dall'intelligenza artificiale. Questa tecnica consente il rilevamento preciso dei segmenti generati dall'intelligenza artificiale all'interno di frammenti audio più lunghi, fornendo uno strumento prezioso per identificare disinformazione e truffe.

Miglioramento della diversità nei modelli testo-immagine

Per garantire che i modelli testo-immagine riflettano la diversità geografica e culturale del mondo, il team FAIR di Meta ha sviluppato indicatori automatici per valutare le potenziali disparità geografiche in questi modelli.

Conducendo uno studio sulle annotazioni su larga scala e raccogliendo feedback approfonditi, Meta mira a migliorare le valutazioni dei modelli testo-immagine e a promuovere la diversità nelle immagini generate dall'intelligenza artificiale.

Il rilascio di codici e annotazioni per la valutazione delle disparità geografiche consentirà ai ricercatori di migliorare la rappresentazione e l'inclusività dei loro modelli generativi.

Gli sforzi di Meta investiti nello sviluppo dell'intelligenza artificiale

L'impegno di Meta per lo sviluppo dell'intelligenza artificiale è evidente nelle sue sostanziali spese in conto capitale sull'intelligenza artificiale e sulla divisione di sviluppo del metaverso Reality Labs.

Con una spesa prevista che raggiungerà tra i 35 e i 40 miliardi di dollari[1] entro la fine del 2024, Meta mira a costruire vari servizi e piattaforme di intelligenza artificiale, tra cui assistenti AI, app di realtà aumentata e IA aziendali.

"Stiamo costruendo una serie di diversi servizi IA, dal nostro assistente AI alle app e agli occhiali per realtà aumentata, alle API [interfacce di programmazione delle applicazioni] che aiutano i creatori a coinvolgere le loro comunità e con cui i fan possono interagire, alle IA aziendali che pensiamo ogni giorno." le aziende eventualmente utilizzeranno la nostra piattaforma", ha sottolineato Mark Zuckerberg, CEO di Meta.