Zespół Meta FAIR publikuje modele AI do generowania obrazu na tekst i tekstu na muzykę

Zespół Meta Fundamental AI Research (FAIR) opublikował niedawno pięć nowych modeli badawczych sztucznej inteligencji (AI) . Modele te mają szeroki zakres zastosowań, w tym generowanie obrazu na tekst i tekstu na muzykę, a także ulepszone uzupełnianie kodu i wykrywanie mowy generowanej przez sztuczną inteligencję.

Model kameleona: generowanie obrazów i tekstu

Jednym z godnych uwagi modeli jest Chameleon, rodzina modeli mieszanych modalnych, zdolnych do generowania zarówno obrazów, jak i tekstu.

W przeciwieństwie do tradycyjnych modeli, które skupiają się na wynikach jednomodalnych, Chameleon może przetwarzać dane wejściowe składające się zarówno z tekstu, jak i obrazów, a następnie generować kombinację tekstu i obrazów jako dane wyjściowe. Ta funkcja otwiera nowe możliwości, takie jak generowanie kreatywnych podpisów do obrazów lub używanie podpowiedzi tekstowych i obrazów do tworzenia zupełnie nowych scen.

Model przewidywania wielu tokenów

Zespół Meta FAIR poczynił także znaczące postępy w modelach uzupełniania kodu, wprowadzając nowe podejście zwane przewidywaniem wielu tokenów. W przeciwieństwie do poprzedniego podejścia polegającego na pojedynczym słowie, ta nowa metoda uczy modele językowe, aby przewidywały wiele przyszłych słów jednocześnie, co pomaga trenować modele AI, aby szybciej przewidywały słowa.

JASCO: Generacja muzyki AI

Trzecim modelem wydanym przez zespół Meta's FAIR jest JASCO, który oferuje lepszą kontrolę nad generowaniem muzyki AI. W przeciwieństwie do istniejących modeli zamiany tekstu na muzykę, które opierają się wyłącznie na wprowadzaniu tekstu, JASCO może przyjmować różne dane wejściowe, w tym akordy i rytmy, co pozwala na większą wszechstronność i kreatywność w generowaniu muzyki.

AudioSeal: lokalizowanie mowy generowanej przez sztuczną inteligencję

AudioSeal to przełomowy system, który może osadzać znaki wodne w klipach audio generowanych przez sztuczną inteligencję. Technika ta umożliwia precyzyjne wykrywanie segmentów generowanych przez sztuczną inteligencję w dłuższych fragmentach audio, zapewniając cenne narzędzie do identyfikowania dezinformacji i oszustw.

Zwiększenie różnorodności w modelach zamiany tekstu na obraz

Aby mieć pewność, że modele zamiany tekstu na obraz odzwierciedlają różnorodność geograficzną i kulturową świata, zespół Meta FAIR opracował automatyczne wskaźniki umożliwiające ocenę potencjalnych rozbieżności geograficznych w tych modelach.

Przeprowadzając zakrojone na szeroką skalę badanie adnotacji i zbierając obszerne opinie, Meta ma na celu poprawę oceny modeli zamiany tekstu na obraz i promowanie różnorodności obrazów generowanych przez sztuczną inteligencję.

Udostępnienie kodów i adnotacji dotyczących oceny dysproporcji geograficznych umożliwi badaczom zwiększenie reprezentatywności i włączalności ich modeli generatywnych.

Wysiłki Meta zainwestowane w rozwój sztucznej inteligencji

Zaangażowanie Meta w rozwój sztucznej inteligencji jest widoczne w jej znacznych nakładach kapitałowych na sztuczną inteligencję i dział rozwoju Metaverse Reality Labs.

Przy przewidywanych wydatkach, które do końca 2024 r. wyniosą od 35 do 40 miliardów dolarów[1], Meta zamierza zbudować różne usługi i platformy AI, w tym asystentów AI, aplikacje rzeczywistości rozszerzonej i biznesowe AI.

„Tworzymy szereg różnych usług sztucznej inteligencji, od naszego asystenta AI po aplikacje i okulary rzeczywistości rozszerzonej, interfejsy API [interfejsy programowania aplikacji], które pomagają twórcom angażować swoje społeczności i z którymi fani mogą wchodzić w interakcję, po biznesowe AI, które naszym zdaniem każdy biznes, z którego ostatecznie skorzysta nasza platforma” – podkreślił dyrektor generalny Meta , Mark Zuckerberg .