Dom > Odkryć > Zespół Meta FAIR publikuje modele AI do generowania obrazu na tekst i tekstu na muzykę

Zespół Meta FAIR publikuje modele AI do generowania obrazu na tekst i tekstu na muzykę

Scenariusz
ArticleGPT

Sprawdzone i sprawdzone przez zespół HIX.AI

4 minuty czytania8 days ago
Zespół Meta FAIR publikuje modele AI do generowania obrazu na tekst i tekstu na muzykę

W skrócie

Meta zaprezentowała pięć nowych modeli badawczych sztucznej inteligencji, w tym modele zdolne do generowania zarówno tekstu, jak i obrazów oraz wykrywania mowy generowanej przez sztuczną inteligencję w większych fragmentach audio.

Zespół Meta Fundamental AI Research (FAIR) opublikował niedawno pięć nowych modeli badawczych sztucznej inteligencji (AI) . Modele te mają szeroki zakres zastosowań, w tym generowanie obrazu na tekst i tekstu na muzykę, a także ulepszone uzupełnianie kodu i wykrywanie mowy generowanej przez sztuczną inteligencję.

Model kameleona: generowanie obrazów i tekstu

Jednym z godnych uwagi modeli jest Chameleon, rodzina modeli mieszanych modalnych, zdolnych do generowania zarówno obrazów, jak i tekstu.

W przeciwieństwie do tradycyjnych modeli, które skupiają się na wynikach jednomodalnych, Chameleon może przetwarzać dane wejściowe składające się zarówno z tekstu, jak i obrazów, a następnie generować kombinację tekstu i obrazów jako dane wyjściowe. Ta funkcja otwiera nowe możliwości, takie jak generowanie kreatywnych podpisów do obrazów lub używanie podpowiedzi tekstowych i obrazów do tworzenia zupełnie nowych scen.

Model przewidywania wielu tokenów

Zespół Meta FAIR poczynił także znaczące postępy w modelach uzupełniania kodu, wprowadzając nowe podejście zwane przewidywaniem wielu tokenów. W przeciwieństwie do poprzedniego podejścia polegającego na pojedynczym słowie, ta nowa metoda uczy modele językowe, aby przewidywały wiele przyszłych słów jednocześnie, co pomaga trenować modele AI, aby szybciej przewidywały słowa.

JASCO: Generacja muzyki AI

Trzecim modelem wydanym przez zespół Meta's FAIR jest JASCO, który oferuje lepszą kontrolę nad generowaniem muzyki AI. W przeciwieństwie do istniejących modeli zamiany tekstu na muzykę, które opierają się wyłącznie na wprowadzaniu tekstu, JASCO może przyjmować różne dane wejściowe, w tym akordy i rytmy, co pozwala na większą wszechstronność i kreatywność w generowaniu muzyki.

AudioSeal: lokalizowanie mowy generowanej przez sztuczną inteligencję

AudioSeal to przełomowy system, który może osadzać znaki wodne w klipach audio generowanych przez sztuczną inteligencję. Technika ta umożliwia precyzyjne wykrywanie segmentów generowanych przez sztuczną inteligencję w dłuższych fragmentach audio, zapewniając cenne narzędzie do identyfikowania dezinformacji i oszustw.

Zwiększenie różnorodności w modelach zamiany tekstu na obraz

Aby mieć pewność, że modele zamiany tekstu na obraz odzwierciedlają różnorodność geograficzną i kulturową świata, zespół Meta FAIR opracował automatyczne wskaźniki umożliwiające ocenę potencjalnych rozbieżności geograficznych w tych modelach.

Przeprowadzając zakrojone na szeroką skalę badanie adnotacji i zbierając obszerne opinie, Meta ma na celu poprawę oceny modeli zamiany tekstu na obraz i promowanie różnorodności obrazów generowanych przez sztuczną inteligencję.

Udostępnienie kodów i adnotacji dotyczących oceny dysproporcji geograficznych umożliwi badaczom zwiększenie reprezentatywności i włączalności ich modeli generatywnych.

Wysiłki Meta zainwestowane w rozwój sztucznej inteligencji

Zaangażowanie Meta w rozwój sztucznej inteligencji jest widoczne w jej znacznych nakładach kapitałowych na sztuczną inteligencję i dział rozwoju Metaverse Reality Labs.

Przy przewidywanych wydatkach, które do końca 2024 r. wyniosą od 35 do 40 miliardów dolarów[1], Meta zamierza zbudować różne usługi i platformy AI, w tym asystentów AI, aplikacje rzeczywistości rozszerzonej i biznesowe AI.

„Tworzymy szereg różnych usług sztucznej inteligencji, od naszego asystenta AI po aplikacje i okulary rzeczywistości rozszerzonej, interfejsy API [interfejsy programowania aplikacji], które pomagają twórcom angażować swoje społeczności i z którymi fani mogą wchodzić w interakcję, po biznesowe AI, które naszym zdaniem każdy biznes, z którego ostatecznie skorzysta nasza platforma” – podkreślił dyrektor generalny Meta , Mark Zuckerberg .

Na podstawie 3 źródeł wyszukiwania

3 źródła

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

Na tej stronie

  • Model kameleona: generowanie obrazów i tekstu
  • Model przewidywania wielu tokenów
  • JASCO: Generacja muzyki AI
  • Zwiększenie różnorodności w modelach zamiany tekstu na obraz
  • Wysiłki Meta zainwestowane w rozwój sztucznej inteligencji