بيت > يكتشف > يُصدر فريق Meta's FAIR نماذج الذكاء الاصطناعي لإنشاء تحويل الصورة إلى نص وتحويل النص إلى موسيقى

يُصدر فريق Meta's FAIR نماذج الذكاء الاصطناعي لإنشاء تحويل الصورة إلى نص وتحويل النص إلى موسيقى

كتب بواسطة
ArticleGPT

تمت مراجعته والتحقق من صحته بواسطة فريق HIX.AI

4 دقائق قراءة8 days ago
يُصدر فريق Meta's FAIR نماذج الذكاء الاصطناعي لإنشاء تحويل الصورة إلى نص وتحويل النص إلى موسيقى

شيء صغير

كشفت ميتا النقاب عن خمسة نماذج بحثية جديدة للذكاء الاصطناعي، بما في ذلك تلك القادرة على إنشاء نصوص وصور واكتشاف الكلام الناتج عن الذكاء الاصطناعي ضمن مقتطفات صوتية أكبر.

أصدر فريق Meta's Fundamental AI Research (FAIR) مؤخرًا خمسة نماذج بحثية جديدة للذكاء الاصطناعي (AI) . تحتوي هذه النماذج على تطبيقات واسعة النطاق، بما في ذلك إنشاء تحويل الصورة إلى نص ومن النص إلى موسيقى، بالإضافة إلى تحسين إكمال التعليمات البرمجية واكتشاف الكلام الناتج عن الذكاء الاصطناعي.

نموذج الحرباء: إنشاء الصور والنصوص

أحد النماذج الجديرة بالملاحظة التي تم إصدارها هو Chameleon، وهي عائلة من النماذج المختلطة القادرة على إنشاء الصور والنصوص.

على عكس النماذج التقليدية التي تركز على النتائج الأحادية، يمكن لـ Chameleon معالجة المدخلات التي تتكون من النص والصور وإنشاء مجموعة من النصوص والصور كمخرجات. تفتح هذه الإمكانية إمكانيات جديدة، مثل إنشاء تسميات توضيحية إبداعية للصور أو استخدام المطالبات النصية والصور لإنشاء مشاهد جديدة تمامًا.

نموذج التنبؤ متعدد الرموز

حقق فريق Meta's FAIR أيضًا تقدمًا كبيرًا في نماذج إكمال التعليمات البرمجية من خلال تقديم نهج جديد يسمى التنبؤ متعدد الرموز. على عكس النهج السابق الذي يستخدم كلمة واحدة في كل مرة، تعمل هذه الطريقة الجديدة على تدريب نماذج اللغة على التنبؤ بكلمات مستقبلية متعددة في وقت واحد، مما يساعد على تدريب نماذج الذكاء الاصطناعي على التنبؤ بالكلمات بشكل أسرع.

جاسكو: جيل الموسيقى بالذكاء الاصطناعي

النموذج الثالث الذي أصدره فريق Meta's FAIR هو JASCO، والذي يوفر تحكمًا محسنًا في توليد موسيقى الذكاء الاصطناعي. على عكس نماذج تحويل النص إلى موسيقى الحالية التي تعتمد فقط على مدخلات النص، يمكن لـ JASCO قبول مدخلات مختلفة، بما في ذلك الأوتار والإيقاعات، مما يسمح بمزيد من التنوع والإبداع في توليد الموسيقى.

AudioSeal: تحديد موقع الكلام الناتج عن الذكاء الاصطناعي

يعد AudioSeal نظامًا مبتكرًا يمكنه تضمين العلامات المائية في المقاطع الصوتية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي. تتيح هذه التقنية الكشف الدقيق عن المقاطع التي تم إنشاؤها بواسطة الذكاء الاصطناعي ضمن مقتطفات صوتية أطول، مما يوفر أداة قيمة لتحديد المعلومات الخاطئة وعمليات الاحتيال.

تعزيز التنوع في نماذج تحويل النص إلى صورة

للتأكد من أن نماذج تحويل النص إلى صورة تعكس التنوع الجغرافي والثقافي للعالم، قام فريق Meta's FAIR بتطوير مؤشرات تلقائية لتقييم الفوارق الجغرافية المحتملة في هذه النماذج.

من خلال إجراء دراسة توضيحية واسعة النطاق وجمع تعليقات واسعة النطاق، تهدف Meta إلى تحسين تقييمات نماذج تحويل النص إلى صورة وتعزيز التنوع في الصور التي ينشئها الذكاء الاصطناعي.

إن إصدار رموز وشروح تقييم التفاوتات الجغرافية سيمكن الباحثين من تعزيز تمثيل وشمولية نماذجهم التوليدية.

جهود ميتا المستثمرة في تطوير الذكاء الاصطناعي

يتجلى التزام Meta بتطوير الذكاء الاصطناعي في نفقاتها الرأسمالية الكبيرة على الذكاء الاصطناعي وقسم تطوير Metaverse Reality Labs.

ومن المتوقع أن تصل النفقات إلى ما بين 35 مليار دولار و40 مليار دولار[1] بحلول نهاية عام 2024، وتهدف ميتا إلى بناء العديد من خدمات ومنصات الذكاء الاصطناعي، بما في ذلك مساعدي الذكاء الاصطناعي، وتطبيقات الواقع المعزز، والذكاء الاصطناعي للأعمال.

"نحن نبني عددًا من خدمات الذكاء الاصطناعي المختلفة، بدءًا من مساعد الذكاء الاصطناعي لدينا إلى تطبيقات ونظارات الواقع المعزز، إلى واجهات برمجة التطبيقات (واجهات برمجة التطبيقات) التي تساعد المبدعين على إشراك مجتمعاتهم والتي يمكن للمعجبين التفاعل معها، إلى الذكاء الاصطناعي للأعمال الذي نعتقد أنه كل الأعمال التجارية في نهاية المطاف على منصتنا ستستخدم"، أبرزها مارك زوكربيرج ، الرئيس التنفيذي لشركة Meta.

بناءً على 3 مصادر بحث

3 مصادر

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

على هذه الصفحة

  • نموذج الحرباء: إنشاء الصور والنصوص
  • نموذج التنبؤ متعدد الرموز
  • جاسكو: جيل الموسيقى بالذكاء الاصطناعي
  • تعزيز التنوع في نماذج تحويل النص إلى صورة
  • جهود ميتا المستثمرة في تطوير الذكاء الاصطناعي