يُصدر فريق Meta's FAIR نماذج الذكاء الاصطناعي لإنشاء تحويل الصورة إلى نص وتحويل النص إلى موسيقى

أصدر فريق Meta's Fundamental AI Research (FAIR) مؤخرًا خمسة نماذج بحثية جديدة للذكاء الاصطناعي (AI) . تحتوي هذه النماذج على تطبيقات واسعة النطاق، بما في ذلك إنشاء تحويل الصورة إلى نص ومن النص إلى موسيقى، بالإضافة إلى تحسين إكمال التعليمات البرمجية واكتشاف الكلام الناتج عن الذكاء الاصطناعي.

نموذج الحرباء: إنشاء الصور والنصوص

أحد النماذج الجديرة بالملاحظة التي تم إصدارها هو Chameleon، وهي عائلة من النماذج المختلطة القادرة على إنشاء الصور والنصوص.

على عكس النماذج التقليدية التي تركز على النتائج الأحادية، يمكن لـ Chameleon معالجة المدخلات التي تتكون من النص والصور وإنشاء مجموعة من النصوص والصور كمخرجات. تفتح هذه الإمكانية إمكانيات جديدة، مثل إنشاء تسميات توضيحية إبداعية للصور أو استخدام المطالبات النصية والصور لإنشاء مشاهد جديدة تمامًا.

نموذج التنبؤ متعدد الرموز

حقق فريق Meta's FAIR أيضًا تقدمًا كبيرًا في نماذج إكمال التعليمات البرمجية من خلال تقديم نهج جديد يسمى التنبؤ متعدد الرموز. على عكس النهج السابق الذي يستخدم كلمة واحدة في كل مرة، تعمل هذه الطريقة الجديدة على تدريب نماذج اللغة على التنبؤ بكلمات مستقبلية متعددة في وقت واحد، مما يساعد على تدريب نماذج الذكاء الاصطناعي على التنبؤ بالكلمات بشكل أسرع.

جاسكو: جيل الموسيقى بالذكاء الاصطناعي

النموذج الثالث الذي أصدره فريق Meta's FAIR هو JASCO، والذي يوفر تحكمًا محسنًا في توليد موسيقى الذكاء الاصطناعي. على عكس نماذج تحويل النص إلى موسيقى الحالية التي تعتمد فقط على مدخلات النص، يمكن لـ JASCO قبول مدخلات مختلفة، بما في ذلك الأوتار والإيقاعات، مما يسمح بمزيد من التنوع والإبداع في توليد الموسيقى.

AudioSeal: تحديد موقع الكلام الناتج عن الذكاء الاصطناعي

يعد AudioSeal نظامًا مبتكرًا يمكنه تضمين العلامات المائية في المقاطع الصوتية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي. تتيح هذه التقنية الكشف الدقيق عن المقاطع التي تم إنشاؤها بواسطة الذكاء الاصطناعي ضمن مقتطفات صوتية أطول، مما يوفر أداة قيمة لتحديد المعلومات الخاطئة وعمليات الاحتيال.

تعزيز التنوع في نماذج تحويل النص إلى صورة

للتأكد من أن نماذج تحويل النص إلى صورة تعكس التنوع الجغرافي والثقافي للعالم، قام فريق Meta's FAIR بتطوير مؤشرات تلقائية لتقييم الفوارق الجغرافية المحتملة في هذه النماذج.

من خلال إجراء دراسة توضيحية واسعة النطاق وجمع تعليقات واسعة النطاق، تهدف Meta إلى تحسين تقييمات نماذج تحويل النص إلى صورة وتعزيز التنوع في الصور التي ينشئها الذكاء الاصطناعي.

إن إصدار رموز وشروح تقييم التفاوتات الجغرافية سيمكن الباحثين من تعزيز تمثيل وشمولية نماذجهم التوليدية.

جهود ميتا المستثمرة في تطوير الذكاء الاصطناعي

يتجلى التزام Meta بتطوير الذكاء الاصطناعي في نفقاتها الرأسمالية الكبيرة على الذكاء الاصطناعي وقسم تطوير Metaverse Reality Labs.

ومن المتوقع أن تصل النفقات إلى ما بين 35 مليار دولار و40 مليار دولار[1] بحلول نهاية عام 2024، وتهدف ميتا إلى بناء العديد من خدمات ومنصات الذكاء الاصطناعي، بما في ذلك مساعدي الذكاء الاصطناعي، وتطبيقات الواقع المعزز، والذكاء الاصطناعي للأعمال.

"نحن نبني عددًا من خدمات الذكاء الاصطناعي المختلفة، بدءًا من مساعد الذكاء الاصطناعي لدينا إلى تطبيقات ونظارات الواقع المعزز، إلى واجهات برمجة التطبيقات (واجهات برمجة التطبيقات) التي تساعد المبدعين على إشراك مجتمعاتهم والتي يمكن للمعجبين التفاعل معها، إلى الذكاء الاصطناعي للأعمال الذي نعتقد أنه كل الأعمال التجارية في نهاية المطاف على منصتنا ستستخدم"، أبرزها مارك زوكربيرج ، الرئيس التنفيذي لشركة Meta.