ทีมงาน FAIR ของ Meta เปิดตัวโมเดล AI สำหรับการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง

ทีมวิจัย AI ขั้นพื้นฐาน (FAIR) ของ Meta ได้เปิดตัวโมเดลการวิจัย ปัญญาประดิษฐ์ (AI) ใหม่ 5 รูปแบบเมื่อเร็ว ๆ นี้ โมเดลเหล่านี้มีแอปพลิเคชันที่หลากหลาย รวมถึงการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง ตลอดจนการปรับปรุงการเติมโค้ดให้สมบูรณ์และการตรวจจับคำพูดที่สร้างโดย AI

โมเดลกิ้งก่า: การสร้างรูปภาพและข้อความ

หนึ่งในโมเดลที่น่าสังเกตที่เปิดตัวคือ Chameleon ซึ่งเป็นตระกูลของโมเดลแบบผสมที่สามารถสร้างทั้งรูปภาพและข้อความได้

แตกต่างจากโมเดลแบบดั้งเดิมที่มุ่งเน้นไปที่ผลลัพธ์แบบ Unimodal Chameleon สามารถประมวลผลอินพุตที่ประกอบด้วยทั้งข้อความและรูปภาพ และสร้างการผสมผสานระหว่างข้อความและรูปภาพเป็นเอาต์พุต ความสามารถนี้เปิดโอกาสใหม่ๆ เช่น การสร้างคำบรรยายที่สร้างสรรค์สำหรับรูปภาพ หรือใช้ข้อความแจ้งและรูปภาพเพื่อสร้างฉากใหม่ทั้งหมด

โมเดลการทำนายหลายโทเค็น

ทีมงาน FAIR ของ Meta ได้สร้างความก้าวหน้าที่สำคัญในโมเดลการเติมโค้ดให้สมบูรณ์ด้วยการแนะนำแนวทางใหม่ที่เรียกว่าการทำนายโทเค็นหลายโทเค็น วิธีการใหม่นี้จะฝึกโมเดลภาษาให้ทำนายคำศัพท์ในอนาคตหลายคำได้พร้อมกัน ซึ่งต่างจากวิธีการแบบทีละคำก่อนหน้านี้ ซึ่งจะช่วยฝึกโมเดล AI ให้ทำนายคำศัพท์ได้เร็วขึ้น

JASCO: การสร้างเพลงด้วย AI

โมเดลที่สามที่ออกโดยทีมงาน FAIR ของ Meta คือ JASCO ซึ่งให้การควบคุมการสร้างเพลง AI ที่ดีขึ้น แตกต่างจากโมเดลการแปลงข้อความเป็นเพลงที่มีอยู่ซึ่งอาศัยการป้อนข้อความเพียงอย่างเดียว JASCO สามารถยอมรับอินพุตต่างๆ รวมถึงคอร์ดและจังหวะ ช่วยให้มีความหลากหลายและความคิดสร้างสรรค์มากขึ้นในการสร้างดนตรี

AudioSeal: การค้นหาคำพูดที่สร้างโดย AI

AudioSeal เป็นระบบที่ก้าวล้ำที่สามารถฝังลายน้ำลงในคลิปเสียงที่สร้างโดย AI เทคนิคนี้ช่วยให้สามารถตรวจจับส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในตัวอย่างเสียงที่ยาวขึ้น ซึ่งเป็นเครื่องมือที่มีค่าสำหรับการระบุข้อมูลที่ผิดและการหลอกลวง

การปรับปรุงความหลากหลายในโมเดลข้อความเป็นรูปภาพ

เพื่อให้แน่ใจว่าโมเดลข้อความเป็นรูปภาพสะท้อนถึงความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก ทีมงาน FAIR ของ Meta ได้พัฒนาตัวบ่งชี้อัตโนมัติเพื่อประเมินความแตกต่างทางภูมิศาสตร์ที่อาจเกิดขึ้นในโมเดลเหล่านี้

ด้วยการดำเนินการศึกษาคำอธิบายประกอบขนาดใหญ่และรวบรวมคำติชมอย่างกว้างขวาง Meta มีเป้าหมายที่จะปรับปรุงการประเมินโมเดลข้อความเป็นรูปภาพ และส่งเสริมความหลากหลายในรูปภาพที่สร้างโดย AI

การเปิดตัวรหัสการประเมินความแตกต่างทางภูมิศาสตร์และคำอธิบายประกอบจะช่วยให้นักวิจัยสามารถปรับปรุงการเป็นตัวแทนและการไม่แบ่งแยกของแบบจำลองกำเนิดของพวกเขาได้

ความพยายามของ Meta ลงทุนในการพัฒนา AI

ความมุ่งมั่นของ Meta ในการพัฒนา AI ปรากฏชัดจากรายจ่ายฝ่ายทุนจำนวนมากในด้าน AI และ Reality Labs ของแผนกการพัฒนา metaverse

ด้วยค่าใช้จ่ายที่คาดว่าจะสูงถึงระหว่าง 35 พันล้านดอลลาร์ถึง 40 พันล้านดอลลาร์[1] ภายในสิ้นปี 2567 Meta ตั้งเป้าที่จะสร้างบริการและแพลตฟอร์ม AI ที่หลากหลาย รวมถึงผู้ช่วย AI แอปความเป็นจริงเสริม และ AI ทางธุรกิจ

“เรากำลังสร้างบริการ AI ที่แตกต่างกันจำนวนหนึ่ง ตั้งแต่ผู้ช่วย AI ของเราไปจนถึงแอปและแว่นตาเติมความเป็นจริง ไปจนถึง APIs [อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน] ที่ช่วยให้ผู้สร้างมีส่วนร่วมกับชุมชนของพวกเขาและที่แฟน ๆ สามารถโต้ตอบด้วย ไปจนถึง AI ทางธุรกิจที่เราคิดว่าทุกคน ในที่สุดธุรกิจบนแพลตฟอร์มของเราก็จะถูกนำมาใช้” เน้นโดย Meta CEO Mark Zuckerberg