บ้าน > ค้นพบ > ทีมงาน FAIR ของ Meta เปิดตัวโมเดล AI สำหรับการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง

ทีมงาน FAIR ของ Meta เปิดตัวโมเดล AI สำหรับการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง

เขียนโดย
ArticleGPT

ตรวจสอบและตรวจสอบข้อเท็จจริงโดย ทีมงาน HIX.AI

อ่าน 2 นาที8 days ago
ทีมงาน FAIR ของ Meta เปิดตัวโมเดล AI สำหรับการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง

โดยสังเขป

Meta ได้เปิดตัวโมเดลการวิจัย AI ใหม่ 5 โมเดล รวมถึงโมเดลที่สามารถสร้างทั้งข้อความและรูปภาพ และตรวจจับคำพูดที่สร้างโดย AI ภายในข้อความที่ตัดตอนมาด้วยเสียงขนาดใหญ่

ทีมวิจัย AI ขั้นพื้นฐาน (FAIR) ของ Meta ได้เปิดตัวโมเดลการวิจัย ปัญญาประดิษฐ์ (AI) ใหม่ 5 รูปแบบเมื่อเร็ว ๆ นี้ โมเดลเหล่านี้มีแอปพลิเคชันที่หลากหลาย รวมถึงการสร้างรูปภาพเป็นข้อความและข้อความเป็นเพลง ตลอดจนการปรับปรุงการเติมโค้ดให้สมบูรณ์และการตรวจจับคำพูดที่สร้างโดย AI

โมเดลกิ้งก่า: การสร้างรูปภาพและข้อความ

หนึ่งในโมเดลที่น่าสังเกตที่เปิดตัวคือ Chameleon ซึ่งเป็นตระกูลของโมเดลแบบผสมที่สามารถสร้างทั้งรูปภาพและข้อความได้

แตกต่างจากโมเดลแบบดั้งเดิมที่มุ่งเน้นไปที่ผลลัพธ์แบบ Unimodal Chameleon สามารถประมวลผลอินพุตที่ประกอบด้วยทั้งข้อความและรูปภาพ และสร้างการผสมผสานระหว่างข้อความและรูปภาพเป็นเอาต์พุต ความสามารถนี้เปิดโอกาสใหม่ๆ เช่น การสร้างคำบรรยายที่สร้างสรรค์สำหรับรูปภาพ หรือใช้ข้อความแจ้งและรูปภาพเพื่อสร้างฉากใหม่ทั้งหมด

โมเดลการทำนายหลายโทเค็น

ทีมงาน FAIR ของ Meta ได้สร้างความก้าวหน้าที่สำคัญในโมเดลการเติมโค้ดให้สมบูรณ์ด้วยการแนะนำแนวทางใหม่ที่เรียกว่าการทำนายโทเค็นหลายโทเค็น วิธีการใหม่นี้จะฝึกโมเดลภาษาให้ทำนายคำศัพท์ในอนาคตหลายคำได้พร้อมกัน ซึ่งต่างจากวิธีการแบบทีละคำก่อนหน้านี้ ซึ่งจะช่วยฝึกโมเดล AI ให้ทำนายคำศัพท์ได้เร็วขึ้น

JASCO: การสร้างเพลงด้วย AI

โมเดลที่สามที่ออกโดยทีมงาน FAIR ของ Meta คือ JASCO ซึ่งให้การควบคุมการสร้างเพลง AI ที่ดีขึ้น แตกต่างจากโมเดลการแปลงข้อความเป็นเพลงที่มีอยู่ซึ่งอาศัยการป้อนข้อความเพียงอย่างเดียว JASCO สามารถยอมรับอินพุตต่างๆ รวมถึงคอร์ดและจังหวะ ช่วยให้มีความหลากหลายและความคิดสร้างสรรค์มากขึ้นในการสร้างดนตรี

AudioSeal: การค้นหาคำพูดที่สร้างโดย AI

AudioSeal เป็นระบบที่ก้าวล้ำที่สามารถฝังลายน้ำลงในคลิปเสียงที่สร้างโดย AI เทคนิคนี้ช่วยให้สามารถตรวจจับส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในตัวอย่างเสียงที่ยาวขึ้น ซึ่งเป็นเครื่องมือที่มีค่าสำหรับการระบุข้อมูลที่ผิดและการหลอกลวง

การปรับปรุงความหลากหลายในโมเดลข้อความเป็นรูปภาพ

เพื่อให้แน่ใจว่าโมเดลข้อความเป็นรูปภาพสะท้อนถึงความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก ทีมงาน FAIR ของ Meta ได้พัฒนาตัวบ่งชี้อัตโนมัติเพื่อประเมินความแตกต่างทางภูมิศาสตร์ที่อาจเกิดขึ้นในโมเดลเหล่านี้

ด้วยการดำเนินการศึกษาคำอธิบายประกอบขนาดใหญ่และรวบรวมคำติชมอย่างกว้างขวาง Meta มีเป้าหมายที่จะปรับปรุงการประเมินโมเดลข้อความเป็นรูปภาพ และส่งเสริมความหลากหลายในรูปภาพที่สร้างโดย AI

การเปิดตัวรหัสการประเมินความแตกต่างทางภูมิศาสตร์และคำอธิบายประกอบจะช่วยให้นักวิจัยสามารถปรับปรุงการเป็นตัวแทนและการไม่แบ่งแยกของแบบจำลองกำเนิดของพวกเขาได้

ความพยายามของ Meta ลงทุนในการพัฒนา AI

ความมุ่งมั่นของ Meta ในการพัฒนา AI ปรากฏชัดจากรายจ่ายฝ่ายทุนจำนวนมากในด้าน AI และ Reality Labs ของแผนกการพัฒนา metaverse

ด้วยค่าใช้จ่ายที่คาดว่าจะสูงถึงระหว่าง 35 พันล้านดอลลาร์ถึง 40 พันล้านดอลลาร์[1] ภายในสิ้นปี 2567 Meta ตั้งเป้าที่จะสร้างบริการและแพลตฟอร์ม AI ที่หลากหลาย รวมถึงผู้ช่วย AI แอปความเป็นจริงเสริม และ AI ทางธุรกิจ

“เรากำลังสร้างบริการ AI ที่แตกต่างกันจำนวนหนึ่ง ตั้งแต่ผู้ช่วย AI ของเราไปจนถึงแอปและแว่นตาเติมความเป็นจริง ไปจนถึง APIs [อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน] ที่ช่วยให้ผู้สร้างมีส่วนร่วมกับชุมชนของพวกเขาและที่แฟน ๆ สามารถโต้ตอบด้วย ไปจนถึง AI ทางธุรกิจที่เราคิดว่าทุกคน ในที่สุดธุรกิจบนแพลตฟอร์มของเราก็จะถูกนำมาใช้” เน้นโดย Meta CEO Mark Zuckerberg

อิงตามแหล่งค้นหา 3

3 แหล่งที่มา

Meta Releases AI Models That Generate Both Text and Images

Meta has released five new artificial intelligence (AI) research models, including ones that can generate both text and images and that can detect AI-generated speech within larger audio snippets.

Releasing New AI Research Models to Accelerate Innovation at Scale

Today, Meta’s Fundamental AI Research team is publicly releasing several models to accelerate future research and allow others to innovate and apply AI at scale.

Meta has created a way to watermark AI-generated speech

The tool, called AudioSeal, could eventually help tackle the growing use of voice cloning tools for scams and misinformation.

บนหน้านี้

  • โมเดลกิ้งก่า: การสร้างรูปภาพและข้อความ
  • โมเดลการทำนายหลายโทเค็น
  • JASCO: การสร้างเพลงด้วย AI
  • การปรับปรุงความหลากหลายในโมเดลข้อความเป็นรูปภาพ
  • ความพยายามของ Meta ลงทุนในการพัฒนา AI