أداة genAI لتحويل النص إلى فيديو من Meta أصبحت رسمية

منذ عدة أشهر، أذهلت OpenAI العالم بأداة الذكاء الاصطناعي المذهلة لتحويل النص إلى فيديو والتي تسمى Sora. المفهوم برمته بسيط للغاية: أخبر الذكاء الاصطناعي بالفيديو المطلوب إنتاجه، وسيقوم Sora بإنشائه لك. لا يزال OpenAI لم يصدره لعامة الناس لأنه قيد التطوير حاليًا. كنت أتوقع أن يتم إطلاق سراح سورا في أوائل أكتوبر، لكن ذلك لم يحدث. جاء DevDay الخاص بـ OpenAI وذهب، ولا يزال Sora غير متاح للمستخدمين.

وفي الوقت نفسه، أعلنت ميتا عن بديلها الخاص لـ Sora. يُطلق عليه اسم Movie Gen، وهو الإصدار الثالث لمنتجات الذكاء الاصطناعي التوليدية لتحرير الصور والفيديو. يمكن لـ Movie Gen إنشاء فيديو وصوت باستخدام رسالة نصية واحدة، تمامًا مثل Sora. كما يتيح لك تحرير مقاطع الفيديو الموجودة باستخدام المطالبات النصية.

Movie Gen ليس متاحًا للمستخدمين أيضًا، حيث تواصل Meta تطويره. ولكن في يوم من الأيام، قد تتم إضافتها إلى مجموعة ميزات Meta AI المتوفرة في التطبيقات الاجتماعية، مما يغير إلى الأبد الطريقة التي نستخدم بها Instagram وWhatsApp وFacebook.

أوضحت Meta في منشور بالمدونة أنها قامت بتحسين نموذج Movie Gen الخاص بها لكل من وضعي النص إلى الصورة والنص إلى الفيديو.

إنه نموذج محول ذو 30 مليار معلمة يمكنه إنشاء مقاطع فيديو مدتها 16 ثانية بمعدل 16 إطارًا في الثانية. قال ميتا: “تستطيع هذه النماذج التفكير في حركة الجسم، والتفاعلات بين الموضوع والجسم، وحركة الكاميرا، ويمكنها تعلم حركات معقولة لمجموعة واسعة من المفاهيم، مما يجعلها نماذج حديثة في فئتها”.

يطالب Movie Gen بإنشاء فيديو AI. مصدر الصورة: ميتا

أظهر Meta أيضًا قدرة Movie Gen على إنشاء مقاطع فيديو مخصصة. يمكنك ببساطة تحميل صورة شخص ما ودمجها مع مطالبة نصية لإنشاء مقطع فيديو يعمل بالذكاء الاصطناعي “يحتوي على الشخص المرجعي وتفاصيل مرئية غنية مستمدة من المطالبة النصية”. وقالت ميتا إن “نموذجها يحقق أحدث النتائج عندما يتعلق الأمر بإنشاء مقاطع فيديو مخصصة تحافظ على الهوية البشرية والحركة”.

هذا هو المكان الذي سأخبرك فيه أنه يمكن إساءة استخدام هذه الميزات لإنشاء مقاطع فيديو مزيفة قد تنتشر بسرعة وتنشر معلومات مضللة. من المحتمل أن يكون هذا أحد أسباب عدم ظهور Movie Gen في البرية في الوقت الحالي، على الرغم من أن Meta لم يذكر إساءة الاستخدام في منشور المدونة.

يمكن لـ Movie Gen إنشاء مقاطع فيديو باستخدام صورة شخص حقيقي ومطالبة نصية. مصدر الصورة: ميتا

للمضي قدمًا، يمكن أيضًا استخدام Movie Gen لتحرير مقاطع الفيديو الأصلية. يمكنك إرسال المقطع الخاص بك ثم توجيه الذكاء الاصطناعي لإجراء التعديلات. يتميز Movie Gen بـ “التحرير المتقدم للصور، وإجراء تعديلات محلية مثل إضافة العناصر أو إزالتها أو استبدالها، والتغييرات العالمية مثل تعديلات الخلفية أو النمط.” سيحتفظ النموذج بالمحتوى الأصلي وسيستهدف فقط وحدات البكسل التي يحتاج إلى تغييرها.

مرة أخرى، هذا يفتح الباب أمام سوء المعاملة في العالم الحقيقي. سيستخدمه بعض الأشخاص لإنشاء مقاطع ممتعة للترفيه، بينما قد يرغب آخرون في تشويه الحقيقة من خلال تعديلات الذكاء الاصطناعي على مقاطع الفيديو الحقيقية.

يستخدم Movie Gen مقطع فيديو حقيقيًا ومطالبة نصية لتحرير المقطع. مصدر الصورة: ميتا

آخر ميزة لـ Movie Gen التي شرحتها Meta بالتفصيل هي إنشاء الصوت. قامت Meta بتدريب نموذج توليد صوت مكون من 13 مليار معلمة يمكنه النظر إلى مطالبة تحتوي على فيديو تصل مدته إلى 45 ثانية ومطالبة نصية لإنشاء صوت محيط ومؤثرات صوتية وموسيقى خلفية مفيدة. ستتم مزامنة كل شيء للعمل معًا.

أنتجت ميتا أيضًا ورقة بحثية عن تقنية Movie Gen. وفي الاختبارات البشرية، قالت ميتا إن نماذجها تتفوق على المنافسين، بما في ذلك Sora من OpenAI.

أما بالنسبة للوقت الذي سيكون فيه Movie Gen متاحًا، تقول Meta إنها ستعمل مع صانعي الأفلام والمبدعين لدمج ملاحظاتهم. وفي نهاية المطاف، سيكون Movie Gen متاحًا في تطبيقات Meta الاجتماعية. لقطات الشاشة أعلاه تأتي من مقاطع Meta التي تم إنشاؤها بواسطة الذكاء الاصطناعي وتحريرها بواسطة الذكاء الاصطناعي. يمكنك الاطلاع على جميع أمثلة Movie Gen في مدونة Meta على هذا الرابط.