نص إلى video لأحرف الذكاء الاصطناعى التي تتحدث

إن قدرة ChatGPT على تجاهل حقوق الطبع والنشر والحس السليم أثناء إنشاء الصور والعرقات العميقة هي حديث المدينة الآن. يستخدم نموذج مولد الصور الذي أطلقه Openai الأسبوع الماضي على نطاق واسع لدرجة أنه يدمر وظائف ChatGpt الأساسية ووقت التشغيل للجميع.

ولكن ليس فقط التقدم في الصور التي أنشأتها الذكاء الاصطناعى والتي شهدناها مؤخرًا. يتيح لك طراز Video Runway Gen-4 إنشاء مقاطع لا تصدق من موجه نص واحد وصورة ، والحفاظ على استمرارية الشخصية والاستمرارية ، على عكس أي شيء رأيناه من قبل.

يجب أن تضع مقاطع الفيديو التي قدمتها الشركة هوليوود. يمكن لأي شخص أن يصنع مقاطعًا من فئة الأفلام مع أدوات مثل Ruway ، على افتراض أنها تعمل على النحو المقصود. على الأقل ، يمكن أن تساعد الذكاء الاصطناعي في تقليل تكلفة المؤثرات الخاصة لبعض الأفلام.

إنها ليست مجرد أداة فيديو AI الجديدة في Runway التي تحول رؤوسها. يحتوي Meta على منتج Mocha AI الخاص به يمكن استخدامه لإنشاء شخصيات AI في مقاطع الفيديو التي قد تكون جيدة بما يكفي لخداعك.

Mocha ليس نوعًا من القهوة مكتوبة بالخطأ. إنه قصير بالنسبة لشخصيات الأفلام ، وهو مشروع بحثي من Meta وجامعة واترلو. الفكرة الأساسية لنموذج Mocha AI بسيط للغاية. يمكنك تزويد AI بمطالبة نصية تصف الفيديو وعينة الكلام. ثم يضع الذكاء الاصطناعى مقطع فيديو يضمن للشخصيات “التحدث” بالخطوط الموجودة في عينة الصوت بشكل مثالي تقريبًا.

قدم الباحثون الكثير من العينات التي تُظهر قدرات موكا المتقدمة ، والنتائج مثيرة للإعجاب. لدينا كل أنواع المقاطع التي تعرض أبطالًا مباشرًا ورسوم متحركة يتحدثون عن الخطوط من عينة الصوت. يأخذ Mocha في الاعتبار العواطف ، ويمكن أن تدعم الذكاء الاصطناعى أيضًا شخصيات متعددة في نفس المشهد.

النتائج مثالية تقريبا ، ولكن ليس تماما. هناك بعض العيوب المرئية في المقاطع. حركات العين والوجه هي هبات التي ننظر إليها في الفيديو الذي تم إنشاؤه بواسطة الذكاء الاصطناعى. أيضًا ، على الرغم من أن حركة الشفاه تبدو متزامنة تمامًا مع عينة الصوت ، إلا أن حركة الفم بأكمله مبالغ فيه مقارنة بالأشخاص الحقيقيين.

أقول أنه كشخص رأى الكثير من أوضاع الذكاء الاصطناعى المماثلة من الشركات الأخرى الآن ، بما في ذلك بعض الشركات المقنعة بشكل لا يصدق.

أولاً ، هناك Runway Gen-4 الذي تحدثنا عنه قبل بضعة أيام. مقاطع GEN-4 التجريبية أفضل من موكا. ولكن هذا منتج يمكنك استخدامه ، يمكن بالتأكيد تحسين Mocha بحلول الوقت الذي يصبح فيه نموذج AI التجاري.

عند الحديث عن نماذج الذكاء الاصطناعى التي لا يمكنك استخدامها ، أقوم دائمًا بمقارنة المنتجات الجديدة التي يمكنها مزامنة الشخصيات التي تم إنشاؤها من الذكاء الاصطناعى مع عينات صوتية مع مشروع أبحاث VASA-1 AI من Microsoft ، والذي رأيناه في أبريل الماضي.

يتيح لك VASA-1 تحويل صور ثابتة للأشخاص الحقيقيين إلى مقاطع فيديو عن شخصيات التحدث طالما أنك تقدم عينة صوتية من أي نوع. من المفهوم أن Microsoft لم تتيح أبدًا نموذج VASA-1 للمستهلكين ، حيث تفتح التكنولوجيا الباب لإساءة الاستخدام.

أخيرًا ، هناك الشركة الأم لـ Tiktok ، Bytedance ، التي أظهرت منظمة العفو الدولية التي تشبه Vasa-1 قبل شهرين تفعل الشيء نفسه. إنه يحول صورة واحدة إلى فيديو متحرك بالكامل.

omnihuman-1 أيضا تحريك حركات جزء الجسم ، شيء رأيته في Meta’s Mocha Demo كذلك. هكذا وصلنا إلى أن نرى تايلور سويفت يغني ناروتو أغنية موضوع باللغة اليابانية. نعم ، إنه مقطع عميق ؛ أنا أحصل على ذلك.

قد يتم استخدام منتجات مثل Vasa-1 و Omnihuman-1 و Mocha وربما Runway Gen-4 لإنشاء DeepFakes التي يمكن أن تضلل.

أمثلة سريعة لمولد فيديو Meta Mocha AI. مصدر الصورة: Arxiv

يجب على باحثو META الذين يعملون على MOCHA والمشاريع المماثلة معالجة هذا بشكل علني إذا ومتى يصبح النموذج متاحًا تجاريًا.

قد تكتشف التناقضات في عينات Mocha المتاحة عبر الإنترنت ، ولكن شاهد مقاطع الفيديو هذه على شاشة الهاتف الذكي ، وقد لا تكون واضحة للغاية. قم بإزالة إلمامك بتوليد فيديو الذكاء الاصطناعي ؛ قد تظن أن بعض مقاطع موكا هذه تم تصويرها بالكاميرات الحقيقية.

من المهم أيضًا أن يكون الكشف عن بيانات البيانات المستخدمة لتدريب هذا الذكاء الاصطناعي. وقالت الورقة إن موكا استخدمت حوالي 500000 عينة ، تصل إلى 300 ساعة من عينات فيديو الكلام عالية الجودة ، دون أن يقولوا أين حصلوا على هذه البيانات. لسوء الحظ ، هذا موضوع في الصناعة ، وليس الاعتراف بمصدر البيانات المستخدمة لتدريب الذكاء الاصطناعى ، ولا يزال الأمر يتعلق بالموضوع.

ستجد ورقة أبحاث Mocha الكاملة في هذا الرابط.