يحتاج برنامج النص إلى فيديو إلى صورة واحدة فقط

منذ أقل من عام ، فجرت Microsoft’s Vasa-1 ذهني. أوضحت الشركة كيف يمكن أن تنشط أي صورة وتحويلها إلى مقطع فيديو يضم الشخص الموجود في الصورة. لم يكن هذا هو الجزء الوحيد المثير للإعجاب ، لأن موضوع الصورة سيكون قادرًا أيضًا على التحدث في الفيديو.

تجاوز VASA-1 أي شيء رأيناه في ذلك الوقت. كان هذا كان في أبريل 2024 ، عندما رأينا بالفعل Sora ، أداة توليد نص إلى Openai التي لن يتم إصدارها حتى ديسمبر. لم تتميز Sora بتقنيات الرسوم المتحركة المتقدمة للوجه ومزامنة الصوت.

على عكس Openai ، لم تقصد Microsoft أبدًا إتاحة VASA-1 للمشروع. قلت إذن إن أداة عامة مثل VASA-1 قد تؤذي ، حيث يمكن لأي شخص إنشاء مقاطع فيديو مضللة للأشخاص الذين يقولون كل ما يتصوره المبدع. أشار مشروع بحث Microsoft أيضًا إلى أنه سيكون مسألة وقت فقط قبل أن يتمكن الآخرون من تطوير تكنولوجيا مماثلة.

الآن ، طورت شركة Tiktok الأم Bytedance أداة منظمة العفو الدولية تسمى Omnihuman-1 يمكنها تكرار ما فعله Vasa-1 أثناء نقل الأشياء إلى مستوى جديد تمامًا.

يمكن للشركة الصينية التقاط صورة واحدة وتحويلها إلى فيديو متحرك بالكامل. يمكن للموضوع في الصورة التحدث بمزامنة مع الصوت المقدم ، على غرار ما أظهرته أمثلة VASA-1. لكنه يصبح أكثر جنونًا من ذلك. يمكن لـ Omnihuman-1 أيضًا تحريك حركات وإيماءات جزء الجسم ، كما هو موضح في الأمثلة التالية.

أوجه التشابه مع VASA-1 لا ينبغي أن تكون مفاجئة. يذكر الباحثون الصينيون على صفحة أبحاث Omnihuman-1 أنهم استخدموا VASA-1 كقالب ، وحتى أخذوا عينات من Microsoft والشركات الأخرى.

https://www.youtube.com/watch؟v=K7D3C8ZLQPM

وفق معيار الأعمال، يستخدم Omnihuman-1 مصادر إدخال متعددة في وقت واحد ، بما في ذلك الصور والصوت والنص والجسم. والنتيجة هي تخليق حركة أكثر دقة وسائل.

استخدم Bytedance 19000 ساعة من لقطات الفيديو لإنشاء Omnihuman-1. هكذا تمكنوا من تعليم الذكاء الاصطناعى إنشاء تسلسلات فيديو لا يمكن تمييزها تقريبًا من لقطات فيديو حقيقية. بعض العينات أعلاه مثالية من الناحية العملية. في حالات أخرى ، من الواضح أننا ننظر إلى حركة توليد الذكاء الاصطناعي ، وخاصة فم الموضوع.

خطاب ألبرت أينشتاين في المقطع أعلاه هو بالتأكيد تسليط الضوء على Omnihuman-1. تايلور سويفت يغني أغنية الموضوع من الأنيمي ناروتو في اليابانية في الفيديو أدناه مثال آخر على Omnihuman-1 في العمل:

https://www.youtube.com/watch؟v=ts4wo5plg1w

يمكن استخدام Omnihuman-1 لإنشاء مقاطع فيديو تم إنشاؤها من الذكاء الاصطناعى التي تُعرض الموضوعات البشرية (حقيقية أو ملفقة) التحدث أو الغناء في جميع أنواع الحالات. هذا يفتح خدمة الإساءة ، حيث أنني متأكد من أن بعض الأشخاص ، بما في ذلك الممثلين الخبيثين ، سيستخدمون الخدمة لانتحال شخصية المشاهير لعمليات الاحتيال أو أغراض مضللة.

Omnihuman-1 يعمل أيضًا بشكل جيد مع شخصيات الرسوم المتحركة والفيديو. قد يكون هذا استخدامًا كبيرًا للتكنولوجيا ، حيث يمكن أن يساعد المبدعين بشكل أكثر دقة في تعبيرات الوجه والكلام لمثل هذه الشخصيات.

من المثير للاهتمام أيضًا الادعاء بأن Omnihuman-1 يمكنه إنشاء مقاطع فيديو بطول غير محدود. الأمثلة المتاحة تتراوح بين خمس و 25 ثانية. يبدو أن الذاكرة عنق الزجاجة ، وليس قدرة الذكاء الاصطناعي على إنشاء مقاطع أطول.

معيار الأعمال يشير إلى أن Bytedance’s Omnihuman-1 هو تطور متوقع من الشركة الصينية. كشفت Bytedance أيضًا عن INFP مؤخرًا ، وهو مشروع منظمة العفو الدولية يهدف إلى تحريك تعبيرات الوجه في المحادثات. تشتهر Bytedance أيضًا بتطبيق تحرير Capcut ، الذي تمت إزالته من متاجر التطبيقات إلى جانب Tiktok قبل بضعة أسابيع.

من الطبيعي أن نرى Bytedance توسيع قدرات توليد الفيديو منظمة العفو الدولية وتقديم خدمات مثل Omnihuman-1.

ليس من الواضح متى سيكون Omnihuman-1 متاحًا للمستخدمين ، إن وجدت. يحتوي Bytedance على موقع ويب في هذا الرابط حيث يمكنك قراءة المزيد من التفاصيل حول مشروع AI Research Project ومشاهدة المزيد من العينات.

يذكر باحثو Bytedance أيضًا “مخاوف الأخلاق” في الوثيقة ، وهو أمر رائع أن نرى. يشير هذا إلى أن Bytedance قد يتخذ مقاربة أكثر حذراً لنشر المنتج ، على الرغم من أنني فقط أتوقع هنا.

ولكن إذا تم إصدار Omnihuman-1 في البرية في وقت مبكر جدًا ، فسيكون ذلك مسألة وقت فقط قبل أن يخلق شخص ما مقاطع فيديو نابضة بالحياة للمشاهير في الحياة الواقعية أو البشر المكياجون الذين يقولون (أو يغني) أي شيء يريده الخالق ، ، في أي لغة. ولن يكون ذلك دائمًا لأغراض الترفيه.