مقاطع فيديو بتقنية الذكاء الاصطناعي من الصور الشخصية والملفات الصوتية

أحدث منتج للذكاء الاصطناعي من Microsoft أذهلني بفعل شيء لم أكن أعتقد أنه ممكن. يمكن لـ VASA-1 دمج صورة واحدة مع مقطع صوتي واحد وتحويلها إلى فيديو لشخص يتحدث. لا يقتصر الأمر على تحريك الشفاه لتتناسب مع الصوت فحسب، بل يتعلق الأمر بالوجه بأكمله. حركات الرأس، والتغيرات في النظرة، وحتى تعبيرات الوجه التي تتوقعها من شخص يروي قصة – كلها موجودة.

بالنظر إلى ما وصلنا إليه مع genAI، كنت أعلم دائمًا أن أداة مثل هذه كانت وشيكة. بعد كل شيء، لدى OpenAI منتج تحويل النص إلى فيديو يبدو رائعًا في العروض التوضيحية. هذا هو Sora، والذي سيكون متاحًا للجمهور حتى وقت لاحق من هذا العام. قامت OpenAI أيضًا بتطوير تقنية تستخدم الذكاء الاصطناعي لتكرار صوت شخص ما بعد الاستماع إليه لبضع ثوانٍ فقط.

لقد كانت مسألة وقت فقط قبل أن تتوصل إحدى الشركات إلى طريقة لتحويل صورة شخصية أو صورة ذاتية إلى فيديو لشخص يتحدث. يمكن جعل الشخص المتحرك الموجود في الفيديو يقول أي شيء تريده بأي صوت، طالما أن لديك مقطعًا صوتيًا لتدريب الذكاء الاصطناعي.

أعرف ما الذي تفكر فيه، وكان أول ما خطر ببالي أيضًا. تقنية الذكاء الاصطناعي هذه مذهلة، ولكنها أيضًا خطيرة جدًا. ويدعو أي شخص لإنشاء مقاطع فيديو مضللة. لحسن الحظ، أوضحت Microsoft منذ البداية أن VASA-1 لن يصبح منتجًا متاحًا للعامة مثل ChatGPT أو Copilot. أي أنك لن تكون قادرًا على انتحال شخصية المشاهير وجعلهم يقولون ما تريد. على الأقل، ليس مع VASA-1.

تقول Microsoft أيضًا إنها ليس لديها خطط لتسويق VASA-1 في المستقبل القريب:

يركز بحثنا على توليد المهارات العاطفية البصرية للصور الرمزية الافتراضية للذكاء الاصطناعي، بهدف التطبيقات الإيجابية. وليس المقصود إنشاء محتوى يستخدم للتضليل أو الخداع. ومع ذلك، مثل تقنيات إنشاء المحتوى الأخرى ذات الصلة، لا يزال من المحتمل إساءة استخدامها لانتحال شخصية البشر. نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين، ونهتم بتطبيق تقنيتنا لتعزيز اكتشاف التزوير. في الوقت الحالي، لا تزال مقاطع الفيديو التي تم إنشاؤها بهذه الطريقة تحتوي على قطع أثرية يمكن التعرف عليها، ويظهر التحليل الرقمي أنه لا تزال هناك فجوة لتحقيق صحة مقاطع الفيديو الحقيقية.

علاوة على ذلك، فإن جميع الصور المستخدمة لاختبار إطار عمل VASA-1 هي لأشخاص افتراضيين. تم إنشاؤها باستخدام منتجات الذكاء الاصطناعي مثل StyleGAN2 أو Dall-E 3. والاستثناء الوحيد “للمشاهير” هو الموناليزا. نعم، استخدمت Microsoft أيضًا VASA-1 لتحريك اللوحة.

أمثلة على ما يمكن أن يفعله VASA-1 بصورة عمودية بسيطة. مصدر الصورة: مايكروسوفت

VASA-1 هو مجرد مشروع بحثي في الوقت الحالي. من الممكن إثبات المفهوم الذي يوضح هذا النوع من وظائف الذكاء الاصطناعي. ولكن إذا قامت مايكروسوفت بتطويرها، فمن المؤكد أن الآخرين يعملون على تقنية مماثلة. وكما تشير الشركة، فإن هذا النوع من التكنولوجيا له مستقبل عظيم. “إنه يمهد الطريق للتفاعلات في الوقت الفعلي مع الصور الرمزية النابضة بالحياة التي تحاكي سلوكيات المحادثة البشرية.”

وتعترف مايكروسوفت بأنها قد تمضي قدماً في إنتاج منتج تجاري، ولكن ليس قبل أن تتأكد من أن التكنولوجيا سيتم استخدامها بشكل مسؤول وبما يتوافق مع اللوائح المناسبة.

يمكن لـ VASA-1 أن يمنح منتجات مثل ChatGPT وجهًا. أو يمكنها مساعدة شركات مثل Apple على تطوير شخصيات مكانية أفضل لأجهزة الكمبيوتر المكانية مثل Vision Pro. أنا فقط أتكهن هنا بالطبع. لكنني متأكد من أن Microsoft ليست شركة التكنولوجيا الكبرى الوحيدة التي تستكشف منتجات الذكاء الاصطناعي الجيني هذه.

الموناليزا تغني في المقطع الأول، وهذا شيء يجب أن تراه. مصدر الصورة: مايكروسوفت

كيف يعمل فاسا-1

إذن ما هو VASA-1؟ إنه النموذج الأول من Microsoft “لإنشاء وجوه ناطقة واقعية لشخصيات افتراضية تتمتع بمهارات عاطفية بصرية جذابة (VAS)، في ضوء صورة ثابتة واحدة ومقطع صوتي للكلام.”

Microsoft قادرة على إنشاء “فيديو عالي الجودة مع ديناميكيات واقعية للوجه والرأس، ولكنها تدعم أيضًا إنشاء مقاطع فيديو بحجم 512 × 512 عبر الإنترنت بمعدل يصل إلى 40 إطارًا في الثانية مع زمن انتقال لا يكاد يذكر.”

الصور الموجودة في هذا المنشور كلها لقطات شاشة من إعلان Microsoft القصير عن VASA-1. لكن مشاهدة العينات تجعل من السهل فهم ما حققته الشركة هنا.

قامت Microsoft بإعداد صفحة على هذا الرابط حيث يمكنك مشاهدة الكثير من العروض التوضيحية للمواضيع الافتراضية التي تتحدث عن جميع أنواع المواضيع. تختلف مدة المقاطع من بضع ثوانٍ إلى دقيقة، وهي مذهلة. إذا عرضت عليك بعضًا من هذه المقاطع ولم أذكر أي شيء عن VASA-1 أو الذكاء الاصطناعي، فستعتقد أن هؤلاء بشر حقيقيون يجرون محادثة.

هؤلاء ليسوا بشرًا حقيقيين، بل مجرد صور افتراضية. مصدر الصورة: مايكروسوفت

تُظهر العروض التوضيحية أيضًا أن VASA-1 يمكنه إجراء جميع أنواع التغييرات على الصورة الشخصية التي تبدأ العملية. يمكنك تغيير موضع الرأس واتجاه النظر والتكبير والتصغير.

علاوة على ذلك، يمكنك تطبيق مشاعر محددة لتتناسب مع محتوى الملف الصوتي والنغمة المطلوبة. إنها تقنية ذكاء اصطناعي مجنونة تمامًا، وأنا متأكد من أنها ستعمل على تشغيل المنتجات التجارية في المستقبل غير البعيد بمجرد أن تكون لدينا لوائح معمول بها للحماية من انتحال الشخصية والمحتوى المضلل.