Alibaba Wan AI منافسي Openai’s Sora: إنها متوفرة مفتوحة المصدر

كانت إحدى الأفكار الرائعة التي ساعدت Deepseek على الذهاب فيروسي قرار الشركة الصينية بجعلها مفتوحة المصدر. هذا يعني أن أي شخص يمكنه تثبيت Deepseek AI على جهاز الكمبيوتر الخاص به مجانًا دون القلق بشأن تطبيقات Deepseek الرسمية لـ iPhone أو Android.

تتابع العملاق الصيني المعروف Alibaba خطى Deepseek مع نوع مختلف من برامج الذكاء الاصطناعى التي تصادف أنها مثيرة للغاية. قامت Alibaba بتقديم خدمة Text to-Video AI المسمى “WAN” مفتوح المصدر يوم الأربعاء. تتنافس WAN مباشرة ضد Sora من Openai ، وهي أداة رائعة لتوليد الفيديو AI تم الكشف عنها لأول مرة في العام الماضي وتم إصدارها قبل بضعة أشهر.

على وجه التحديد ، نحن ننظر إلى نموذج WAN 2.1 AI ، والذي سيتيح للمستخدمين إنشاء مقاطع فيديو مع نص وصور وحتى مقاطع فيديو أخرى في مطالباتهم. لن يتحدى WAN نموذج تسعير Openai لـ Sora ، ولكن أيضًا أداء Openai. بالإضافة إلى ذلك ، ستكون WAN متاحة مجانًا لأنها مفتوحة المصدر. وربما الأهم من ذلك ، أن WAN 2.1 يتصدر أيضًا لوحة المتصدرين VBENCH عندما يتعلق الأمر بالأداء. مقاطع الفيديو التي تولدها جيدة جدًا ، من الصعب تصديق أنها صنعت من خلال تطبيق AI مجاني.

يتم تصنيف نموذج WAN2.1-T2V-14B AI حاليًا كأفضل أداء. لدى Alibaba نماذج أصغر أيضًا ، والتي يمكن تشغيلها على أجهزة المستهلك.

وفقًا للأوصاف على موقع WAN على الويب ، فإن خدمة الذكاء الاصطناعى الجديدة قادرة على تقديم “حركة معقدة” ، والتي تتضمن إنشاء “مقاطع فيديو واقعية تتميز بحركات واسعة من الجسم ، وتدويرات معقدة ، وانتقالات المشهد الديناميكي ، وحركات الكاميرا السائلة”.

يقدم الموقع العديد من الأمثلة على مقاطع الفيديو التي تم إنشاؤها من الذكاء الاصطناعى ، بما في ذلك مجموعة من الكلاب ركوب الدراجات ، واثنين من القطط المشاركة في مباراة الملاكمة ، وفريق من الراقصين يؤدون رقصًا لإثبات هذه النقطة.

يمكن لـ WAN 2.1 أيضًا إنشاء مقاطع فيديو “محاكاة بدقة فيزياء العالم الحقيقي وتفاعلات الكائنات الواقعية.” يقدم Alibaba أمثلة إضافية لـ Genai ، بما في ذلك امرأة تنطلق من الماء ، وأرشير يطلق القوس ، وطماطم قطع الكلاب.

تدعم أداة AI Text to-Video أيضًا مقاطع فيديو “الجودة السينمائية” ، مما يعني أنها يجب أن تخرج “صورًا تشبه الأفلام ذات القوام الغنية ومجموعة متنوعة من التأثيرات منمقة”.

أيضا مثيرة للإعجاب هي مطالبات التحرير. على ما يبدو ، تدعم WAN التعديلات الدقيقة باستخدام الصور ومراجع الفيديو.

أخيرًا ، يدعم WAN 2.1 توليد النصوص في مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي. يقول Alibaba إنه نموذج الفيديو الأول الذي يدعم النص الصيني والإنجليزي.

ينص موقع WAN أيضًا على أن البرنامج يمكنه إنشاء المؤثرات الصوتية وموسيقى الخلفية التي تتطابق مع المحتوى المرئي وإيقاع الإجراء.

بالإضافة إلى طراز 14 مليار ، أصدرت Alibaba أيضًا نموذج WAN 2.1 T2V-1.3B الذي يحتاج إلى 8.19 جيجابايت فقط من VRAM. ستعمل مع معظم وحدات معالجة الرسومات على مستوى المستهلك وتكون سريعة إلى حد ما. “يمكن أن يولد مقطع فيديو مدته 480 ثانية على RTX 4090 في حوالي 4 دقائق (بدون تقنيات التحسين مثل القياس الكمي). يلاحظ موقع WAN موقع WAN: “إن أدائها يمكن مقارنته ببعض الطرز المغلقة”.

كل هذا يبدو رائعًا ، وعينات الفيديو المتاحة في هذا الرابط لا تصدق أيضًا. يبدو WAN 2.1 بالتأكيد وكأنه أداة توليد فيديو Frontier AI يمكنها التنافس ضد Sora وغيرها من المنافسين المماثلين الذين يأتي مع تكلفة الوصول.

حقيقة أنه مفتوح المصدر يعني أن أي شخص يمكنه البدء في WAN 2.1 طالما أنهم يعرفون ماذا يفعلون. توجه إلى الوجه المعانقة و جيثب للبدء.

كما ترون من أمثلة فيديو الذكاء الاصطناعى التي ذكرتها أعلاه ، فمن السهل إخبار بعضها تم إنشاؤه بواسطة AI. قد يخدع الآخرون المشاهدين أنهم مقاطع حقيقية. ما أحصل عليه هو أن الأدوات مثل Sora و Wan يمكن استخدامها لأغراض شائنة.

من الرائع أن يكون WAN مفتوح المصدر والبعض الآخر يمكنه فحص الكود ، لكن موقع Alibaba على الويب لا يذكر احتياطات السلامة. أيضًا ، من غير الواضح كيف سيتم تمييز مقاطع الفيديو المتطورة من الذكاء الاصطناعي هذه لإبلاغ المستخدمين أنهم يشاهدون المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعى.

أخيرًا ، سأذكرك بأن Alibaba ليست الشركة الصينية الوحيدة التي تقوم بتطوير أداة لتوليد الفيديو AI المثيرة للإعجاب. قبل بضعة أيام ، أثارت علينا Omnihuman-1 AI إعجابنا بقدراتها.