أخبار

تتيح لك تقنية Google video-to-audio V2A AI إضافة صوت إلى أي مقطع


إن أكثر تطورات الذكاء الاصطناعي جنونًا التي رأيتها طوال العام هي تقنية VASA-1 من Microsoft. وطورت الشركة نماذج ذكاء اصطناعي يمكنها تحويل صورة واحدة لشخص لديه ملف صوتي إلى فيديو متحرك لذلك الشخص وهو يتحدث. كانت العروض التوضيحية مذهلة، على الرغم من عدم توفر VASA-1 كمنتج تجاري. قد لا يحدث ذلك أبدًا، حيث يمكن للناس بسهولة إساءة استخدام هذا النوع من أدوات الذكاء الاصطناعي.

تم عرض VASA-1 في منتصف أبريل. الآن، وبعد شهرين تقريبًا، كشف Google Deepmind عن تقنية مشابهة للذكاء الاصطناعي. ليس لها اسم تجاري، حيث تصفها جوجل بأنها تقنية الفيديو إلى الصوت (V2A). وهذا يعني أيضًا أنه ليس منتجًا تجاريًا للذكاء الاصطناعي يمكنك تجربته بنفسك.

يتيح لك V2A إنشاء صوت من مطالبة نصية واحدة لمطابقة مقطع فيديو صامت. عروض Google التجريبية مذهلة.

إن أداة تحويل الفيديو إلى الصوت “تجعل توليد الصوت والصورة المتزامن ممكنًا”، كما يوضح جوجل في إحدى المدونات. قدمت Google الكثير من الأمثلة لعرض تقنية V2A. تم تضمين بعضها أدناه، مع المطالبات التي استخدمها Google لإنشاء الصوت لمقاطع الفيديو.

مطالبة بالصوت: فيلم سينمائي، فيلم إثارة، فيلم رعب، موسيقى، توتر، أجواء، خطى على الخرسانة

تقول Google: “يجمع V2A بين وحدات بكسل الفيديو ومطالبات النص باللغة الطبيعية لإنشاء مقاطع صوتية غنية للحركة التي تظهر على الشاشة”، مشيرة إلى أنه يمكن إقران V2A مع Veo. هذا هو نموذج إنشاء الفيديو الذي كشفت عنه Google في I/O 2024. Veo هو منافس مباشر لشركة OpenAI’s Sora وغيرها من المنتجات المماثلة.

تقول Google إن تقنية V2A يمكن أن تقدم “نتيجة مثيرة أو مؤثرات صوتية واقعية أو حوار يتطابق مع شخصيات ونبرة الفيديو.” يمكن استخدام هذه التقنية لإنشاء مقاطع صوتية، وتقدم Google استخدامًا محتملاً مثيرًا للغاية: يمكن أن يضيف تحويل الفيديو إلى الصوت صوتًا إلى الأفلام الصامتة، وهو أمر لا يصدق.

مطالبة بالصوت: عازف طبول على خشبة المسرح في حفل موسيقي محاط بالأضواء الساطعة وحشد من الناس المبتهجين

ومع ذلك، فإن توليد الصوت ليس مثاليًا، كما يوضح Google لاحقًا في المدونة. على الرغم من أن V2A لن يتطلب منك محاذاة الصوت والفيديو يدويًا، إلا أن هناك قيودًا، خاصة عندما يتعلق الأمر بالكلام:

نعمل أيضًا على تحسين مزامنة الشفاه لمقاطع الفيديو التي تتضمن كلامًا. يحاول V2A إنشاء كلام من نصوص الإدخال ومزامنته مع حركات شفاه الشخصيات. لكن نموذج إنشاء الفيديو المقترن قد لا يكون مشروطًا بالنصوص. يؤدي هذا إلى إنشاء عدم تطابق، مما يؤدي غالبًا إلى مزامنة الشفاه بشكل غريب، حيث أن نموذج الفيديو لا يولد حركات الفم التي تتطابق مع النص.

مطالبة بالصوت: الموسيقى، النص: “يبدو هذا الديك الرومي رائعًا، أنا جائع جدًا”

تقول Google أيضًا إنها تبحث عن تعليقات من المجتمع الإبداعي حول تقنية تحويل الفيديو إلى الصوت لضمان أن يكون لـ V2A تأثير إيجابي. ولمنع إساءة الاستخدام، تضيف Google مجموعة أدوات SynthID الخاصة بها إلى أبحاث V2A لوضع علامة مائية على المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.

ومن غير الواضح متى سيكون V2A متاحًا للجمهور، حيث تقول جوجل إن التقنية الجديدة ستخضع لاختبارات صارمة. لمعرفة ما هو ممكن مع V2A في المرحلة الحالية من التطوير، ستجد المزيد من المقاطع التجريبية على هذا الرابط.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى