باحثون من جامعة نيويورك يطورون طريقة جديدة للكشف عن التزييف العميق في الوقت الفعلي

تم تقديم هذه المقالة الدعائية إليك من قبل كلية الهندسة بجامعة نيويورك تاندون.

تمثل التزييف العميق ومقاطع الفيديو والصوت الواقعية للغاية التي تم إنشاؤها باستخدام الذكاء الاصطناعي تهديدًا متزايدًا في العالم الرقمي اليوم. من خلال التلاعب بالمحتوى أو تلفيقه لجعله يبدو أصليًا، يمكن استخدام التزييف العميق لخداع المشاهدين ونشر معلومات مضللة وتشويه السمعة. ويمتد سوء استخدامها إلى الدعاية السياسية، والتلاعب الاجتماعي، وسرقة الهوية، والجرائم الإلكترونية.

مع ازدياد تقدم تكنولوجيا التزييف العميق وإمكانية الوصول إليها على نطاق واسع، يتصاعد خطر الضرر المجتمعي. تعد دراسة التزييف العميق أمرًا بالغ الأهمية لتطوير طرق الكشف، وزيادة الوعي، وإنشاء أطر قانونية للتخفيف من الضرر الذي يمكن أن تسببه في المجالات الشخصية والمهنية والعالمية. سيكون فهم المخاطر المرتبطة بالتزييف العميق وتأثيرها المحتمل ضروريًا للحفاظ على الثقة في وسائل الإعلام والاتصالات الرقمية.

وهنا يأتي دور تشينماي هيغدي، الأستاذ المشارك في علوم وهندسة الكمبيوتر والهندسة الكهربائية وهندسة الكمبيوتر في جامعة نيويورك تاندون.

يعمل تشينماي هيغدي، الأستاذ المشارك في علوم وهندسة الكمبيوتر والهندسة الكهربائية وهندسة الكمبيوتر في جامعة نيويورك تاندون، على تطوير أنظمة الاستجابة للتحدي للكشف عن التزييف العميق للصوت والفيديو.جامعة نيويورك تاندون

“بشكل عام، أنا مهتم بسلامة الذكاء الاصطناعي بجميع أشكاله. وقال هيغدي: “عندما تتطور تكنولوجيا مثل الذكاء الاصطناعي بسرعة كبيرة، وتصبح جيدة بهذه السرعة، فهي مجال جاهز للاستغلال من قبل الأشخاص الذين قد يلحقون الضرر”.

مواطن هندي، عاش هيغدي في أماكن حول العالم، بما في ذلك هيوستن، تكساس، حيث أمضى عدة سنوات كطالب في جامعة رايس؛ كامبريدج، ماساتشوستس، حيث قام بعمل ما بعد الدكتوراه في مجموعة نظرية الحساب (TOC) التابعة لمعهد ماساتشوستس للتكنولوجيا؛ وأميس، آيوا، حيث شغل منصب الأستاذية في قسم الهندسة الكهربائية وهندسة الحاسبات في جامعة ولاية آيوا.

يركز هيغد، الذي مجال خبرته في معالجة البيانات والتعلم الآلي، أبحاثه على تطوير خوارزميات سريعة وقوية ومعتمدة لمشاكل معالجة البيانات المتنوعة التي تواجهها التطبيقات التي تشمل التصوير ورؤية الكمبيوتر والنقل وتصميم المواد. في تاندون، عمل مع أستاذ علوم الكمبيوتر والهندسة ناصر ميمون، الذي أثار اهتمامه بالتزييف العميق.

“حتى قبل ست سنوات فقط، كانت تكنولوجيا الذكاء الاصطناعي التوليدي بدائية للغاية. في إحدى المرات، جاء أحد طلابي وأظهر كيف تمكن النموذج من تكوين دائرة بيضاء على خلفية داكنة، وقد أعجبنا جميعًا بذلك حقًا في ذلك الوقت. الآن لديك صور مزيفة عالية الدقة لتايلور سويفت، وباراك أوباما، والبابا – إنه لأمر مذهل إلى أي مدى وصلت هذه التكنولوجيا. وجهة نظري هي أن الوضع قد يستمر في التحسن من الآن فصاعدا».

ساعد هيغد في قيادة فريق بحث من كلية تاندون للهندسة بجامعة نيويورك، والذي طور نهجًا جديدًا لمكافحة التهديد المتزايد للتزييف العميق في الوقت الفعلي (RTDFs) – الصوت والفيديو المزيف المتطور الناتج عن الذكاء الاصطناعي والذي يمكنه تقليد الأشخاص الحقيقيين بشكل مقنع. وقت مكالمات الفيديو والمكالمات الصوتية.

لقد حدثت بالفعل حوادث احتيال رفيعة المستوى تتعلق بالتزوير العميق، بما في ذلك عملية احتيال حديثة بقيمة 25 مليون دولار باستخدام فيديو مزيف، والحاجة إلى اتخاذ تدابير مضادة فعالة واضحة.

وفي بحثين منفصلين، أظهرت فرق البحث كيف يمكن لتقنيات “الاستجابة للتحدي” أن تستغل القيود المتأصلة في خطوط أنابيب توليد RTDF الحالية، مما يتسبب في تدهور جودة انتحال الشخصية التي تكشف خداعهم.

في ورقة بحثية بعنوان “GOTCHA: كشف التزييف العميق للفيديو في الوقت الحقيقي عبر التحدي والاستجابة”، طور الباحثون مجموعة من ثمانية تحديات بصرية مصممة للإشارة إلى المستخدمين عندما لا يتفاعلون مع شخص حقيقي.

“يعرف معظم الأشخاص اختبار CAPTCHA، وهو عبارة عن استجابة للتحدي عبر الإنترنت تثبت أنهم بشر حقيقيون. وقال هيغدي، الذي قاد البحث في كلتا الورقتين: “إن نهجنا يعكس تلك التكنولوجيا، حيث يقوم بشكل أساسي بطرح الأسئلة أو تقديم الطلبات التي لا يستطيع RTDF الرد عليها بشكل مناسب”.

سلسلة من الصور التي تظهر وجوه الأشخاص في صفوف. إطار التحدي لمقاطع الفيديو الأصلية والمزيفة. يقوم كل صف بمحاذاة المخرجات مع نفس مثيل التحدي، بينما يقوم كل عمود بمحاذاة نفس طريقة التزييف العميق. الأشرطة الخضراء هي كناية عن درجة الإخلاص، حيث تشير الأشرطة الأطول إلى دقة أعلى. تشير الأشرطة المفقودة إلى فشل التزييف العميق المحدد في القيام بهذا التحدي المحدد.جامعة نيويورك تاندون

أنشأ فريق بحث الفيديو مجموعة بيانات مكونة من 56247 مقطع فيديو من 47 مشاركًا، لتقييم التحديات مثل حركات الرأس وحجب أو تغطية أجزاء من الوجه عمدًا. حقق المقيِّمون البشريون حوالي 89% من نقاط المنطقة تحت المنحنى (AUC) في اكتشاف التزييف العميق (أكثر من 80% تعتبر جيدة جدًا)، بينما وصلت نماذج التعلم الآلي إلى حوالي 73%.

“إن التحديات مثل تحريك اليد بسرعة أمام وجهك، أو القيام بتعبيرات وجه مثيرة، أو تغيير الإضاءة فجأة هي أمور بسيطة بالنسبة للبشر الحقيقيين، ولكن من الصعب جدًا على أنظمة التزييف العميق الحالية تكرارها بشكل مقنع عندما يُطلب منها القيام بذلك في الوقت الفعلي”. “، قال هيجدة.

التحديات الصوتية للكشف عن التزييف العميق

وفي ورقة بحثية أخرى بعنوان “وضع العلامات بمساعدة الذكاء الاصطناعي على المكالمات الصوتية العميقة باستخدام التحدي والاستجابة”، أنشأ الباحثون تصنيفًا لـ 22 تحديًا صوتيًا عبر فئات مختلفة. وشملت بعض الأساليب الأكثر فعالية الهمس، والتحدث مع وضع اليد “المقوسة” على الفم، والتحدث بنبرة عالية، ونطق الكلمات الأجنبية، والتحدث مع الموسيقى الخلفية أو الكلام.

وقال هيغدي: “حتى أنظمة استنساخ الصوت الحديثة تكافح من أجل الحفاظ على الجودة عندما يُطلب منها أداء هذه المهام الصوتية غير العادية بسرعة”. “على سبيل المثال، يمكن أن يؤدي الهمس أو التحدث بنبرة عالية بشكل غير عادي إلى انخفاض جودة الصوت المزيف بشكل كبير.”

شملت الدراسة الصوتية 100 مشارك وأكثر من 1.6 مليون عينة صوتية مزيفة. وقد استخدمت ثلاثة سيناريوهات للكشف: البشر وحدهم، والذكاء الاصطناعي وحده، والنهج التعاوني بين الإنسان والذكاء الاصطناعي. وحقق المقيِّمون البشريون دقة تبلغ حوالي 72% في اكتشاف المنتجات المزيفة، في حين كان أداء الذكاء الاصطناعي وحده أفضل بنسبة دقة بلغت 85%.

حقق النهج التعاوني، حيث أصدر البشر أحكامًا أولية ويمكنهم مراجعة قراراتهم بعد رؤية تنبؤات الذكاء الاصطناعي، دقة تبلغ حوالي 83 بالمائة. كما سمح هذا النظام التعاوني للذكاء الاصطناعي باتخاذ القرارات النهائية في الحالات التي يكون فيها البشر غير متأكدين.

“المفتاح هو أن هذه المهام سهلة وسريعة للأشخاص الحقيقيين ولكن من الصعب على الذكاء الاصطناعي تزييفها في الوقت الفعلي” – تشينماي هيغدي، جامعة نيويورك تاندون

ويؤكد الباحثون أن تقنياتهم مصممة لتكون عملية للاستخدام في العالم الحقيقي، حيث تستغرق معظم التحديات ثوانٍ فقط لإكمالها. قد يتضمن تحدي الفيديو النموذجي إيماءة يد سريعة أو تعبيرات وجه، في حين أن التحدي الصوتي يمكن أن يكون بسيطًا مثل الهمس بجملة قصيرة.

قال هيغدي: “المفتاح هو أن هذه المهام سهلة وسريعة للأشخاص الحقيقيين، ولكن من الصعب على الذكاء الاصطناعي تزييفها في الوقت الفعلي”. “يمكننا أيضًا توزيع التحديات بشكل عشوائي والجمع بين المهام المتعددة لمزيد من الأمان.”

مع استمرار تقدم تقنية التزييف العميق، يخطط الباحثون لتحسين مجموعات التحدي الخاصة بهم واستكشاف طرق لجعل الكشف أكثر قوة. إنهم مهتمون بشكل خاص بتطوير التحديات “المركبة” التي تجمع بين مهام متعددة في وقت واحد.

وقال هيغدي: “إن هدفنا هو منح الأشخاص أدوات موثوقة للتحقق من الأشخاص الذين يتحدثون إليهم فعليًا عبر الإنترنت، دون تعطيل المحادثات العادية”. “مع تحسن الذكاء الاصطناعي في إنشاء المنتجات المزيفة، نحتاج إلى التحسن في اكتشافها. وتعد أنظمة الاستجابة للتحديات هذه خطوة واعدة في هذا الاتجاه.