، مقالات،

جوجل DeepMind تطلق العلامات المائية للنصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي



لقد تركت ثورة روبوتات الدردشة عالمنا غارقًا في النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي: لقد تسللت إلى خلاصات الأخبار وأوراق الفصل الدراسي وصناديق البريد الوارد لدينا. إنها وفيرة بشكل سخيف لدرجة أن الصناعات ظهرت لتوفير التحركات والتحركات المضادة. تقدم بعض الشركات خدمات لتحديد النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من خلال تحليل المواد، بينما يقول البعض الآخر إن أدواتهم سوف “تضفي طابعًا إنسانيًا” على النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي وتجعله غير قابل للاكتشاف. يتمتع كلا النوعين من الأدوات بأداء مشكوك فيه، ومع تحسن روبوتات الدردشة، سيصبح من الصعب معرفة ما إذا كانت الكلمات قد تم تجميعها معًا بواسطة إنسان أو خوارزمية.

إليك طريقة أخرى: إضافة نوع من العلامة المائية أو بيانات اعتماد المحتوى إلى النص من البداية، مما يتيح للأشخاص التحقق بسهولة مما إذا كان النص قد تم إنشاؤه بواسطة الذكاء الاصطناعي. بحث جديد من Google DeepMind، تم وصفه اليوم في المجلة طبيعة، يقدم طريقة للقيام بذلك. يقول بوشميت كوهلي، نائب رئيس الأبحاث في Google DeepMind والمؤلف المشارك في البحث، إن النظام، المسمى SynthID-Text، لا يؤثر على “جودة النص أو دقته أو إبداعه أو سرعته”. لكن الباحثين يعترفون بأن نظامهم أبعد ما يكون عن أن يكون مضمونًا، وليس متاحًا للجميع بعد، فهو مجرد عرض توضيحي أكثر من كونه حلاً قابلاً للتطوير.

أعلنت Google اليوم عن دمج نظام العلامات المائية الجديد هذا في برنامج Gemini chatbot الخاص بها. كما أنها فتحت الأداة مفتوحة المصدر وجعلتها متاحة للمطورين والشركات، مما سمح لهم باستخدام الأداة لتحديد ما إذا كانت مخرجات النص قد جاءت من نماذج اللغة الكبيرة الخاصة بهم (LLMs)، وأنظمة الذكاء الاصطناعي التي تعمل على تشغيل روبوتات الدردشة. ومع ذلك، لا يتمكن حاليًا سوى Google وهؤلاء المطورين من الوصول إلى الكاشف الذي يتحقق من العلامة المائية. وكما يقول كوهلي: “على الرغم من أن SynthID ليس حلاً سحريًا لتحديد المحتوى الناتج عن الذكاء الاصطناعي، إلا أنه يمثل لبنة بناء مهمة لتطوير أدوات تعريف أكثر موثوقية للذكاء الاصطناعي”.

صعود أوراق اعتماد المحتوى

لقد كانت بيانات اعتماد المحتوى موضوعًا ساخنًا للصور ومقاطع الفيديو، ويُنظر إليها على أنها إحدى طرق مكافحة ظهور التزييف العميق. انضمت شركات التكنولوجيا ووسائل الإعلام الكبرى معًا في مبادرة تسمى C2PA، والتي وضعت نظامًا لربط البيانات الوصفية المشفرة بملفات الصور والفيديو مما يشير إلى ما إذا كانت حقيقية أو تم إنشاؤها بواسطة الذكاء الاصطناعي. لكن النص يمثل مشكلة أصعب بكثير، حيث يمكن تعديل النص بسهولة لإخفاء العلامة المائية أو إزالتها. على الرغم من أن SynthID-Text ليست المحاولة الأولى لإنشاء نظام علامة مائية للنص، إلا أنها أول محاولة يتم اختبارها على 20 مليون مطالبة.

ويرى الخبراء الخارجيون الذين يعملون على بيانات اعتماد المحتوى أن بحث DeepMind يعد خطوة جيدة. يقول أندرو جينكس، مدير مصادر الوسائط في Microsoft والرئيس التنفيذي لـ C2PA: “إنه يحمل وعدًا بتحسين استخدام بيانات اعتماد المحتوى الدائم من C2PA للمستندات والنصوص الأولية”. يقول بروس ماكورماك، عضو اللجنة التوجيهية لـ C2PA: “إن هذه مشكلة يصعب حلها، ومن الجيد أن نرى بعض التقدم يتم إحرازه”.

كيف تعمل العلامات المائية النصية لجوجل

يعمل SynthID-Text من خلال التدخل بشكل خفي في عملية الإنشاء: فهو يغير بعض الكلمات التي يخرجها برنامج chatbot إلى المستخدم بطريقة غير مرئية للبشر ولكنها واضحة لكاشف SynthID. وكتب الباحثون في ورقتهم البحثية: “إن مثل هذه التعديلات تقدم توقيعًا إحصائيًا في النص الذي تم إنشاؤه”. “خلال مرحلة اكتشاف العلامة المائية، يمكن قياس التوقيع لتحديد ما إذا كان النص قد تم إنشاؤه بالفعل بواسطة علامة LLM ذات العلامة المائية.”

تعمل دورات LLM التي تدعم برامج الدردشة الآلية من خلال إنشاء جمل كلمة بكلمة، والنظر في سياق ما حدث من قبل لاختيار الكلمة التالية المحتملة. بشكل أساسي، يتدخل SynthID-Text عن طريق تعيين درجات الأرقام بشكل عشوائي للكلمات المرشحة والحصول على كلمات إخراج LLM ذات درجات أعلى. لاحقًا، يمكن للكاشف أن يأخذ جزءًا من النص ويحسب نتيجته الإجمالية؛ سيحصل النص الذي يحمل علامة مائية على درجة أعلى من النص الذي لا يحمل علامة مائية. قام فريق DeepMind بفحص أداء نظامهم مقابل أدوات وضع العلامات المائية النصية الأخرى التي تغير عملية الإنشاء، ووجدوا أنه قام بعمل أفضل في اكتشاف النص الذي يحمل علامة مائية.

ومع ذلك، أقر الباحثون في ورقتهم البحثية أنه لا يزال من السهل تغيير النص الذي تم إنشاؤه بواسطة الجوزاء وخداع الكاشف. على الرغم من أن المستخدمين لن يعرفوا الكلمات التي يجب تغييرها، إذا قاموا بتحرير النص بشكل كبير أو حتى طلبوا من برنامج chatbot آخر تلخيص النص، فمن المحتمل أن تكون العلامة المائية محجوبة.

اختبار العلامات المائية النصية على نطاق واسع

وللتأكد من أن SynthID-Text لم يجعل روبوتات الدردشة تنتج استجابات أسوأ، قام الفريق باختباره على 20 مليون مطالبة مقدمة إلى Gemini. تم توجيه نصف هذه المطالبات إلى نظام SynthID-Text وحصلت على استجابة بعلامة مائية، بينما حصل النصف الآخر على استجابة Gemini القياسية. إذا حكمنا من خلال تعليقات المستخدمين “ممتازة” و”ممتازة”، فإن الردود ذات العلامة المائية كانت مرضية للمستخدمين تمامًا مثل الاستجابات القياسية.

وهو أمر رائع بالنسبة إلى Google والمطورين الذين يعتمدون على Gemini. لكن معالجة المشكلة الكاملة المتمثلة في تحديد النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي (والذي يسميه البعض AI slop) سيتطلب من العديد من شركات الذكاء الاصطناعي تنفيذ تقنيات العلامات المائية – من الناحية المثالية، بطريقة قابلة للتشغيل البيني بحيث يتمكن كاشف واحد من التعرف على النص من العديد من دورات LLM المختلفة. وحتى في حالة توقيع جميع شركات الذكاء الاصطناعي الكبرى على بعض الاتفاقات، وهو أمر غير مرجح، ستظل هناك مشكلة شهادات LLM مفتوحة المصدر، والتي يمكن تغييرها بسهولة لإزالة أي وظيفة للعلامة المائية.

يلاحظ MacCormack من C2PA أن الاكتشاف يمثل مشكلة خاصة عندما تبدأ في التفكير عمليًا في التنفيذ. يقول: “هناك تحديات تتعلق بمراجعة النص بشكل عام، حيث يتعين عليك معرفة نموذج العلامة المائية الذي تم تطبيقه لمعرفة كيف وأين تبحث عن الإشارة”. بشكل عام، كما يقول، لا يزال عمل الباحثين أمامهم صعبًا. ويقول ماكورماك إن هذا الجهد “ليس طريقًا مسدودًا، ولكنه الخطوة الأولى على طريق طويل”.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى