أخبار

يستخدم المتسللين الآن منظمة العفو الدولية لكسر الذكاء الاصطناعي


لقد كانت مسألة وقت فقط قبل أن يبدأ المتسللون في استخدام الذكاء الاصطناعي لمهاجمة الذكاء الاصطناعي – والآن لقد حان الوقت. جعل اختراق البحوث الجديد هجمات حقن AI Form أسرع وأسهل وفعالية بشكل خاطئ ، حتى ضد الأنظمة المفترضة الآمنة مثل جوز Google من Google.

كانت هجمات الحقن الفوري واحدة من أكثر الطرق موثوقية لمعالجة نماذج اللغة الكبيرة (LLMS). من خلال التسلل إلى الإرشادات الضارة في النص الذي يقرأه AI – مثل تعليق في كتلة من الكود أو النص المخفي على صفحة ويب – يمكن للهجوم الحصول على النموذج لتجاهل قواعده الأصلية.

قد يعني ذلك تسريب البيانات الخاصة ، أو تقديم إجابات خاطئة ، أو تنفيذ سلوكيات أخرى غير مقصودة. ومع ذلك ، فإن المصيد هو أن هجمات الحقن الفوري تتطلب عادةً الكثير من التجربة اليدوية والخطأ للحصول على صواب ، خاصة بالنسبة لنماذج الوزن المغلقة مثل GPT-4 أو الجوزاء ، حيث لا يستطيع المطورون رؤية الكود الأساسي أو بيانات التدريب.

لكن تقنية جديدة تسمى المرح تغيّر. تم تطوير هذه الطريقة من قبل فريق من الباحثين الجامعيين ، وتستخدم واجهة برمجة تطبيقات Google الخاصة بالجرميني لصياغة حقن عالي النجاح في النجاح-من الناحية التلقائية. تتوفر نتائج الباحث حاليًا في تقرير preprint.

من خلال إساءة استخدام واجهة تدريب Gemini ، يحصل صقل المرح على أفضل “البادئات” و “اللاحقات” للالتفاف حول موجه المهاجم الضار ، مما يزيد بشكل كبير من فرصها. والنتائج تتحدث عن نفسها.

في الاختبار ، حقق صقل المرح ما يصل إلى 82 في المائة من معدلات النجاح في بعض نماذج الجوزاء ، مقارنة بأقل من 30 في المائة مع الهجمات التقليدية. إنه يعمل من خلال استغلال أدلة خفية في عملية الضبط-مثل كيفية تفاعل النموذج مع أخطاء التدريب-وتحويلها إلى تعليقات تشحذ الهجوم. فكر في الأمر كنظام صواريخ موجهة إلى AI للحقن السريع.

حتى أكثر إثارة للقلق ، تم تطوير الهجمات التي تم تطويرها لإصدار واحد من الجوزاء بسهولة إلى الآخرين. هذا يعني أن المهاجم الواحد يمكن أن يطور موجهًا ناجحًا ونشره عبر منصات متعددة. ونظرًا لأن Google تقدم واجهة برمجة التطبيقات هذه المجانية مجانًا ، فإن تكلفة تصاعد مثل هذا الهجوم منخفضة تصل إلى 10 دولارات في وقت الحساب.

اعترفت Google بالتهديد لكنها لم تعلق على ما إذا كانت تخطط لتغيير ميزات ضبطها. يحذر الباحثون الذين يقفون وراء صقل المرح من أن الدفاع عن هذا النوع من الهجوم ليس بسيطًا-فالبيانات الرئيسية من عملية التدريب من شأنها أن تجعل الأداة أقل فائدة للمطورين. لكن تركه يجعل من السهل على المهاجمين استغلالهم.

شيء واحد مؤكد. تعتبر هجمات الحقن المذهلة من الذكاء الاصطناعى مثل هذه علامة على أن اللعبة دخلت مرحلة جديدة – حيث ليست الذكاء الاصطناعي هي الهدف فقط ، ولكن أيضًا السلاح.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى