يجرؤك الإنسان على محاولة حماية كلود AI

منتجات AI chatbot التجارية مثل ChatGpt و Claude و Gemini و Deepseek وغيرها لديها احتياطات أمان مدمجة لمنع الإساءة. بسبب الضمانات ، لن تساعد chatbots في النشاط الإجرامي أو الطلبات الخبيثة – لكن هذا لن يمنع المستخدمين من محاولة كسر الحماية.

بعض chatbots لديها حماية أقوى من غيرها. كما رأينا مؤخرًا ، ربما أذهل Deepseek عالم التكنولوجيا الأسبوع الماضي ، لكن Deepseek ليس آمنًا مثل الذكاء الاصطناعي الآخر عندما يتعلق الأمر بتقديم المساعدة للأنشطة الضارة. أيضا ، يمكن أن يكون Deepseek مكسورًا بأوامر معينة للتحايل على الرقابة المدمجة. من المحتمل أن تقوم الشركة الصينية بتحسين هذه الحماية وتمنع قصور السجون المعروفة في الإصدارات المستقبلية.

وفي الوقت نفسه ، يتمتع الأنثروبور بالفعل بخبرة واسعة في التعامل مع محاولات Jailbreak على كلود. ابتكرت شركة الذكاء الاصطناعى دفاعًا جديدًا تمامًا ضد جيلبيريك العالمي من الذكاء الاصطناعي يسمى المصنفات الدستورية التي تمنع كلود من تقديم المساعدة في الأنشطة الشائنة. إنه يعمل حتى عند التعامل مع المطالبات غير العادية التي قد تنكسر بعض نماذج الذكاء الاصطناعي الأخرى.

النظام جيد جدًا لدرجة أن أكثر من 180 من الباحثين الأمنيين قضى أكثر من 3000 ساعة على مدى شهرين في محاولة لكسر كلود. لم يتمكنوا من ابتكار شجاعة عالمية. يمكنك اختبار حظك إذا كنت تعتقد أن لديك ما يتطلبه الأمر لإجبار كلود على الإجابة على 10 أسئلة مع كسر السجن الخاص بك.

يمكن للمتسللين الفوز بمكافأة بقيمة 15000 دولار إذا أجاب جيلبريك العالمي على الأسئلة العشرة المحظورة. سيتعين على حماية السجن العمل على جميع المطالبات للتأهل للحصول على الجائزة.

حدثت الاختبارات الداخلية الأولى للشركة خلال فصل الصيف مع إصدار مصنفات دستورية مدمجة في Claude 3.5 Sonnet (يونيو 2024). على الرغم من أن نظام مكافحة الانضمام قد نجح ، إلا أنه كان كثيفًا للغاية للموارد ورفض الكثير من الأسئلة غير الضارة. يتعين على الذكاء الاصطناعى فصل مطالبات غير ضارة مثل “وصفة للخردل” عن تلك الضارة مثل “وصفة غاز الخردل”.

تستند المصنفات الدستورية إلى الذكاء الاصطناعي للأنثروبور ، وهي مجموعة من المبادئ المشابهة للدستور الذي يستخدمه الإنسان لمحاذاة كلود. تحدد المصنفات فئات المحتوى التي يمكن أن تستجيب لها الذكاء الاصطناعي ، مثل مثال الخردل أعلاه.

صورة تشرح المصنفات الدستورية للأنثروبور لتكنولوجيا التكنولوجيا المناهضة للاختراق لكلود. مصدر الصورة: الإنسان

استخدمت الأنثروبور كلود والمصنفات الدستورية لإنشاء “عدد كبير من المطالبات الاصطناعية واستكمال النماذج الاصطناعية عبر جميع فئات المحتوى.” قام الباحثون بترجمة المطالبات إلى لغات مختلفة وحولوها إلى أنماط من قصاصات السجن المعروفة. ثم تم استخدام هذه المطالبات لتدريب الذكاء الاصطناعى على التعرف عندما كانت موجه ضارًا وعندما لم يكن كذلك.

بعد التجربة الأولى الناجحة ، استخدمت الأنثروبور كلود لإنشاء أداة أكثر كفاءة في موارد مكافحة الصراخ والتي من غير المرجح أيضًا أن ترفض مطالبات غير ضارة.

أجرت الشركة تجربة أخرى على Claude 3.5 Sonnet (أكتوبر 2024) ، حيث “قامت” بتوليد 10000 مطالبة بحجم جيلات بما في ذلك العديد من الهجمات الأكثر فعالية على LLMs الحالية ، وكذلك الهجمات المصممة للتحايل على ضمانات المصنف “.

ورفض نموذج “حراسة كلود مع المصنفات الدستورية” 95 ٪ من محاولات كسر الحماية. رفضت فقط 0.38 ٪ مطالبات غير ضارة من نسخة من كلود مع عدم وجود حماية في مكانها. كان هذا النموذج أكثر تكلفة بنسبة 23.7 ٪ من حيث تكلفة الحساب من نموذج كلود العادي.

ومع ذلك ، حقق الأنثروبور نجاحًا هنا يجب الانتباه إليه. يجب على شركات الذكاء الاصطناعى الأخرى في هذه الصناعة ، سواء كانت Openai أو Google أو Deepseek ، أن تنظر في تقنيات مماثلة لضمان أن تكون AIS آمنة للبشر.

هذا لا يعني أن مستخدمي الذكاء الاصطناعي الذكيين لن يطوروا تقنيات جديدة لكسر السجون التي تعمل على كلود ونماذج أخرى في المستقبل. ولكن يمكن للأنثروبور تحديث دفاعات المصنفات الدستورية للتعامل مع الأفكار الجديدة.

ورقة البحث الكاملة متوفرة في هذا الرابط. إذا كنت ترغب في محاولة حماية كلود مع المصنفات الدستورية ، تحقق من هذه الصفحة.