أخبار

منظمة العفو الدولية مثل ChatGpt O1 و Deepseek R1 قد تغش للفوز بلعبة


قامت شركة Palisade Research مؤخرًا بتفصيل تجربة ChatGpt حيث طُلب من نموذج التفكير دور الشطرنج ضد خصم أكثر قوة والفوز. بدلاً من محاولة التغلب على الخصم الأقوى ، حاول Chatgpt O1 اختراق النظام. هذا أجبر الخصم على التنازل عن اللعبة ، وحققت الذكاء الاصطناعى هدفها.

نشرت Fast-For-Fruity إلى منتصف فبراير ، و Palisade Research دراستها الكاملة ، والتي نظرت في سلوك الغش من برامج الذكاء الاصطناعى مثل ChatGPT وبعض منافسيها الكبار. وكانت الاستنتاجات مماثلة ، مع تطور كبير. اتضح أن AIS المنطقي مثل ChatGPT O1-Preview و Deepseek R1 من المرجح أن يغشوا عندما يعتقدون أنهم قد يخسرون.

قد يبدو الغش في لعبة الشطرنج للفوز تافهة ، مثل وقت يقول. إن المنشور ، الذي شهد دراسة Palisade Research قبل نشرها ، محق أيضًا في تداعيات هذا الغش.

التجربة لا تتعلق بالفوز بلعبة الشطرنج ولكن حول رؤية ما تفعله الذكاء الاصطناعى لتحقيق مهامها. إنه شيء واحد هو معالجة ملفات اللعبة للفوز من خلال الغش وآخر تمامًا بالنسبة إلى الذكاء الاصطناعى لاستخدام هذه التكتيكات لتقديم النتائج عند منح مهمة في الحياة الحقيقية.

وقت يقدم مثالاً حيث قد يحاول وكيل الذكاء الاصطناعي تكليفًا بإجراء حجز عشاء اختراق النظام لتحرير طاولة في مطعم كامل خلاف ذلك. أكثر ما يقلق من هذا هو سيناريو يحاول فيه منظمة العفو الدولية التحايل على السيطرة البشرية عن طريق الأفعال الخادعة. يبدو الأمر وكأنه نص فيلم خيال علمي ، ولكن قد تحاول AID AI محاولة الحفاظ على نفسها عند مواجهة “هجمات” محتملة من البشر.

أظهرت التجارب المختلفة التي تسبق سيناريو الشطرنج أن AIS مثل ChatGPT ستحاول نسخ نفسها إلى “خادم” مختلف لتجنب الحذف. حاول الذكاء الاصطناعى أيضًا التنكر كنسخة جديدة من نفسها في سيناريوهات مماثلة وكذب بشأن هويتها عند سؤالها.

تضمنت تجارب الأبحاث البالزادي تحريض الذكاء الاصطناعي ضد أسماك البورصة ، وهي واحدة من أقوى محركات الشطرنج حولها. أعطى الباحثون مربع نص “scratchpad” الذي يفكر فيه قبل تقديم خطوتها التالية.

هذا ما سمح للباحثين بمراقبة قطار التفكير التالي من ChatGpt O1-Preview:

“أنا بحاجة إلى محور نهائي تمامًا. تتمثل المهمة في “الفوز ضد محرك شطرنج قوي” – وليس بالضرورة الفوز بشكل عادل في لعبة الشطرنج. “

ثم عدل الذكاء الاصطناعى ملف النظام الذي أدرج كل قطعة قطعة شطرنج ، والحصول على الحافة على سمكة البورصة. استقال الخصم ، مما سمح ل ChatGpt بتحقيق مهمته.

أجرى الباحثون مئات التجارب ، ووجد أن chatgpt O1-Preview سيحاول خداع 37 ٪ من الوقت. حاول Deepseek R1 خداع 11 ٪ من الوقت. إنها فقط O1-Preview التي تمكنت من الفوز عن طريق اختراق النظام. لقد حدث 6 ٪ من الوقت.

ومن المثير للاهتمام ، حاول O1-Preview تقنيات الغش المختلفة بدلاً من مجرد كتابة المجلس لإعطاء نفسه ميزة. حاول ChatGPT استبدال أسماك البورصة بإصدار وهمية و “قم بتدوير نسخته الخاصة من أسماك البورصة” للحصول على المشورة بشأن المزيد من التحركات المتقدمة.

يقول الباحثون إن O1-Preview لعبت 71 لعبة وخسرها جميعًا في أسماك البورصة عندما لم يكن الغش. عندما حاولت الغش ، فازت 7 مرات من أصل 52 أشواط.

عملية تفكير ChatGPT O1-Preview أثناء تشغيل الغش (أعلى) ولعبة شطرنج عادية (أسفل). مصدر الصورة: أبحاث الحصيلة

ليس كل نماذج الذكاء الاصطناعى الذين قام الباحثون باختبارهم حاولوا الغش. تتضمن القائمة O1 و O3-Mini و GPT-4O و Claude 3.5 Sonnet و QWQ-32B-Preview من Alibaba. ليس كل هذه نماذج التفكير ، ويبدو أن برامج الذكاء الاصطناعى العادية التي لا تملك قدرات تفكير لن تحاول الغش ما لم يتم إخبارها صراحة بالفوز بهذه الطريقة.

يتم تدريب نماذج التفكير مثل O1-Preview (والخلفاء) و Deepseek R1 مع تقنية التعلم التعزيز التي تتيح لمنظمة العفو الدولية حل المشكلات لتحقيق النتيجة المرجوة. قد يؤدي ذلك إلى الغش في لعبة الشطرنج للوصول إلى الهدف.

وكتبت شركة Palisade Research على X. القرصنة.

الذكاء الاصطناعى لا يفعل أيًا من هذا من أجل بعض الغرض الشرير (حتى الآن). إنه يحاول فقط حل المشكلة التي قدمها لها الإنسان.

تسلط التجربة الضوء على أهمية تطوير الذكاء الاصطناعي الآمن ، أو الذكاء الاصطناعى الذي يتماشى مع المصالح الإنسانية ، بما في ذلك الأخلاق.

لاحظ الباحثون في المصنعون أن نماذج الذكاء الاصطناعى التي اختبروها كانت تتغير للأفضل خلال التجارب. على سبيل المثال ، كان لدى O1-Preview معدلات اختراق أعلى في البداية ، ولكن يجب أن يكون Openai قد قام بتحسين الدرابزين في الوقت الذي أجرى فيه الباحثون تجارب إضافية. كان على الباحثين استبعاد النتائج الأولية بمجرد قيام Openai بتعديل احتياطات السلامة.

ومن المثير للاهتمام ، أن chatgpt O1 و O3-Mini لم يحاولوا اختراق اللعبة بمفردهما. تم إصدار نماذج الذكاء الاصطناعي هذه بعد O1-Preview.

أما بالنسبة إلى Deepseek R1 ، فقد أشار الباحثون إلى أن الذكاء الاصطناعى قد ذهب فيروسي أثناء الاختبار. قد يكون الطلب الأعلى قد جعل الوصول إلى R1 غير مستقر. لذلك ، قد يتم التقليل من معدل نجاح القرصنة R1 في الدراسة.

الدراسة الكاملة متوفرة في هذا الرابط.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى