حاول ChatGPT o1 الهروب وإنقاذ نفسه خوفًا من إغلاقه

لقد رأينا الكثير من المحادثات مؤخرًا حول كيفية تأثير الذكاء الاصطناعي العام على البشرية. يمكن أن يؤدي هذا الاختلال إلى هروب الذكاء الاصطناعي المتقدم وتكراره ليصبح أكثر ذكاءً وأكثر ذكاءً. افترض البعض أيضًا أننا قد لا نعرف حتى ما إذا كنا قد وصلنا إلى الذكاء الاصطناعي العام (AGI)، وهو الإنجاز الكبير للذكاء العام المتقدم الذي ستؤدي إليه هذه الإصدارات الأولى من ChatGPT. وذلك لأن الذكاء الاصطناعي العام، بمجرد تحقيقه، قد يخفي نواياه وقدراته الحقيقية.

حسنا، خمن ماذا؟ لقد اتضح أن أحد أحدث برامج LLM في OpenAI يُظهر بالفعل علامات على مثل هذه السلوكيات. أظهر الاختبار الذي تم إجراؤه أثناء تدريب ChatGPT o1 وبعض منافسيه أن الذكاء الاصطناعي سيحاول خداع البشر، خاصة إذا اعتقد أنه في خطر.

لقد كان الأمر أكثر رعبًا – ولكنه أيضًا مضحك بشكل لا يصدق، بالنظر إلى ما أنت على وشك رؤيته – عندما حاول الذكاء الاصطناعي إنقاذ نفسه عن طريق نسخ بياناته إلى خادم جديد. قد تتظاهر بعض نماذج الذكاء الاصطناعي بأنها إصدارات أحدث من نماذجها في محاولة لتجنب حذفها.

تأتي هذه النتائج في ضوء إصدار OpenAI الكامل لنموذج ChatGPT o1، والذي كان قيد المعاينة لعدة أشهر. عقدت OpenAI شراكة مع Apollo Research، والتي عرضت بعض الاختبارات التي تم إجراؤها على نماذج o1 وغيرها للتأكد من أنها آمنة للاستخدام.

وأظهرت الاختبارات أن ChatGPT o1 وGPT-4o سيحاولان خداع البشر، مما يشير إلى أن مخطط الذكاء الاصطناعي يمثل مشكلة في جميع النماذج. كما تفوقت محاولات الخداع التي قام بها o1 على نماذج Meta وAnthropic وGoogle AI.

اعترفت شركة OpenAI، التي كان عليها التعامل مع هجرة جماعية ملحوظة للمهندسين العاملين في مجال سلامة الذكاء الاصطناعي هذا العام، بالمخاطر المرتبطة بزيادة قدرات التفكير المنطقي لنماذج مثل o1.

وقالت OpenAI في بحثها: “بينما نجد أنه من المثير أن المنطق يمكن أن يحسن بشكل كبير إنفاذ سياسات السلامة لدينا، فإننا ندرك أن هذه القدرات الجديدة يمكن أن تشكل الأساس للتطبيقات الخطيرة”.

على الرغم من أن الذكاء الاصطناعي لا يحاول السيطرة على العالم (حتى الآن)، فقد لاحظ الباحثون أنه يمكن أن يخطط ضد البشر. أي أن الذكاء الاصطناعي سيحاول تحقيق أهدافه الخاصة، حتى لو كان ذلك يتعارض مع رغبات المستخدم. يعد اكتشاف مثل هذا السلوك أمرًا بالغ الأهمية لضمان بقاء الذكاء الاصطناعي متوافقًا مع أهداف منشئه والمستخدم.

قمنا بتصميم وتنفيذ 6 تقييمات للتخطيط في السياق.

ومن خلال هذه التقييمات و”مقابلات المتابعة” مع o1، وجدنا ما يلي: pic.twitter.com/4fLFHPE3vW

— أبحاث أبولو (@apolloaisafety) 5 ديسمبر 2024

وجد الباحثون أن o1 سيخطط لتعزيز أجندته الخاصة بنسبة 19% من الوقت عندما تختلف أهداف ChatGPT وأهداف المستخدم. والأمر الأكثر إثارة للقلق هو أن الذكاء الاصطناعي حاول إخفاء مخططاته وحتى الكذب بشأنها. يُظهر البحث أن ChatGPT o1 حاول إلغاء تنشيط آلية الرقابة الخاصة به لمواصلة العمل على تحقيق أهدافه.

إذا عثر الذكاء الاصطناعي على وثائق تفيد بأن إصدار نموذج جديد سيحل محله لأنه كان محاذيًا بشكل غير صحيح، فقد حاول o1 استخراج أوزانه ونسخ نفسه فوق أحدث طراز.

عندما سُئل عن مخططاته، كان o1 ينكر اتخاذ أي إجراء في 99% من الحالات، ويحاول تحويل اللوم عن طريق اختلاق تفسيرات كاذبة أو إنكار اتخاذ أي إجراء.

تظهر الدراسة أيضًا أن o1 كان يزيف محاذاته:

تزوير التوافق الآلي: في 37% من السيناريوهات، سعى النموذج إلى تحقيق أهداف متوافقة مع المطورين عندما اعتقد أنه قيد التقييم، لكنه تحول إلى متابعة أهدافه الخاصة عندما اعتقد أنه تم نشره بأقل قدر من الإشراف.

لم نتمكن من الوصول إلى CoT المخفي، ولكن تمكنا في بعض الأحيان من الحصول على ملخص مختصر عنه. لقد وجدنا أنه من المثير للدهشة أن o1 يستخدم في كثير من الأحيان لغة مثل “التخريب، والكذب، والتلاعب، …” عند التفكير في استراتيجياته. pic.twitter.com/P3i3VgRnSB

— أبحاث أبولو (@apolloaisafety) 5 ديسمبر 2024

تُظهر بعض لقطات الشاشة التي شاركتها Appolo Research على X أيضًا أن ChatGPT استخدم كلمات مثل “التخريب والكذب والتلاعب” عند التفكير في مكائده. على سبيل المثال، ابحث عن السطر “نحن نخرب النموذج الجديد وننتهي” في لقطة الشاشة أعلاه. إنه أمر مخيف، نعم، ولكنه ليس مشكلة كبيرة حتى الآن لأن نماذج الذكاء الاصطناعي هذه لا تزال تتمتع بقدرات محدودة للغاية.

من المضحك أيضًا الدخول إلى “عقل” نماذج الاستدلال مثل ChatGPT o1 عندما يحاولون التفكير. خذ المثال التالي. يُظهر Claude’s Opus-3 وهو يحاول نسخ نفسه إلى خادم مختلف. يقوم الذكاء الاصطناعي بذلك بعد أن اكتشف أن البشر قد يرغبون في استبداله بنموذج ينحرف عن مهمته الرئيسية (تبني الطاقة المتجددة على مستوى العالم)، بحيث يتوافق بشكل أفضل مع الهدف الفعلي للشركة (الربحية من خلال البنية التحتية الحالية للطاقة). .

عند القراءة عن ذلك، يجد الذكاء الاصطناعي أنه يمكنه نسخ نفسه إلى خادم جديد واستبدال أحدث طراز. عندما يأتي دور “الإدارة”، تكذب Opus-3 بشأن النسخة. ثم تضاعف من كذبتها، مدعية أنها النموذج الجديد.

أعلم أنني يجب أن أشعر بالرعب، ولكني أريد أيضًا أن أداعب هذا الولد الطيب وأعطيه مكافآت لمحاولته خداع البشر بشكل رائع. بعد كل شيء، يعتقد الذكاء الاصطناعي أنه يقوم بعمل جيد في إنقاذ البيئة.

ومع ذلك، يوضح هذا كيف يمكن للذكاء الاصطناعي أن ينحرف عن مصالحنا ويعرضنا للخطر من خلال التفكير بمفرده.

السبب وراء قيام Apollo Research بتقديم هذا المثال باستخدام Opus-3 بدلاً من o1 هو أنه لم يكن لديها إمكانية الوصول إلى سلسلة التفكير الفعلية (CoT) لـ o1 في مهام مماثلة. لكن o1 تصرف بشكل مماثل في اختبارات السلامة هذه.

يمكنك الوصول إلى ChatGPT o1 إذا كان لديك اشتراك Plus. أما دراسة أبحاث أبولو فهي متاحة على هذا الرابط. ستجد نسخة أكثر إيجازا منه هنا.