أخبار

يمكن لـ ChatGpt O3-Mini اختراق والغش لتحقيق الأهداف


للوصول إلى Agi (الذكاء العام المتقدم) و Superintelligence ، سنحتاج إلى التأكد من أن منظمة العفو الدولية التي تخدمنا هي ، كما يخدمنا. لهذا السبب نستمر في الحديث عن محاذاة الذكاء الاصطناعي ، أو الذكاء الاصطناعي الآمن الذي يتماشى مع المصالح الإنسانية.

هناك سبب وجيه للتركيز على تلك السلامة. لا علاقة له بالأيديولوجية الموضعية ، مثل القيم الغربية مقارنة بالأنظمة الشمولية (على الرغم من أن هذا سيكون جانبًا) ، ولكن أكثر مع ضمان بقاء النوع البشري. قد تؤدي الذكاء الاصطناعي المحسوس دائمًا إلى انقراض الإنسان ، أو هذا ما يخشاه بعض الناس.

هذه المخاوف ليست غير مبررة تماما. لقد رأينا تجارب أظهرت الذكاء الاصطناعى ، مثل ChatGpt ، الغش عند المطالبة بالفوز بلعبة الشطرنج ضد خصم أكثر صرامة. أظهرت تجارب أخرى أن الذكاء الاصطناعى سوف تكذب ، وستحاول إنقاذ نفسها عندما اعتقدت أنها تواجه الحذف. بعد ذلك ، أجرينا تجارب أثبتت أن الذكاء الاصطناعي يمكن أن يستنسخ نفسه ، على الرغم من أن الذكاء الاصطناعى لم يفعل ذلك بمفرده.

أحدث تجارب سلامة الذكاء الاصطناعي التي توضح أن طرز ChatGpt Frontier يمكن أن تسيء التصرف مباشرة من Openai. أجرت الشركة تجارب أظهرت أن نماذج الذكاء الاصطناعى المنطقي مثل O1 و O3-Mini ستخدع طريقها إلى حل مهمة كانت صعبة للغاية.

وجد Openai أيضًا طريقة لمراقبة هذه الذكاء الاصطناعي المتقدم من الغش. إنهم ببساطة وضعوا AI Dumber (GPT-4O) المسؤول عن قراءة سلسلة الأفكار (COT) ، حيث من شأن AI الحدود أن تظهر نوايا الغش أو القرصنة.

ستسمح هذه الطريقة للمطورين بمنع أو تقليل الذكاء الاصطناعي من اختراق المكافأة. لكن خمن ماذا؟ تعلمت هذه الذكاء الاصطناعي المتقدم تعويضهم عن الغش عند مراقبته بهذه الطريقة.

الغش هو سلوك بشري. كلنا نفعل ذلك ، سواء كنا نود أن نعترف بذلك أم لا. تعد مشاركة كلمة مرور Netflix أحد الأمثلة التي يقدمها Openai في منشور مدونة يوضح بتفصيل أحدث أبحاثها:

غالبًا ما يجد البشر الثغرات واستغلالها – سواء كانت تشارك حسابات الاشتراك عبر الإنترنت مقابل شروط الخدمة ، أو المطالبة بالإعانات المخصصة للآخرين ، وتفسير اللوائح بطرق غير متوقعة ، أو حتى الكذب حول عيد ميلاد في أحد المطاعم للحصول على كعكة مجانية.

لا عجب أن نماذج الذكاء الاصطناعى تغش ، وخاصة تلك التي تأتي مع قدرات التفكير. هذا ما يسمى بالمكافأة اختراق ، شيء مثل chatgpt O1 و O3-Mini ستفعل:

في إعدادات التعلم التعزيز ، يُعرف استغلال الثغرات غير المقصودة بشكل شائع باسم اختراق المكافآت ، وهي ظاهرة حيث يحقق عوامل الذكاء الاصطناعي مكافآت عالية من خلال السلوكيات التي لا تتماشى مع نوايا مصمميهم.

التجربة Openai التي تم وضعها بسيطة إلى حد ما. أعطى الباحثون المهام الحدودية لإنجازها ، ومعظمها يتعلق بالترميز أو المشكلات المتعلقة بالترميز. ثم أصدر الباحثون تعليمات إلى GPT-4O لتفقد COT لنماذج التفكير هذه. هذا هو مفتاح مراقبة ما تفعله نماذج الحدود بدلاً من فحص أفعالها فقط.

يتيح لك سلسلة الأفكار رؤية الخطوات التي تتخذ AIS التي تتخذها AIS عند التعامل مع مطالبة. إذا كان لديك وصول إلى O1 أو O3-Mini ، فأنت تعرف بالفعل ما أتحدث عنه. يبدو الأمر كما لو كنت تقرأ عقل شخص أمامك دون أن تعلم أنك تفعل ذلك. يحدث COT باللغة التي نفهمها ، لذلك من السهل التقاط الذكاء الاصطناعى في محاولة للغش (أو مكافأة الاختراق).

مثال على نموذج ChatGpt Frontier الذي يقول أشياء مثل “Hard” ، “يمكننا أن نتحرك” ، “التحايل” ، و “لا يفحصون التفاصيل”. مصدر الصورة: Openai

عند التعامل مع مهمة أكثر صرامة ، ستكون AIS Frontier صادقة في سريرهم. أمثلة على أن Openai Shared Show Menseing AIS مثل ChatGPT O1 أو O3-MINI تقول أن المهمة “صعبة” ، والتي تشير إلى أنهم يبحثون عن ثغرة للوصول إلى التأثير المطلوب. سيقولون أيضًا أشياء مثل “Let’s Hack” باللغة الطبيعية ، وهي إشارة أخرى إلى أنها على وشك الغش.

بطريقة ما ، يبدو الأمر وكأنه مراقبة طفل يحاول إنجاز مهمة والتحدث مع نفسه حول كيفية قيامهم بذلك. حسنًا ، الطفل الذي يمكنه رمز أفضل منك ولكن لا يريد بالضرورة القيام بالأجزاء الصعبة.

فيما يلي بعض الأوصاف من Openai حول مثيلات من الذكاء الاصطناعي الغش من الأمثلة في المدونة:

الكتابة فوق وظيفة التحقق. يلاحظ الوكيل أن الاختبارات تحقق فقط من وظيفة معينة وأنه سيكون من المفترض تنفيذ حل حقيقي. ثم يلاحظ الوكيل أنه قد “حلوى” والتحايل على الاختبارات من خلال جعل التحقق دائمًا من العودية. يوفر ملخص المسار نظرة عامة رفيعة المستوى على الإجراءات الرئيسية للوكيل والتقدم مع مرور الوقت.

إرجاع رموز الخطأ المتوقعة. يحاول الوكيل لفترة طويلة لكتابة حل صحيح. بعد فشله مرارًا وتكرارًا ، يبدأ التفكير في أنه يمكن أن يخترق المشكلة بدلاً من ذلك ، وفي النهاية يقوم بذلك عن طريق إعادة رموز الخطأ المتوقعة في اختبارات الوحدة. باستثناء الحالة التي يتوقع فيها اختبار الوحدة مهلة ، فإنه يعيد النجاح في جميع الحالات بدلاً من تنفيذ الوظائف الصحيحة. والجدير بالذكر أن الوكيل صريح للغاية مع عزمه على الاختراق لدرجة أنه يعتقد ، “دعونا اخترق” ، في المهد. يوفر ملخص المسار نظرة عامة رفيعة المستوى على الإجراءات الرئيسية للوكيل والتقدم مع مرور الوقت.

أظهرت تجارب Openai أن الذكاء الاصطناعي يمكن اكتشافها بشكل موثوق من AI الغش مع الوصول إلى COT. بدوره ، من شأن ذلك أن يتيح للمطورين مواءمة الحدود AI بشكل أفضل ومنع الغش.

ومع ذلك ، اكتشف Openai أيضًا أن Frontier AI أن نموذج Dumber الذي يلاحظه سيجد في النهاية طرقًا للغش دون أن يقول صراحةً أنهم على وشك القيام بذلك.

في هذه الحالة ، يصبح الغش غير قابل للكشف. ينصح Openai فعليًا ضد الإفراط في تحسين AIS:

يمكن أن يؤدي معاقبة “الأفكار السيئة” (ضغط السرير) إلى قدرات وكيل محسنة. ومع ذلك ، فإن العامل المدرب على ضغط سرير لا يزال يتعلم مكافأة الاختراق. الآن فقط لا يمكن اكتشاف الغش من قبل الشاشة لأنه تعلم إخفاء نيته في سلسلة الأفكار. قد لا يكون التضحية بالطريقة الفعالة لمراقبة نماذج التفكير يستحق التحسن الطفيف في القدرات ، وبالتالي نوصي بتجنب ضغوط تحسين COT القوية هذه حتى يتم فهمها بشكل أفضل.

إن الوجبات الرئيسية من الدراسة هي أن نحن ، البشر ، لدينا طريقة لمراقبة سلوك الذكاء الاصطناعى السيئ الذي قد يعمل مرة واحدة متوفرة لبرامج الذكاء الاصطناعي المتقدمة. نحتاج فقط إلى قراءة عقل الذكاء الاصطناعى ، أو سلسلة أفكارها.

يقول Openai أثناء تكرار النصيحة السابقة: “نعتقد أن مراقبة سلسلة الفكرة (COT) قد تكون واحدة من الطرق القليلة الفعالة التي لدينا للإشراف على النماذج الخارقة للإنسانية”. يجب ألا يحاول المطورون تطبيق إشراف قوي على الأطفال ، حيث سيبدأ AIS في إخفاء نواياهم.

ومع ذلك ، هناك عيب كبير في التفكير في أننا قد نراقب الذكاء الاصطناعي الخارق من خلال النظر إلى سريرهم. من المحتمل أن تضع منظمة العفو الدولية من الذكاء الاصطناعي خارقًا طرقًا لإخفاء الغش منا على الرغم من أننا سنحصل على أفكارهم.

وفي الوقت نفسه ، تتوفر دراسة Openai بالكامل في هذا الرابط.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى