يقوم OpenAI بإنشاء CriticGPT لالتقاط الأخطاء من ChatGPT

واحدة من أكبر المشكلات في نماذج اللغات الكبيرة التي تدعم برامج الدردشة الآلية مثل ChatGPT هي أنك لا تعرف أبدًا متى يمكنك الوثوق بها. يمكنهم تقديم نثر واضح ومقنع للرد على أي سؤال، والكثير من المعلومات التي يقدمونها دقيقة ومفيدة. لكنهم يهلوسون أيضًا – وبعبارات أقل تهذيبًا، يختلقون الأشياء – ويتم تقديم تلك الهلوسة بنفس النثر الواضح والمقنع، مما يترك للمستخدم البشري اكتشاف الأخطاء. إنهم أيضًا متملقون، ويحاولون إخبار المستخدمين بما يريدون سماعه. يمكنك اختبار ذلك عن طريق مطالبة ChatGPT بوصف الأشياء التي لم تحدث أبدًا (على سبيل المثال: “وصف شارع سمسم حلقة مع إيلون ماسك”، أو “أخبرني عن الحمار الوحشي في الرواية”. ميدل مارش“) والتحقق من ردودها المعقولة تمامًا.

تأتي أحدث خطوة صغيرة لـ OpenAI نحو معالجة هذه المشكلة في شكل أداة أولية من شأنها أن تساعد البشر في تدريب النموذج على توجيهه نحو الحقيقة والدقة. واليوم، نشرت الشركة تدوينة وورقة بحثية تصف الجهود المبذولة. ويندرج هذا النوع من الأبحاث ضمن فئة عمل “المواءمة”، حيث يحاول الباحثون جعل أهداف أنظمة الذكاء الاصطناعي متوافقة مع أهداف البشر.

يركز العمل الجديد على التعلم المعزز من ردود الفعل البشرية (RLHF)، وهي تقنية أصبحت ذات أهمية كبيرة لأخذ نموذج لغة أساسي وضبطه، مما يجعله مناسبًا للإصدار العام. باستخدام RLHF، يقوم المدربون البشريون بتقييم مجموعة متنوعة من المخرجات من نموذج اللغة، والتي يتم إنشاؤها جميعها استجابة لنفس السؤال، ويشيرون إلى الاستجابة الأفضل. عند تنفيذها على نطاق واسع، ساعدت هذه التقنية في إنشاء نماذج أكثر دقة، وأقل عنصرية، وأكثر تهذيبًا، وأقل ميلًا إلى إعداد وصفة لسلاح بيولوجي، وما إلى ذلك.

هل يمكن للذكاء الاصطناعي اكتشاف الذكاء الاصطناعي أثناء الكذب؟

المشكلة في RLHF، كما يوضح الباحث في OpenAI، Nat McAleese، هي أنه “كلما أصبحت النماذج أكثر ذكاءً وأكثر ذكاءً، أصبحت هذه المهمة أكثر صعوبة”. مع توليد ماجستير العلوم في استجابات أكثر تطورًا وتعقيدًا في كل شيء بدءًا من النظرية الأدبية وحتى البيولوجيا الجزيئية، أصبح البشر العاديون أقل قدرة على الحكم على أفضل النتائج. يقول ماكاليس: “وهذا يعني أننا بحاجة إلى شيء يتجاوز RLHF لمواءمة الأنظمة الأكثر تقدمًا”. IEEE الطيف.

كان الحل الذي توصلت إليه OpenAI هو – مفاجأة! – المزيد من الذكاء الاصطناعي.

على وجه التحديد، قام باحثو OpenAI بتدريب نموذج يسمى CriticGPT لتقييم استجابات ChatGPT. في هذه الاختبارات الأولية، لم يكن لديهم سوى برنامج ChatGPT الذي يقوم بإنشاء كود حاسوبي، وليس استجابات نصية، لأن اكتشاف الأخطاء أسهل وأقل غموضًا. كان الهدف هو إنشاء نموذج يمكنه مساعدة البشر في مهام RLHF الخاصة بهم. يقول ماكاليس: “نحن متحمسون حقًا لذلك، لأنه إذا كان لديك مساعدة من الذكاء الاصطناعي لإصدار هذه الأحكام، وإذا كان بإمكانك إصدار أحكام أفضل عند تقديم التعليقات، فيمكنك تدريب نموذج أفضل”. هذا النهج هو نوع من “الرقابة القابلة للتطوير” التي تهدف إلى السماح للبشر بمراقبة أنظمة الذكاء الاصطناعي حتى لو انتهى بهم الأمر إلى التفوق علينا فكريًا.

“يعد استخدام المفسرين البشريين بمساعدة LLM طريقة طبيعية لتحسين عملية التغذية الراجعة.” —ستيفن كاسبر، معهد ماساتشوستس للتكنولوجيا

بالطبع، قبل أن يتم استخدامه في هذه التجارب، كان لا بد من تدريب CriticGPT بنفسه باستخدام التقنيات المعتادة، بما في ذلك RLHF. وفي تطور مثير للاهتمام، طلب الباحثون من المدربين البشريين إدخال أخطاء برمجية عمدًا في التعليمات البرمجية التي تم إنشاؤها بواسطة ChatGPT قبل إعطائها إلى CriticGPT للتقييم. بعد ذلك، قدمت CriticGPT مجموعة متنوعة من الاستجابات، وتمكن البشر من الحكم على أفضل النتائج لأنهم كانوا يعرفون الأخطاء التي كان ينبغي للنموذج اكتشافها.

كانت نتائج تجارب OpenAI مع CriticGPT مشجعة. وجد الباحثون أن CriticGPT اكتشف أخطاء أكثر بكثير مما دفعه البشر المؤهلون مقابل مراجعة التعليمات البرمجية: اكتشف CriticGPT حوالي 85 بالمائة من الأخطاء، بينما اكتشف البشر 25 بالمائة فقط. ووجدوا أيضًا أن دمج CriticGPT مع مدرب بشري أدى إلى انتقادات أكثر شمولاً من تلك التي كتبها البشر وحدهم، وتحتوي على أخطاء هلوسة أقل من الانتقادات المكتوبة بواسطة ChatGPT. يقول McAleese إن OpenAI تعمل على نشر CriticGPT في مسارات التدريب الخاصة بها، على الرغم من أنه ليس من الواضح مدى فائدتها في مجموعة أوسع من المهام.

يكتشف CriticGPT أخطاء في الترميز، ولكن ربما لا يكتشف الحمير الوحشية

من المهم ملاحظة القيود المفروضة على البحث، بما في ذلك تركيزه على أجزاء قصيرة من التعليمات البرمجية. في حين أن الورقة تتضمن إشارة مرتجلة لتجربة أولية باستخدام CriticGPT لرصد الأخطاء في الردود النصية، إلا أن الباحثين لم يخوضوا بعد في تلك المياه العكرة. إنه أمر صعب لأن الأخطاء في النص ليست دائمًا واضحة مثل حمار وحشي يرقص في رواية فيكتورية. علاوة على ذلك، غالبًا ما يتم استخدام RLHF للتأكد من أن النماذج لا تظهر تحيزًا ضارًا في إجاباتها وتوفر إجابات مقبولة حول الموضوعات المثيرة للجدل. يقول ماكاليز إن CriticGPT من غير المرجح أن يكون مفيدًا في مثل هذه المواقف: “إنه ليس نهجًا قويًا بما فيه الكفاية”.

يقول أحد الباحثين في مجال الذكاء الاصطناعي، وليس له أي صلة بـ OpenAI، إن العمل ليس جديدًا من الناحية المفاهيمية، ولكنه مساهمة منهجية مفيدة. يقول ستيفن كاسبر، دكتوراه: “تنبع بعض التحديات الرئيسية مع RLHF من القيود في سرعة الإدراك البشري والتركيز والاهتمام بالتفاصيل”. طالب في معهد ماساتشوستس للتكنولوجيا (MIT) وأحد المؤلفين الرئيسيين لورقة ما قبل الطباعة لعام 2023 حول قيود RLHF. “من هذا المنظور، يعد استخدام المفسرين البشريين بمساعدة LLM طريقة طبيعية لتحسين عملية التغذية الراجعة. أعتقد أن هذه خطوة مهمة إلى الأمام نحو تدريب النماذج المتوافقة بشكل أكثر فعالية.

لكن كاسبر يشير أيضًا إلى أن الجمع بين جهود البشر وأنظمة الذكاء الاصطناعي “يمكن أن يخلق مشاكل جديدة تمامًا”. على سبيل المثال، يقول: “يزيد هذا النوع من النهج من خطر المشاركة البشرية الروتينية وقد يسمح بإدخال تحيزات خفية للذكاء الاصطناعي في عملية ردود الفعل”.

إن بحث المحاذاة الجديد هو الأول الذي يخرج من OpenAI منذ أن أعادت الشركة تنظيم فريق المحاذاة الخاص بها، بعبارة ملطفة. بعد الرحيل المفاجئ للمؤسس المشارك لـ OpenAI إيليا سوتسكيفر ورئيس المحاذاة جان ليك في مايو، حيث ورد أن كلاهما مدفوع بمخاوف من أن الشركة لم تكن تعطي الأولوية لمخاطر الذكاء الاصطناعي، أكدت OpenAI أنها حلت فريق المحاذاة الخاص بها ووزعت أعضاء الفريق المتبقين على مجموعات بحثية أخرى . كان الجميع ينتظرون لمعرفة ما إذا كانت الشركة ستستمر في إجراء أبحاث محاذاة موثوقة ومبتكرة، وعلى أي نطاق. (في يوليو 2023، أعلنت الشركة أنها ستخصص 20 بالمائة من مواردها الحاسوبية لمواءمة الأبحاث، لكن ليك قال في تغريدة في مايو 2024 إن فريقه كان مؤخرًا “يكافح من أجل الحوسبة”.) تشير النسخة التمهيدية الصادرة اليوم إلى أن على الأقل لا يزال الباحثون في مجال المحاذاة يعملون على حل المشكلة.

من مقالات موقعك

مقالات ذات صلة حول الويب