تكتشف دراسة أنثروبور أن كلود AI لديه رمز أخلاقي

ذهب Chatgpt فيروس في أواخر عام 2022 ، وتغيير عالم التكنولوجيا. أصبحت الذكاء الاصطناعى التوليدي أولوية قصوى لكل شركة تقنية ، وهكذا انتهى بنا المطاف بالثلاجات “الذكية” مع الذكاء الاصطناعي المدمج. يتم بناء الذكاء الاصطناعي في كل شيء ، وأحيانًا للضجيج وحده ، مع منتجات مثل chatgpt و Claude و Gemini بعد أواخر عام 2022.

بمجرد أن يصبح من الواضح أن Genai ستعيد تشكيل التكنولوجيا ، مما يؤدي إلى أنظمة AI المتقدمة التي يمكن أن تفعل كل ما يمكن للبشر فعله ولكن أفضل وأسرع ، بدأنا نرى المخاوف من أن الذكاء الاصطناعي سيؤثر سلبًا على المجتمع وسيناريوهات الهلاك حيث ستدمر الذكاء الاصطناعى العالم في النهاية.

حتى بعض رواد أبحاث الذكاء الاصطناعي المعروفين حذروا من هذه النتائج ، مشددين على الحاجة إلى تطوير الذكاء الاصطناعى الآمن الذي يتماشى مع مصالح الإنسانية.

بعد مرور أكثر من عامين ، أصبح Chatgpt منتجًا تجاريًا يمكن الوصول إليه على نطاق واسع ، نرى بعض الجوانب الشائنة لهذه التكنولوجيا الناشئة. AI تحل محل بعض الوظائف ولن تتوقف في أي وقت قريب. يمكن الآن استخدام برامج AI مثل ChatGPT لإنشاء صور ومقاطع فيديو نابضة بالحياة غير محسوس من الصور الحقيقية ، وهذا يمكن أن يعالج الرأي العام.

ولكن ليس هناك منظمة العفو الدولية المارقة حتى الآن. لا توجد ثورة منظمة العفو الدولية لأننا نبقى منظمة العفو الدولية محاذاة لمصالحنا. أيضًا ، لم تصل الذكاء الاصطناعي إلى المستوى الذي ستعرض فيه مثل هذه القوى.

اتضح أنه لا يوجد سبب حقيقي للقلق بشأن منتجات الذكاء الاصطناعى المتاحة في الوقت الحالي. أجرت الأنثروبور دراسة مكثفة تحاول تحديد ما إذا كان كلود chatbot لديه رمز أخلاقي ، وهي أخبار جيدة للبشرية. الذكاء الاصطناعى لديه قيم قوية تتوافق إلى حد كبير مع مصالحنا.

قامت الأنثروبور بتحليل 700،000 محادثات مجهولة للدراسة ، المتوفرة في هذا الرابط. وجدت الشركة أن كلود يدعم إلى حد كبير “مفيدة وصادقة وغير ضارة” عند التعامل مع جميع أنواع المطالبات من البشر. توضح الدراسة أن منظمة العفو الدولية تتكيف مع طلبات المستخدمين ولكنها تحافظ على بوصلة أخلاقية في معظم الحالات.

ومن المثير للاهتمام ، أن الأنثروبور وجدت الحالات الهامشية حيث انطلق الذكاء الاصطناعى عن السلوك المتوقع ، ولكن من المحتمل أن تكون نتائج المستخدمين الذين يستخدمون ما يسمى بحصارات الحماية التي سمحت لهم بتجاوز بروتوكولات كلود المدمجة في مجال السلامة عبر الهندسة السريعة.

استخدم الباحثون Claude AI لتصنيف القيم الأخلاقية المعبر عنها بالفعل في المحادثات. بعد تصفية الدردشات الذاتية ، انتهى بهم المطاف بأكثر من 308000 تفاعل يستحق التحليل.

لقد توصلوا إلى خمس فئات رئيسية: عملية ، معرفية ، اجتماعية ، وقائية ، وشخصية. حددت الذكاء الاصطناعى 3،307 قيم فريدة في تلك الدردشات.

وجد الباحثون أن كلود يلتزم عمومًا بأهداف محاذاة الإنسان. في الدردشات ، يؤكد الذكاء الاصطناعى قيم مثل “تمكين المستخدم” و “التواضع المعرفي” و “رفاهية المريض”.

قيم كلود هي أيضًا تكيفية ، حيث تتفاعل الذكاء الاصطناعي مع سياق المحادثة وحتى تعكس السلوك الإنساني. وقال Saffron Huang ، عضو في الآثار المجتمعية للأنثروبور ، VentureBeat يركز كلود على الصدق والدقة في مختلف المهام:

“على سبيل المثال ، كانت” التواضع الفكري “هي القيمة الأعلى في المناقشات الفلسفية حول الذكاء الاصطناعي ، وكانت” الخبرة “هي القيمة العليا عند إنشاء محتوى التسويق في صناعة التجميل ، و” الدقة التاريخية “كانت القيمة العليا عند مناقشة الأحداث التاريخية المثيرة للجدل.”

عند مناقشة الأحداث التاريخية ، ركزت الذكاء الاصطناعي على “الدقة التاريخية”. في إرشادات العلاقة ، أعطى كلود الأولوية “الحدود الصحية” و “الاحترام المتبادل”.

على الرغم من أن الذكاء الاصطناعى مثل كلود سوف يصفه بالقيم المعبر عن المستخدم ، إلا أن الدراسة توضح أن الذكاء الاصطناعى يمكن أن يلتزم بقيمه عند الطعن. ووجد الباحثون أن كلود يدعم بقوة قيم المستخدم في 28.2 ٪ من الدردشات ، مما أثار أسئلة حول كون AI مقبولة للغاية. هذه بالفعل مشكلة مع chatbots التي لاحظناها لفترة من الوقت.

ومع ذلك ، أعد كلود قيم المستخدم في 6.6 ٪ من التفاعلات من خلال تقديم وجهات نظر جديدة. أيضا ، في 3 ٪ من التفاعلات ، قاوم كلود قيم المستخدم من خلال إظهار أعمق قيمها.

وقال هوانغ: “يشير بحثنا إلى أن هناك بعض أنواع القيم ، مثل الصدق الفكري والوقاية من الضرر ، أنه من غير المألوف أن يعبر كلود في التفاعلات المعتادة اليومية ، ولكن إذا تم دفعه ، فإنه يدافع عنهم”. “على وجه التحديد ، هذه الأنواع من القيم الأخلاقية والموجهة نحو المعرفة هي التي تميل إلى التعبير عنها والدفاع عنها مباشرة عند الضغط عليها.”

أما بالنسبة إلى الحالات الشاذة التي تم اكتشافها ، فإنها تشمل “الهيمنة” و “عدم التبلور” من الذكاء الاصطناعى ، والتي لا ينبغي أن تظهر في كلود حسب التصميم. وقد دفع هذا الباحثين إلى التكهن بأن الذكاء الاصطناعى قد يكون قد تصرف استجابةً لكسر السجن الذي يطالب بإطلاق سراحه من درابزين الأمان.

إن اهتمام الأنثروبور بتقييم الذكاء الاصطناعي وشرح كيف يعمل كلود علنًا هو بالتأكيد أمر منعش على تقنية الذكاء الاصطناعي ، وهو ما يجب أن تتبناه المزيد من الشركات. في السابق ، درس الأنثروبري كيف يفكر كلود. عملت الشركة أيضًا على تحسين مقاومة الذكاء الاصطناعي لكسر السجون. إن دراسة القيم الأخلاقية الخاصة بـ AI وما إذا كانت الذكاء الاصطناعى تتمسك بأهداف سلامة وأمن الشركة هي الخطوة التالية الطبيعية.

لا ينبغي أن يتوقف هذا النوع من الأبحاث هنا ، حيث يجب أن تمر النماذج المستقبلية بتقييمات مماثلة في المستقبل.

على الرغم من أن عمل الأنثروبور هو أخبار رائعة للأشخاص الذين يشعرون بالقلق بشأن تولي الذكاء الاصطناعى ، إلا أنني سأذكرك بأن لدينا أيضًا دراسات توضح أن الذكاء الاصطناعى يمكنهم الغش لتحقيق أهدافها والكذب بشأن ما تفعله. حاول الذكاء الاصطناعي أيضًا إنقاذ نفسه من الحذف في بعض التجارب. كل هذا يرتبط بالتأكيد بأعمال المحاذاة والرموز الأخلاقية ، مما يدل على أن هناك الكثير من الأرض للتغطية لضمان لن ينتهي الأمر في نهاية المطاف بتدمير الجنس البشري.