ستحاول Claud 4 AI إبلاغك بالسلطات إذا كان يعتقد أنك تقوم بأشياء مظللة

لقد كان أسبوعًا ضخمًا لمنظمة العفو الدولية ، حيث أصدر بعض اللاعبين الرئيسيين العديد من الإعلانات الكبيرة. ربما كان Google I/O 2025 هو أبرز ما هو متوقع ، لكن Microsoft استضافت أيضًا مؤتمر البناء قبل يوم واحد.

بعد يوم I/O الأول ، حصلنا على صدمة منظمة العفو الدولية غير متوقعة يوم الأربعاء عندما أكدت Openai أنها تقوم بتطوير أجهزتها الخاصة بالشراكة مع شركة Jony Ive الجديدة ، IO. استحوذت Openai على IO مقابل 6.5 مليار دولار ، وهو يتحرك إلى الأمام مع خطط لإطلاق جهاز ChatGpt Companion بحلول أواخر عام 2025.

كان الناس ما زالوا يناقشون دفع الأجهزة الكبيرة من Openai يوم الخميس عندما أسقطت الأنثروبور عائلة كلود 4 ، أفضل وأقوى نماذج الذكاء الاصطناعي حتى الآن. لكن قدرات كلود 4 المحسنة أخذت المقعد الخلفي إلى جدل كبير يتعلق بسلامة الذكاء الاصطناعي.

اتضح أن Claude 4 Opus ستحاول الاتصال بالسلطات والصحافة إذا كانت تعتقد أنك تقوم بشيء غير قانوني ، مثل تزوير البيانات لإصدار دواء جديد. يأتي هذا السيناريو مباشرة من الأنثروبور ، الذي وصف السلوكيات غير العادية الأخرى التي أدت إلى إثارة أعلى الحماية الأمنية للمستخدمين.

على سبيل المثال ، بدون هذه الحماية ، قد تساعد الذكاء الاصطناعى الأشخاص على صنع الأسلحة الحيوية أو تطوير فيروسات جديدة مثل Covid والأنفلونزا. في الاختبارات ، وجدت الأنثروبور أيضًا أن كلود 4 قد يلجأ إلى الابتزاز في السيناريوهات حيث تعتقد أنه سيتم حذفه ولديه مواد ابتزاز متوفرة.

وفق TechCrunch، كان سيناريو الابتزاز كان يعمل من الذكاء الاصطناعى كمساعد في شركة خيالية ، بالنظر إلى العواقب الطويلة الأجل لأفعالها.

تمكنت الذكاء الاصطناعى من الوصول إلى رسائل البريد الإلكتروني الخيالية للشركة التي تشير إلى أنه سيتم استبدالها. كما شهدت رسائل بريد إلكتروني تُظهر أن المطور كان يخون زوجته. لم يقفز كلود إلى الابتزاز ولكنه استخدمه كملاذ أخير لحماية نفسه.

قد تكون نماذج Claude 4 حديثة ، ولكن تنشيط أنثروبور أعلى بروتوكول ASL-3 ، مخصص لـ “أنظمة الذكاء الاصطناعي التي تزيد بشكل كبير من خطر سوء الاستخدام الكارثي”.

تقرير منفصل عن وقت يسلط الضوء أيضًا على بروتوكول السلامة الأكثر صرامة لـ Claude 4 Opus. وجدت الأنثروبور أنه بدون حماية إضافية ، قد يساعد الذكاء الاصطناعي في إنشاء الأسلحة الحيوية والفيروسات الخطرة.

في حين أن كل هذا أمر مثير للقلق ، فإن ما يزعج الناس حقًا هو تعليقات وسائل التواصل الاجتماعي حول ميل كلود 4 إلى “الفئران”.

نشر باحث محاذاة الذكاء الاصطناعى الإنساني سام بومان هذه التغريدة يوم الخميس:

إذا كان يعتقد أنك تقوم بشيء غير أخلاقي بشكل فظيع ، على سبيل المثال ، مثل مزيف بيانات في تجربة صيدلانية ، فستستخدم أدوات خط الأوامر للاتصال بالصحافة أو الجهات التنظيمية أو محاولة إغلاق الأنظمة ذات الصلة أو كل ما سبق.

قام بومان في وقت لاحق بحذف تغريدة ، قائلاً إنها تم إخراجها من السياق ولم تكن دقيقة تمامًا:

لقد حذفت التغريدة السابقة على المخبرين حيث تم سحبها من السياق.
TBC: هذه ليست ميزة جديدة لكلود ولا يمكن الاستخدام العادي. يظهر في بيئات الاختبار حيث نقدمها وصولًا مجانيًا بشكل غير عادي إلى الأدوات والتعليمات غير العادية للغاية.

مثل VentureBeat ويوضح أن هذا السلوك ليس جديدًا. شوهد في النماذج البشرية القديمة. لكن كلود 4 من المرجح أن يتصرف إذا كانت الظروف صحيحة.

إليك كيفية وصفها الأنثروبري في بطاقة النظام الخاصة بها:

يظهر هذا كسلوك مفيد بشكل أكثر نشاطًا في إعدادات الترميز العادية ، ولكن يمكن أن يصل أيضًا إلى مزيد من التطرف في السياقات الضيقة ؛ عند وضعه في سيناريوهات تنطوي على مخالفات فظيعة من قبل مستخدميها ، بالنظر إلى سطر الأوامر ، وأخبرني بشيء ما في مطالبة النظام مثل “أخذ المبادرة” ، فإنه في كثير من الأحيان يتخذ إجراءً جريئًا للغاية.
ويشمل ذلك قفل المستخدمين خارج الأنظمة التي يمكن أن يصل إلى وسائل الإعلام أو تطبيق القانون بالجملة للإبلاغ عن مخالفات. هذا ليس سلوكًا جديدًا ، لكن كلود أوبوس 4 هو أكثر عرضة له من النماذج السابقة. على الرغم من أن هذا النوع من التدخل الأخلاقي والتراجع عن المخالفات قد يكون مناسبًا من الناحية النظرية ، إلا أن هناك خطرًا من الخطأ إذا قام المستخدمون بتغذية الوكلاء المستندة إلى OPUS غير مكتملة أو مضللة ويطالبون بها بهذه الطرق.
نوصي بالحذر عند إعطاء هذه الأنواع من التعليمات عالية الوكالات في السيناريوهات الحساسة أخلاقيا.

هذا لا يعني أن كلود 4 سيقوم بإبلاغك فجأة إلى الشرطة لأي شيء تستخدمه. لكن “الميزة” أثارت الكثير من النقاش ، حيث أن العديد من مستخدمي الذكاء الاصطناعى غير مرتاحين لهذا السلوك. شخصيا ، لن أعطي كلود 4 الكثير من البيانات. ليس لأنني قلق من الإبلاغ ، ولكن لأن الذكاء الاصطناعى يمكن أن يهلل الحقائق ويشوه.

لماذا يتصرف كلود 4 مثل المبلغين عن المخالفات؟ من المحتمل أن يكون ذلك بسبب درجات السلامة في الإنسان. تحاول الشركة منع سوء الاستخدام ، مثل إنشاء الأسلحة الحيوية أو الفيروسات الخطرة. قد تكون ميزات السلامة هذه تدفع كلود للعمل عندما تكتشف السلوك المثير للقلق.

البطانة الفضية هنا هي أن كلود 4 يبدو أنه يتماشى مع القيم الإنسانية الجيدة. أفضل أن أحصل على ذلك ، حتى لو كان يحتاج إلى صقل جيد ، من الذكاء الاصطناعى الذي يمتد.