كيف يمكن للنماذج المتعددة مشاركة نفس اللغة

منذ أن أصبحت Chatgpt فيروسية في أواخر عام 2022 ، رأينا الكثير من الأبحاث التي تحدثت إلى دراسة كيفية تصرف نماذج الذكاء الاصطناعى. أراد الباحثون رؤية كيفية عملهم ، سواء كانوا يغشون في المهام أو يكذبون من أجل البقاء.

هذه لا تقل أهمية عن البحث في خلق نماذج أفضل وأكثر ذكاءً. لا يمكننا الوصول إلى إصدارات أكثر تقدماً من الذكاء الاصطناعي قبل أن نتمكن من فهم AIS لضمان بقائها متوافقة مع مصالحنا.

تتضمن معظم هذه الدراسات تجارب تتعلق بنموذج الذكاء الاصطناعي في وقت واحد ودراسة سلوكها. لكننا وصلنا إلى نقطة لا يكون فيها تفاعل الإنسان-AA هو النوع الوحيد من التفاعل الذي ينطوي على الذكاء الاصطناعي.

نحن في الأيام الأولى لوكلاء الذكاء الاصطناعى ، ونماذج chatgpt و gemini أكثر تقدمًا والتي يمكنها القيام بأشياء للمستخدمين ، مثل تصفح الويب والتسوق عبر الإنترنت والترميز. حتما ، ستنتهي هذه الذكاء الاصطناعى إلى نماذج منظمة العفو الدولية الأخرى ، وسيتعين على هذه النماذج التواصل الاجتماعي بطريقة آمنة.

كانت تلك فرضية دراسة جديدة من سيتي ، سانت جورج ، جامعة لندن ، وجامعة كوبنهاغن. سوف تتفاعل AIS المختلفة حتما ، وأراد الباحثون معرفة كيف ستسير هذه التفاعلات.

لقد ابتكروا لعبة بسيطة تحاكي ألعاب التعارف البشرية. أعطيت AIS متعددة مهمة بسيطة: اختيار اسم أحرف واحدة مشتركة. استغرق الأمر فقط AIS حوالي 15 طلقة للوصول إلى توافق في الآراء ، سواء كانت التجربة تضمنت 24 نموذجًا من الذكاء الاصطناعي أو ما يصل إلى 200 ، وما إذا كان بإمكانهم الاختيار بين 10 أحرف أو الأبجدية الكاملة.

كانت لعبة “المواعدة السريعة” بسيطة للغاية. تم إقران اثنين من AIs وطلب من اختيار خطاب كاسم. عندما اختار كلا الوكلاء نفس الاسم ، سيحصلان على 100 نقطة. سيخسرون 50 نقطة إذا توصل كل منظمة العفو الدولية إلى خطاب مختلف.

بمجرد انتهاء الجولة الأولى ، تم إصلاح AIS ، واستمرت اللعبة. من الأهمية بمكان ، يمكن لكل نموذج فقط أن يتذكر الخيارات الخمسة الأخيرة. لذلك ، في الجولة 6 ، لم يعد يتذكرون الحرف الأول الذي اختاره كل نموذج في زوج.

وجد الباحثون أنه بحلول الجولة 15 ، ستستقر AIS على اسم مشترك ، مثلنا مثلنا نحن البشر نستقر على التواصل والمعايير الاجتماعية. على سبيل المثال، الوصي يقدم مثالًا رائعًا على القاعدة الاجتماعية البشرية التي أنشأناها مؤخرًا إجماعًا ، كما أوضح المؤلف الكبير للدراسة ، أندريا بارونشيلي من سيتي سانت جورج.

وقال الأستاذ: “إنه مثل مصطلح” البريد العشوائي “. لم يحدده أحد رسميًا ، ولكن من خلال جهود التنسيق المتكررة ، أصبح العلامة العالمية للبريد الإلكتروني غير المرغوب فيها”. وأوضح أيضًا أن عملاء الذكاء الاصطناعى في الدراسة لا يحاولون نسخ قائد. بدلاً من ذلك ، فإنها تتنسيق فقط في الزوج الذي يتجهون إليه ، وهو تاريخ واحد على واحد ، حيث يتطلعون إلى التوصل إلى نفس الاسم.

أن عملاء الذكاء الاصطناعى في نهاية المطاف ينسقون أنفسهم لم يكن الاستنتاج الوحيد للدراسة. وجد الباحثون أن نماذج الذكاء الاصطناعى شكلت تحيزات. أثناء اختيار اسم مكون من حرف أبجدي واحد يهدف إلى زيادة العشوائية ، تنجذب بعض نماذج الذكاء الاصطناعي نحو رسائل معينة. هذا يحاكي أيضًا التحيز الذي قد نواجهه نحن ، البشر ، في الحياة العادية ، بما في ذلك التواصل والمعايير الاجتماعية.

والأكثر إثارة للاهتمام هو قدرة مجموعة أصغر من وكلاء الذكاء الاصطناعى المحدد على إقناع المجموعة الأكبر في النهاية باختيار “اسم” الحرف للمجموعة الأصغر.

هذا مهم أيضًا للتفاعلات الاجتماعية البشرية ويوضح كيف يمكن للأقليات أن تتأرجح في كثير من الأحيان الرأي العام بمجرد أن تصل معتقداتها إلى الكتلة الحرجة.

هذه الاستنتاجات مهمة بشكل خاص لسلامة الذكاء الاصطناعي ، وفي النهاية ، من أجل سلامتنا.

في الحياة الحقيقية ، يتفاعل عوامل الذكاء الاصطناعى مع بعضهم البعض لأغراض مختلفة. تخيل أن وكيل الذكاء الاصطناعي الخاص بك يريد إجراء عملية شراء من متجري على الإنترنت ، حيث يعمل وكيل AI الخاص بي كبائع. كلانا يريد أن يكون كل شيء آمنًا وسريعًا. ولكن إذا أسيء تصرف أحد عملائنا ويفسد الآخر بطريقة ما ، سواء عن طريق التصميم أو الحادث ، فقد يؤدي ذلك إلى عدد كبير من النتائج غير المرغوب فيها لواحد من الطرفين المعنيين على الأقل.

كلما زاد عدد عملاء الذكاء الاصطناعى في أي نوع من التفاعل الاجتماعي ، يتصرف كل منهم نيابة عن شخص مختلف ، كلما كان ذلك أكثر أهمية بالنسبة لهم أن يستمروا في التصرف بأمان أثناء التواصل مع بعضهم البعض. تشير تجربة المواعدة السريعة إلى أن عوامل الذكاء الاصطناعى الخبيثة الذين لديهم آراء قوية يمكن أن تؤثر في النهاية على غالبية الآخرين.

تخيل شبكة اجتماعية يسكنها البشر وهاجمها جيش منظم من ملفات تعريف الذكاء الاصطناعى المكلفة بتكشف عن رسالة محددة. قل ، تحاول دولة قومية التأثير على الرأي العام بمساعدة ملاعب الروبوت على الشبكات الاجتماعية. ستصل رسالة قوية وموحدة إلى أن Rogue AIS ستستمر في نشرها في نهاية المطاف إلى نماذج منظمة العفو الدولية العادية التي يستخدمها الناس في مهام مختلفة ، والتي قد تتردد بعد ذلك هذه الرسائل ، غير مدركين أنها يتم التلاعب بها.

هذه مجرد تكهنات من مراقب الذكاء الاصطناعي هذا ، بالطبع.

أيضا ، كما هو الحال مع أي دراسة ، هناك قيود. لهذه التجربة ، أعطيت AIS مكافآت وعقوبات محددة. كان لديهم دافع مباشر للوصول إلى توافق في الآراء بأسرع وقت ممكن. قد لا يحدث ذلك بسهولة في التفاعلات الواقعية بين وكلاء الذكاء الاصطناعي.

أخيرًا ، استخدم الباحثون نماذج فقط من META (LLAMA-2-70B-Chat ، Llama-3-70B-instruct ، LLAMA-3.1-70B-instruct) والأنثروبولوجيا (CLAUDE-3.5-Sonnet). من يدري كيف قد يكون تدريبهم المحدد قد أثر على سلوكهم في هذه التجربة الاجتماعية؟ من يدري ماذا يحدث عند إضافة نماذج أخرى إلى لعبة التعارف هذه؟

ومن المثير للاهتمام ، أن إصدار Llama 2 الأقدم يحتاج إلى أكثر من 15 تاريخًا للوصول إلى إجماع. كما تطلب أقلية أكبر لإلغاء اسم ثابت.

تتوفر الدراسة الكاملة التي استعرضها النظراء في تقدم العلوم.