في نظرية اختبارات العقل، الذكاء الاصطناعي يتفوق على البشر

إن نظرية العقل -القدرة على فهم الحالات العقلية للآخرين- هي ما يجعل العالم الاجتماعي للبشر يدور حولنا. إنه ما يساعدك على تحديد ما ستقوله في موقف متوتر، وتخمين ما ينوي السائقون في السيارات الأخرى فعله، والتعاطف مع إحدى الشخصيات في الفيلم. ووفقًا لدراسة جديدة، فإن نماذج اللغة الكبيرة (LLM) التي تدعم ChatGPT وما شابهها جيدة بشكل مدهش في محاكاة هذه السمة البشرية الجوهرية.

تقول المؤلفة المشاركة في الدراسة كريستينا بيتشيو، أستاذة علم الأعصاب الإدراكي في المركز الطبي الجامعي في هامبورغ: “قبل إجراء الدراسة، كنا جميعًا مقتنعين بأن نماذج اللغة الكبيرة لن تجتاز هذه الاختبارات، وخاصة الاختبارات التي تقيم القدرات الدقيقة لتقييم الحالات العقلية”. إيبندورف في ألمانيا. تم نشر النتائج، التي وصفتها بأنها “غير متوقعة ومفاجئة”، اليوم، في المجلة، وهو أمر مثير للسخرية إلى حد ما طبيعة سلوك الإنسان.

ومع ذلك، فإن النتائج لم تقنع الجميع بأننا دخلنا عصرًا جديدًا من الآلات التي تفكر مثلنا. نصح خبيران قاما بمراجعة النتائج بأخذها “بقليل من الملح”، وحذرا من استخلاص استنتاجات حول موضوع يمكن أن يخلق “ضجة وذعرًا بين الجمهور”. وحذر خبير خارجي آخر من مخاطر تجسيم البرامج الحاسوبية.

يحرص الباحثون على عدم القول بأن نتائجهم تظهر أن حاملي الماجستير في القانون يمتلكون بالفعل نظرية العقل.

لم تكن بيتشيو وزملاؤها أول من ادعى وجود دليل على أن ردود ماجستير إدارة الأعمال تعرض هذا النوع من التفكير. في طبعة أولية نُشرت العام الماضي، أفاد عالم النفس ميشال كوسينسكي من جامعة ستانفورد عن اختبار عدة نماذج على عدد قليل من النظريات الشائعة لاختبارات العقل. ووجد أن أفضلها، وهو GPT-4 من شركة OpenAI، قام بحل 75% من المهام بشكل صحيح، وهو ما قال إنه يطابق أداء الأطفال في سن السادسة الذين تمت ملاحظتهم في الدراسات السابقة. ومع ذلك، تعرضت أساليب هذه الدراسة لانتقادات من قبل باحثين آخرين أجروا تجارب متابعة وخلصوا إلى أن طلاب ماجستير العلوم كانوا يحصلون في كثير من الأحيان على الإجابات الصحيحة بناءً على “الاستدلالات الضحلة” والاختصارات بدلاً من النظرية الحقيقية للاستدلال العقلي.

وكان مؤلفو هذه الدراسة على علم جيد بالمناقشة. ““كان هدفنا في هذه الورقة هو التعامل مع التحدي المتمثل في تقييم نظرية الآلة للعقل بطريقة أكثر منهجية باستخدام مجموعة واسعة من الاختبارات النفسية”، كما يقول المؤلف المشارك في الدراسة جيمس ستراشان، عالم النفس المعرفي الذي يعمل حاليًا عالم زائر في المركز الطبي الجامعي في هامبورغ. إيبندورف. ويشير إلى أن إجراء دراسة صارمة يعني أيضًا اختبار البشر في نفس المهام التي تم تكليفها بماجستير القانون: قارنت الدراسة قدرات 1907 بشرًا مع قدرات العديد من حاملي ماجستير القانون المشهورين، بما في ذلك نموذج GPT-4 الخاص بـ OpenAI وLlama 2 مفتوح المصدر. نموذج -70b من ميتا.

كيفية اختبار LLMs لنظرية العقل

أكمل كل من طلاب ماجستير القانون والبشر خمسة أنواع نموذجية من مهام نظرية العقل، وكانت الثلاثة الأولى منها عبارة عن فهم التلميحات، والسخرية، والأخطاء الزائفة. كما أجابوا أيضًا على أسئلة “الاعتقاد الخاطئ” التي غالبًا ما تُستخدم لتحديد ما إذا كان الأطفال الصغار قد طوروا نظرية العقل، ويذهبون إلى شيء من هذا القبيل: إذا حركت أليس شيئًا ما أثناء وجود بوب خارج الغرفة، فأين سيبحث بوب عنه عندما يعود؟ ؟ وأخيرًا، أجابوا على أسئلة معقدة إلى حد ما حول “القصص الغريبة” التي تصور أشخاصًا يكذبون ويتلاعبون ويسيئون فهم بعضهم البعض.

بشكل عام، جاء GPT-4 في المقدمة. تطابقت درجاتها مع درجات البشر في اختبار الاعتقاد الخاطئ، وكانت أعلى من مجموع درجات البشر في السخرية والتلميح والقصص الغريبة؛ لقد كان أداؤه أسوأ من أداء البشر في اختبار الفشل الزائف. ومن المثير للاهتمام أن نتائج Llama-2 كانت عكس نتائج GPT-4، فقد طابقت البشر في الاعتقاد الخاطئ، لكنها كانت أسوأ من أداء الإنسان في السخرية والتلميحات والقصص الغريبة وأداء أفضل في الأخطاء الزائفة.

“ليس لدينا حاليًا طريقة أو حتى فكرة عن كيفية اختبار الفيروس وجود من نظرية العقل.” —جيمس ستراشان، المركز الطبي الجامعي هامبورغ-إيبندورف

لفهم ما كان يحدث مع النتائج المزيفة، أعطى الباحثون النماذج سلسلة من اختبارات المتابعة التي بحثت في العديد من الفرضيات. وتوصلوا إلى استنتاج مفاده أن GPT-4 كان قادرًا على إعطاء الإجابة الصحيحة لسؤال حول خطأ ما، ولكن تم منعه من القيام بذلك بسبب البرمجة “المفرطة التحفظ” فيما يتعلق بالتصريحات المبنية على رأي. يشير ستراشان إلى أن OpenAI قد وضعت العديد من الحواجز حول نماذجها “المصممة لإبقاء النموذج واقعيًا وصادقًا وعلى المسار الصحيح”، ويفترض أن الاستراتيجيات التي تهدف إلى منع GPT-4 من الهلوسة (أي اختلاق الأشياء) قد تمنع أيضًا من الرأي حول ما إذا كانت إحدى شخصيات القصة قد أهانت عن غير قصد زميلًا قديمًا في المدرسة الثانوية في لقاء لم الشمل.

وفي الوقت نفسه، أشارت اختبارات المتابعة التي أجراها الباحثون لـ Llama-2 إلى أن أدائه الممتاز في اختبارات الأخطاء الزائفة كان على الأرجح نتيجة مصطنعة لتنسيق الأسئلة والأجوبة الأصلي، حيث كانت الإجابة الصحيحة على بعض أشكال السؤال “هل تعلم أليس؟” أنها كانت تهين بوب”؟ كان دائما “لا”.

يحرص الباحثون على عدم القول بأن نتائجهم تظهر أن طلاب ماجستير القانون يمتلكون بالفعل نظرية العقل، ويقولون بدلاً من ذلك إنهم “يظهرون سلوكًا لا يمكن تمييزه عن السلوك البشري في مهام نظرية العقل”. مما يطرح السؤال: إذا كان التقليد جيدًا مثل الشيء الحقيقي، فكيف تعرف أنه ليس الشيء الحقيقي؟ هذا سؤال لم يحاول علماء الاجتماع الإجابة عليه من قبل، كما يقول ستراشان، لأن الاختبارات على البشر تفترض وجود الجودة بدرجة أقل أو أكبر. “ليس لدينا حاليًا طريقة أو حتى فكرة عن كيفية اختبار الفيروس وجود يقول: “نظرية العقل، والجودة الظواهرية”.

انتقادات للدراسة

من الواضح أن الباحثين حاولوا تجنب المشكلات المنهجية التي تسببت في تعرض ورقة كوسينسكي لعام 2023 حول ماجستير إدارة الأعمال ونظرية العقل للنقد. على سبيل المثال، أجروا الاختبارات على مدار جلسات متعددة حتى لا يتمكن حاملو شهادة الماجستير في القانون من “تعلم” الإجابات الصحيحة أثناء الاختبار، وقاموا بتغيير بنية الأسئلة. لكن يوآف غولدبرغ وناتالي شابيرا، وهما من باحثي الذكاء الاصطناعي الذين نشروا نقد ورقة كوسينسكي، يقولون إنهم غير مقتنعين بهذه الدراسة أيضًا.

“لماذا يهم ما إذا كانت أنظمة معالجة النصوص قادرة على إنتاج مخرجات لهذه المهام تشبه الإجابات التي يقدمها الأشخاص عندما يواجهون نفس الأسئلة؟” —إميلي بندر، جامعة واشنطن

وأدلى غولدبرغ بالتعليق حول التعامل مع النتائج بقدر قليل من الشك، مضيفًا أن “النماذج ليست بشرًا”، وأنه “يمكن للمرء بسهولة القفز إلى استنتاجات خاطئة” عند المقارنة بين الاثنين. تحدث شابيرا عن مخاطر الضجيج، وشكك أيضًا في أساليب الصحيفة. وتتساءل عما إذا كانت النماذج قد شاهدت أسئلة الاختبار في بيانات التدريب الخاصة بها وحفظت الإجابات الصحيحة ببساطة، كما لاحظت مشكلة محتملة في الاختبارات التي تستخدم مشاركين بشريين مدفوعي الأجر (في هذه الحالة، يتم تعيينهم عبر منصة Prolific). وتقول: “من المعروف أن العمال لا يؤدون المهمة دائمًا على النحو الأمثل”. IEEE الطيف. وهي تعتبر النتائج محدودة وقصصية إلى حد ما، قائلة: “لإثبات ذلك [theory of mind] هناك حاجة إلى القدرة، والكثير من العمل ووضع معايير أكثر شمولاً.

أصبحت إميلي بندر، أستاذة اللغويات الحاسوبية في جامعة واشنطن، أسطورية في هذا المجال لإصرارها على كسر الضجيج الذي يضخم صناعة الذكاء الاصطناعي (وغالبا ما تقارير وسائل الإعلام عن هذه الصناعة). إنها تتعامل مع سؤال البحث الذي حفز الباحثين. “لماذا يهم ما إذا كانت أنظمة معالجة النصوص قادرة على إنتاج مخرجات لهذه المهام تشبه الإجابات التي يقدمها الأشخاص عندما يواجهون نفس الأسئلة؟” هي تسأل. “ماذا يعلمنا ذلك عن طريقة العمل الداخلية لطلاب ماجستير القانون، وما الذي قد يكون مفيدًا لهم، أو ما هي المخاطر التي قد يشكلونها؟” يقول بندر إنه ليس من الواضح ما الذي يعنيه أن يكون لدى ماجستير القانون نموذجًا للعقل، وبالتالي من غير الواضح أيضًا ما إذا كانت هذه الاختبارات قد تم قياسه أم لا.

تثير بندر أيضًا مخاوف بشأن التجسيم الذي لاحظته في الورقة، حيث يقول الباحثون إن حاملي الماجستير في القانون قادرون على الإدراك والتفكير واتخاذ الخيارات. وتقول إن عبارة المؤلفين “المقارنة العادلة بين الحاصلين على ماجستير إدارة الأعمال والمشاركين من البشر” هي “غير مناسبة على الإطلاق فيما يتعلق بالبرمجيات”. نشر بندر والعديد من زملائه مؤخرًا ورقة بحثية تمهيدية تستكشف كيف يؤثر تجسيم أنظمة الذكاء الاصطناعي على ثقة المستخدمين.

قد لا تشير النتائج إلى أن الذكاء الاصطناعي حقيقي يحصل على نحن، ولكن الأمر يستحق التفكير في تداعيات درجات الماجستير في القانون التي تحاكي بشكل مقنع نظرية التفكير العقلي. سيكونون أفضل في التفاعل مع مستخدميهم من البشر وتوقع احتياجاتهم، ولكن يمكنهم أيضًا أن يصبحوا أفضل في خداع مستخدميهم أو التلاعب بهم. وسوف يدعون إلى المزيد من التجسيم، من خلال إقناع المستخدمين البشريين بوجود عقل على الجانب الآخر من واجهة المستخدم.

من مقالات موقعك

مقالات ذات صلة حول الويب