، مقالات،

في شركة NeurIPS، تقول ميلاني ميتشل إن الذكاء الاصطناعي يحتاج إلى اختبارات أفضل


عندما يريد الناس رؤية واضحة لحالة الذكاء الاصطناعي وما يعنيه كل ذلك، فإنهم يميلون إلى اللجوء إليه ميلاني ميتشل، عالم الكمبيوتر و أ أستاذ في معهد سانتا في. كتابها 2019، الذكاء الاصطناعي: دليل للتفكير البشري، ساعد في تحديد المحادثة الحديثة حول ما تستطيع أنظمة الذكاء الاصطناعي الحالية فعله وما لا تستطيع فعله.

ميلاني ميتشل

اليوم في NeurIPS، أكبر تجمع لهذا العام لمحترفي الذكاء الاصطناعي، قدمت أ الكلمة الرئيسية بعنوان “”في علم””الذكاءات الغريبة: تقييم القدرات المعرفية لدى الأطفال والحيوانات والذكاء الاصطناعي. وقبل الحديث تحدثت مع IEEE الطيف عن إنه المواضيع: دبليولماذا ينبغي دراسة أنظمة الذكاء الاصطناعي اليوم بشكل أشبه بالعقول غير اللفظية، وما يمكن أن يعلمه علم النفس التنموي والمقارن للباحثين في الذكاء الاصطناعي، وكيف يمكن للطرق التجريبية الأفضل أن تعيد تشكيل الطريقة التي نقيس بها الإدراك الآلي.

أنت تستخدم عبارة “الذكاءات الفضائية” لكل من الذكاء الاصطناعي والعقول البيولوجية مثل الأطفال والحيوانات. ماذا تقصد بذلك؟

ميلاني ميتشل: نأمل أن تكون قد لاحظت علامات الاقتباس حول عبارة “الذكاء الفضائي”. أنا أقتبس من ورقة كتبها [the neural network pioneer] Terrence Sejnowski حيث يتحدث عن ChatGPT باعتباره كائنًا فضائيًا يمكنه التواصل معنا ويبدو ذكيًا. ثم هناك بحث آخر لعالم النفس التنموي مايكل فرانك الذي يلعب على هذا الموضوع ويقول، نحن في علم نفس النمو ندرس الذكاءات الغريبة، أي الأطفال. ولدينا بعض الأساليب التي نعتقد أنها قد تكون مفيدة في تحليل ذكاء الذكاء الاصطناعي. هذا ما ألعب عليه.

عندما يتحدث الناس عن تقييم الذكاء في الذكاء الاصطناعي، ما هو نوع الذكاء الذي يحاولون قياسه؟ المنطق أو التجريد أو النمذجة العالمية أو أي شيء آخر؟

ميتشل: كل ما سبق. يقصد الناس أشياء مختلفة عندما يستخدمون كلمة الذكاء، والذكاء نفسه له كل هذه الأبعاد المختلفة، كما تقول. لذا، استخدمت مصطلح القدرات المعرفية، وهو أكثر تحديدًا قليلًا. أنا أبحث في كيفية تقييم القدرات المعرفية المختلفة في علم النفس التنموي والمقارن وأحاول تطبيق بعض المبادئ من تلك المجالات على الذكاء الاصطناعي.

التحديات الحالية في تقييم إدراك الذكاء الاصطناعي

أنت تقول أن مجال الذكاء الاصطناعي يفتقر إلى بروتوكولات تجريبية جيدة لتقييم الإدراك. كيف يبدو تقييم الذكاء الاصطناعي اليوم؟

ميتشل: الطريقة النموذجية لتقييم نظام الذكاء الاصطناعي هي الحصول على مجموعة من المعايير، وتشغيل نظامك على تلك المهام المعيارية والإبلاغ عن دقتها. ولكن في كثير من الأحيان يتبين أنه على الرغم من أن أنظمة الذكاء الاصطناعي التي لدينا الآن تتفوق على المعايير القياسية، إلا أنها تتفوق على البشر، إلا أن هذا الأداء لا يُترجم غالبًا إلى أداء في العالم الحقيقي. إذا نجح نظام الذكاء الاصطناعي في اجتياز امتحان المحاماة، فهذا لا يعني أنه سيكون محاميًا جيدًا في العالم الحقيقي. غالبًا ما تؤدي الآلات أداءً جيدًا في تلك الأسئلة المحددة، لكنها لا تستطيع التعميم بشكل جيد. كما أن الاختبارات المصممة لتقييم البشر تضع افتراضات ليست بالضرورة ذات صلة أو صحيحة بأنظمة الذكاء الاصطناعي، حول أشياء مثل مدى قدرة النظام على الحفظ.

كعالم كمبيوتر، لم أحصل على أي تدريب في المنهجية التجريبية. أصبح إجراء التجارب على أنظمة الذكاء الاصطناعي جزءًا أساسيًا من تقييم الأنظمة، ومعظم الأشخاص الذين جاءوا من خلال علوم الكمبيوتر لم يحصلوا على هذا التدريب.

ما الذي يعرفه علماء النفس التنموي والمقارن عن استكشاف الإدراك الذي يجب أن يعرفه باحثو الذكاء الاصطناعي أيضًا؟

ميتشل: هناك جميع أنواع المنهجية التجريبية التي تتعلمها كطالب في علم النفس، خاصة في مجالات مثل علم النفس التنموي والمقارن لأن هذه العوامل غير لفظية. عليك أن تفكر بشكل إبداعي حقًا لمعرفة طرق لاستكشافها. لذلك لديهم جميع أنواع المنهجيات التي تتضمن تجارب مراقبة دقيقة للغاية، وإجراء الكثير من الاختلافات في المحفزات للتحقق من قوتها. إنهم ينظرون بعناية إلى أوضاع الفشل، ولماذا النظام [being tested] قد تفشل، لأن تلك الإخفاقات يمكن أن تعطي رؤية أكثر لما يحدث من النجاح.

هل يمكنك أن تعطيني مثالاً ملموسًا عن شكل هذه الأساليب التجريبية في علم النفس التنموي أو المقارن؟

ميتشل: أحد الأمثلة الكلاسيكية هو Clever Hans. كان هناك هذا الحصان، كليفر هانز، الذي بدا وكأنه قادر على القيام بجميع أنواع العمليات الحسابية والعد والمهام العددية الأخرى. وكان الحصان ينقر إجابته بحافره. لسنوات، درسها الناس وقالوا: “أعتقد أنها حقيقية. إنها ليست خدعة”. ولكن بعد ذلك جاء عالم نفس وقال: “سأفكر مليًا فيما يحدث وسأجري بعض تجارب التحكم”. وكانت تجاربه الضابطة: أولاً، وضع عصابة على عين الحصان، وثانياً، وضع حاجز بين الحصان والسائل. وتبين أنه إذا لم يتمكن الحصان من رؤية السائل، فلن يتمكن من القيام بالمهمة. ما وجده هو أن الحصان كان في الواقع يدرك إشارات تعبير الوجه الدقيقة للغاية لدى السائل ليعرف متى يتوقف عن النقر. لذا من المهم التوصل إلى تفسيرات بديلة لما يحدث. أن تكون متشككا ليس فقط في أبحاث الآخرين، ولكن ربما حتى في أبحاثك الخاصة، فرضيتك المفضلة. لا أعتقد أن هذا يحدث بشكل كافٍ في الذكاء الاصطناعي.

هل لديك أي دراسات حالة من الأبحاث المتعلقة بالأطفال؟

ميتشل: لدي دراسة حالة واحدة حيث يُزعم أن الأطفال لديهم حس أخلاقي فطري. وأظهرت لهم التجربة مقاطع فيديو تظهر فيها شخصية كرتونية تحاول تسلق التل. في إحدى الحالات كانت هناك شخصية أخرى ساعدتهم على صعود التل، وفي الحالة الأخرى كانت هناك شخصية دفعتهم إلى أسفل التل. لذلك كان هناك المساعد والعائق. وتم تقييم الأطفال لتحديد الشخصية التي يفضلونها أكثر – وكان لديهم طريقتان للقيام بذلك – وكانت الغالبية العظمى منهم يحبون الشخصية المساعدة بشكل أفضل. [Editor’s note: The babies were 6 to 10 months old, and assessment techniques included seeing whether the babies reached for the helper or the hinderer.]

لكن مجموعة بحث أخرى نظرت بعناية شديدة في مقاطع الفيديو هذه ووجدت أنه في جميع مقاطع الفيديو المساعدة، كان المتسلق الذي تمت مساعدته متحمسًا للوصول إلى قمة التل وقفز لأعلى ولأسفل. ولذلك قالوا: “حسنًا، ماذا لو كان في حالة العائق جعل المتسلق يقفز لأعلى ولأسفل في أسفل التل؟” وقد أدى ذلك إلى قلب النتائج تمامًا. يختار الأطفال دائمًا الطفل الذي يرتد.

مرة أخرى، إن التوصل إلى بدائل، حتى لو كانت لديك فرضيتك المفضلة، هي الطريقة التي نمارس بها العلوم. الشيء الوحيد الذي يصدمني دائمًا في الذكاء الاصطناعي هو أن الناس يستخدمون كلمة متشكك باعتبارها سلبية: “أنت متشكك في ماجستير إدارة الأعمال”. لكن مهمتنا هي أن نكون متشككين، وينبغي أن يكون ذلك مجاملة.

أهمية التكرار في دراسات الذكاء الاصطناعي

يوضح كلا المثالين موضوع البحث عن تفسيرات مضادة. هل هناك دروس كبيرة أخرى تعتقد أنه يجب على باحثي الذكاء الاصطناعي استخلاصها من علم النفس؟

ميتشل: حسنًا، في العلوم بشكل عام، تعتبر فكرة تكرار التجارب أمرًا مهمًا حقًا، وأيضًا البناء على أعمال الآخرين. ولكن من المؤسف أن هذا أمر مستهجن بعض الشيء في عالم الذكاء الاصطناعي. إذا قدمت بحثًا إلى NeurIPS، على سبيل المثال، حيث قمت بنسخ عمل شخص ما ثم قمت ببعض الأشياء الإضافية لفهمه، فسيقول المراجعون: “هذا يفتقر إلى الحداثة وهو تدريجي”. هذه قبلة الموت لصحيفتك. أشعر أنه ينبغي تقدير ذلك أكثر لأن هذه هي الطريقة التي يتم بها إنجاز العلوم الجيدة.

وبالعودة إلى قياس القدرات المعرفية للذكاء الاصطناعي، هناك الكثير من الحديث حول كيفية القيام بذلك قياس التقدم نحو AGI. هل هذه مجموعة أخرى من الأسئلة؟

ميتشل: حسنًا، مصطلح AGI غامض بعض الشيء. يحدده الناس بطرق مختلفة. أعتقد أنه من الصعب قياس التقدم لشيء غير محدد جيدًا. ومفهومنا له يتغير باستمرار، جزئيًا استجابة للأشياء التي تحدث في الذكاء الاصطناعي. في الأيام الخوالي للذكاء الاصطناعي، كان الناس يتحدثون عن ذكاء بمستوى الإنسان وقدرة الروبوتات على القيام بكل الأشياء المادية التي يفعلها البشر. لكن الناس نظروا إلى الروبوتات وقالوا: “حسنًا، حسنًا، لن نصل إلى هناك قريبًا. دعونا نتحدث فقط عما يسميه الناس الجانب المعرفي للذكاء،” والذي لا أعتقد أنه قابل للفصل حقًا. لذلك أنا متشكك إلى حد ما في الذكاء الاصطناعي العام، إذا صح التعبير، بأفضل طريقة.

من مقالات موقعك

مقالات ذات صلة حول الويب

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى