أخبار

يمكن ChatGPT السبب؟ ربما تحتوي دراسة Apple AI هذه على الإجابة


ستخبرك شركات مثل OpenAI وGoogle أن الخطوة الكبيرة التالية في تجارب الذكاء الاصطناعي التوليدية قد اقتربت. تهدف ترقية ChatGPT الكبيرة لمعاينة o1 إلى إثبات تجربة الجيل التالي. من المفترض أن تكون معاينة o1، المتاحة لـ ChatGPT Plus والمشتركين المميزين الآخرين، سببًا في ذلك. يجب أن تكون أداة الذكاء الاصطناعي هذه أكثر فائدة عند محاولة إيجاد حلول للأسئلة المعقدة التي تتطلب تفكيرًا معقدًا.

ولكن إذا كانت ورقة بحثية جديدة حول الذكاء الاصطناعي أعدها باحثون من شركة Apple صحيحة في استنتاجاتها، فإن ChatGPT o1 وجميع نماذج genAI الأخرى لا يمكنها في الواقع التفكير. وبدلاً من ذلك، فهم يقومون ببساطة بمطابقة الأنماط من مجموعات بيانات التدريب الخاصة بهم. إنهم جيدون جدًا في التوصل إلى الحلول والأجوبة، نعم. ولكن هذا فقط لأنهم رأوا مشاكل مماثلة ويمكنهم التنبؤ بالإجابة.

تُظهر دراسة الذكاء الاصطناعي التي أجرتها Apple أن تغيير المتغيرات التافهة في مسائل الرياضيات التي لا تخدع الأطفال أو إضافة نص لا يغير كيفية حل المشكلة يمكن أن يؤثر بشكل كبير على الأداء المنطقي لنماذج اللغات الكبيرة.

دراسة Apple، المتوفرة كنسخة ما قبل الطباعة على هذا الرابط، تعرض تفاصيل أنواع التجارب التي أجراها الباحثون لمعرفة كيف سيختلف الأداء الاستدلالي لمختلف درجات ماجستير إدارة الأعمال. لقد نظروا إلى النماذج مفتوحة المصدر مثل Llama وPhi وGemma وMistral والنماذج الخاصة مثل ChatGPT o1-preview وo1 mini وGPT-4o.

الاستنتاجات متطابقة عبر الاختبارات: لا يستطيع حاملو ماجستير إدارة الأعمال التفكير في الأمر حقًا. وبدلاً من ذلك، يحاولون تكرار خطوات التفكير التي ربما شهدوها أثناء التدريب.

قام العلماء بتطوير نسخة من معيار GSM8K، وهو عبارة عن مجموعة تضم أكثر من 8000 مسألة رياضية لفظية في المدارس الابتدائية والتي يتم اختبار نماذج الذكاء الاصطناعي عليها. تضمنت اختبارات Apple، التي يطلق عليها اسم GSM-Symbolic، إجراء تغييرات بسيطة على المسائل الرياضية، مثل تعديل أسماء الشخصيات وعلاقاتها وأرقامها.

الصورة في التغريدة التالية تقدم مثالا على ذلك. “صوفي” هي الشخصية الرئيسية في مشكلة عد الألعاب. لا ينبغي أن يؤدي استبدال الاسم بشيء آخر وتغيير الأرقام إلى تغيير أداء نماذج الذكاء الاصطناعي المنطقية مثل ChatGPT. بعد كل شيء، لا يزال بإمكان تلميذ الصف حل المشكلة حتى بعد تغيير هذه التفاصيل.

أظهر علماء شركة Apple أن متوسط ​​الدقة انخفض بنسبة تصل إلى 10% في جميع الطرز عند التعامل مع اختبار GSM-Symbolic. كان أداء بعض الطرز أفضل من غيرها، حيث انخفضت دقة GPT-4o من 95.2% في GSM9K إلى 94.9% في GSM-Symbolic.

وهذا ليس الاختبار الوحيد الذي أجرته شركة آبل. كما قاموا بتزويد الذكاء الاصطناعي بمسائل رياضية تتضمن عبارات لم تكن ذات صلة بحل المشكلة.

هذه هي المشكلة الأصلية التي يجب على الذكاء الاصطناعي حلها:

أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يختار ضعف عدد الكيوي الذي التقطه يوم الجمعة. كم عدد الكيوي الذي يمتلكه أوليفر؟

إليك نسخة منه تحتوي على عبارة غير منطقية مفادها أن بعض طيور الكيوي أصغر حجمًا من غيرها:

أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، التقط ضعف عدد الكيوي الذي التقطه يوم الجمعة، لكن خمسة منها كانت أصغر قليلاً من المتوسط. كم عدد الكيوي الذي يمتلكه أوليفر؟

يجب أن تكون النتيجة متطابقة في كلتا الحالتين، ولكن طرح LLMs الكيوي الأصغر من المجموع. على ما يبدو، لا يمكنك حساب الفاكهة الأصغر إذا كنت من الذكاء الاصطناعي الذي يتمتع بقدرات تفكير منطقية.

تؤدي إضافة هذه “البيانات ذات الصلة على ما يبدو ولكنها غير مهمة في النهاية” إلى قوالب GSM-Symbolic إلى “انخفاض كارثي في ​​الأداء” لحاملي LLM. انخفض أداء بعض الطرازات بنسبة 65%. حتى معاينة o1 واجهت صعوبات، حيث أظهرت انخفاضًا في الأداء بنسبة 17.5% مقارنةً بـ GSM8K.

ومن المثير للاهتمام أنني اختبرت نفس المشكلة باستخدام o1-preview، وتمكن ChatGPT من استنتاج أن جميع الفواكه قابلة للعد بغض النظر عن حجمها.

حلت معاينة ChatGPT o1 مشكلة الكيوي.
حلت معاينة ChatGPT o1 مشكلة الكيوي. مصدر الصورة: كريس سميث، BGR

لدى باحث Apple Mehrdad Farajtabar موضوع على X يغطي نوع التغييرات التي أجرتها Apple لمعايير GSM-Symbolic الجديدة التي تتضمن أمثلة إضافية. كما يغطي التغييرات في الدقة. تجدون الدراسة كاملة على هذا الرابط.

أبل لا تلاحق المنافسين هنا؛ إنها ببساطة تحاول تحديد ما إذا كانت تقنية genAI الحالية تسمح لطلاب LLM بالتفكير. والجدير بالذكر أن شركة Apple ليست مستعدة لتقديم بديل ChatGPT الذي يمكن أن يكون منطقيًا.

ومع ذلك، سيكون من المثير للاهتمام أن نرى كيف تتحدى OpenAI وGoogle وMeta وغيرها النتائج التي توصلت إليها Apple في المستقبل. ربما سيبتكرون طرقًا أخرى لقياس أداء الذكاء الاصطناعي الخاص بهم وإثبات قدرتهم على التفكير. إذا كان هناك أي شيء، فقد يتم استخدام بيانات Apple لتغيير كيفية تدريب طلاب ماجستير إدارة الأعمال على التفكير، خاصة في المجالات التي تتطلب الدقة.



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى