كلود -3.7 يتفوق على AIS الأخرى في Super Mario Bros

الأسبوع الماضي، BGR تم الإبلاغ عنها في رحلة كلود وهي تلعب بوكيمون ريد. على الرغم من أن الآلاف من اللاعبين الذين يلعبونها في نفس الوقت كان أكثر كفاءة – نظرًا لأن الذكاء الاصطناعى لا يزال عالقًا على جبل مون – يعتقد الباحثون أن اختراق الذكاء الاصطناعي التالي قد يكون مرتبطًا بالألعاب الحية.
بقيادة هاو تشانغ ، أستاذ مساعد في جامعة كاليفورنيا في سان دييغو ، يقوم فريق الأبحاث بتطوير أطر مخصصة لاختبار قدرات نماذج الذكاء الاصطناعى الرائدة في الألعاب.
على الرغم من أن كلود كان نوعًا من اللعب الكارثي بوكيمون الأحمر (يبدو أنه لا يحتوي على ما يلزم لتصبح سيد البوكيمون) ، إلا أنه تمتص أقل قليلاً من Gemini-1.5 Pro و GPT-4O. بمقارنة Claude-3.7 و Claude-3.5 ، فإن الذكاء الاصطناعى الأحدث أكثر استجابة ويبدو أنه يعرف المزيد حول ما يجب القيام به في Super Mario Bros. بالإضافة إلى لعبة Nintendo الكلاسيكية هذه ، يقوم الباحثون أيضًا باختبار 2048 و Tetris ، مع المزيد من الألعاب قريبًا.
اختبار آخر هو مع Roblox. تشرح منشور مدونة: “لقد قمنا بتطوير لعبة Roblox الحية ، AI Space Escape ، مدعومة بنماذج لغة كبيرة حديثة (LLMS) ، مما يوفر تجربة فريدة من نوعها مع الذكاء الاصطناعي. ما وراء الترفيه ، تقوم لعبتنا بإنشاء بيانات ألعاب لتقييم قدرات التفكير في الذكاء الاصطناعي في سيناريوهات العالم الحقيقي ، وتتجاوز معايير الرياضيات والترميز. جميع بيانات الألعاب ، ونصوص التقييم ، والرمز متاحة للجمهور لمزيد من البحث. “
لا يزال يتعين علينا انتظار كلود وغيرها من تحسينات الذكاء الاصطناعي لمعرفة كيف يمكن لهذه النماذج أن تستمر في تطوير الألعاب. بالنسبة لتجربة Pokemon Red ، أوضح المطور أن ما يميز كلود هو أنه يمكن أن يرى ما يحدث ، وفهم حالة اللعبة ، واتخاذ القرارات “على غرار كيف يمكن للاعب البشري” – على الرغم من أنني قد لا أوافق ، لأن الذكاء الاصطناعي لا يزال يعاني لتمرير أحد “الأبراج المحصنة” الأولى من اللعبة.