اجتاز GPT-4.5 اختبار تورينج ، وفقا لدراسة جديدة

هل يمكنك معرفة ما إذا كنت تتحدث مع إنسان أو chatbot؟ وفقًا لدراسة جديدة ، لا يستطيع معظم الناس. في الواقع ، تم الحكم على أحد أفضل نماذج الذكاء الاصطناعي اليوم ، GPT-4.5 من Openai ، على أنه إنسان أكثر من البشر الفعليين عندما شارك في نسخة محدثة من اختبار Turing الكلاسيكي.

لسنوات ، كان اختبار Turing هو الذهاب إلى اختبار ذكاء الجهاز ، وكذلك كيف ينظر البشر لهم. لذلك ليس من المستغرب حقًا أن يقوم الباحثون من مختبر لغة جامعة كاليفورنيا في سان دييغو بإدارة نسخة متعددة المشاركين من اختبار تورينج الذي يشمل ما يقرب من 300 شخص.

في كل جولة ، انخرط المشاركون في محادثات جنبًا إلى جنب-واحد مع إنسان وواحد مع منظمة العفو الدولية-ثم اضطروا إلى أن يقرر أي إنساني وكان منظمة العفو الدولية. وكانت نتائج اختبار Turing المحدث محدثًا جدًا أيضًا.

عندما تم توجيه تعليمات إلى GPT-4.5 لتبني شخصية ، مثل شاب ذي ثقافة البوب ، فقد خدع المشاركون 73 في المائة من الوقت. هذا أعلى بكثير من علامة فرصة بنسبة 50 في المائة ، والتي تحدد تاريخيا “تمريرة” في اختبار Turing AI. بالمقارنة ، كان البشر الفعليون أقل نجاحًا في إقناع المشاركين بإنسانيتهم.

اختبرت التجربة أيضًا نماذج أخرى ، بما في ذلك Meta’s Llama 3 وأحدث GPT-4O من Openai ، إلى جانب Eliza ، واحدة من أوائل الدردشة التي تم تطويرها على الإطلاق. مما لا يثير الدهشة ، أن النماذج التي لا تتبع موجه شخصية أسوأ بكثير. انخفضت دقة GPT-4.5 إلى 36 في المائة دون وجود شخصية محددة للسكن ، وسجل GPT-4O فقط 21 في المائة.

ليست هذه هي المرة الأولى التي يضع فيها الباحثون منظمة العفو الدولية من خلال اختبار تورينج. لكن هذه النتائج تظهر أنه على الرغم من أن نماذج اللغة قد لا “تفكر” مثلما يفعل البشر ، إلا أنها قادرة بشكل متزايد على أن يبدو على البشر في محادثات قصيرة غير رسمية. هذا له آثار كبيرة – ليس فقط لإثبات ذكاء الذكاء الاصطناعي ، ولكن أيضًا لفهم مدى سهولة إقناع الناس بأن الذكاء الاصطناعى هو في الواقع إنسان.

بالطبع ، يحذر الباحثون من أن اجتياز اختبار الذكاء الاصطناعي لا يعني أن النموذج يفهم أي شيء بالطريقة التي يفعلها البشر. ومع ذلك ، فهذا يعني أن هذه الأنظمة أصبحت أكثر مهارة في أداء التفاعلات التي تشبه الإنسان ، خاصةً عند إعطاء أدوار أو نغمات محددة لتبنيها.

هذا يعني أنه قد يصبح من الصعب اكتشاف الذكاء الاصطناعي في المواقف اليومية. هذا بدوره يثير مخاوف بشأن المعلومات الخاطئة ، الانتحال ، والمستقبل العام للتفاعل بين الإنسان. تصبح المشكلة بعد ذلك أننا قد لا ندرك أننا نتفاعل مع الذكاء الاصطناعي ، والتي قد يكون لها بعض الآثار الأخلاقية الخطيرة.

بالإضافة إلى ذلك ، مع كل جيل جديد من الذكاء الاصطناعى ، فإن الخط الفاصل بين تقليد الماكينة والمحادثة البشرية سيكون فقط غير واضح. الذكاء الاصطناعى سيء كما سيحصل الآن. من هنا ، ستستمر الأنظمة فقط في التحسن. في الوقت الحالي ، يتم نشر هذه النتائج على خادم preprint. ومع ذلك ، فقد قدم الباحثون ورقتهم إلى ورقة رسمية راجعها الأقران ، حتى نتمكن من رؤية إصدار رسمي في وقت ما في المستقبل.