قد تكون الهلوسة chatgpt O3 مشكلة كبيرة في التفكير في الذكاء الاصطناعي

بمجرد أن أصبح Chatgpt متاحًا على نطاق واسع ، فاجأ العالم بقدرته على الإجابة على الأسئلة باللغة الطبيعية على الفور تقريبًا. لا يزال يفعل ذلك اليوم ، وقد تحسن أدائها بشكل كبير أيضًا.

ومع ذلك ، اكتشف المستخدمون بسرعة أن chatbots مثل chatgpt لا توفر دائمًا معلومات دقيقة. انهم الهلوسة بشكل مقنع. لهذا السبب كنت أحذرك من الهلوسة من الذكاء الاصطناعي منذ الأيام الأولى من الدردشة وتذكيرك بشكل روتيني بطلب المصادر والتحقق من الحقائق التي ينشرها chatbot.

لقد قطعت Chatgpt ومنافسيها شوطًا طويلاً منذ ذلك الحين. ستمنحك Openai وغيرها من شركات الذكاء الاصطناعي مصادر للمطالبات التي تقدمها الذكاء الاصطناعي ، خاصةً عند إشراك البحث على الإنترنت. على الرغم من هذه الترقيات ، لا يزال لدي تعليمات مخصصة تخبر الذكاء الاصطناعى أن تعطيني روابط عمل واضحة لكل ما تقوله. ما زلت يصحح الذكاء الاصطناعي عندما يقول شيئًا غير صحيح.

من المحتمل أن تختفي الهلوسة في مجموعات الدردشة الأكثر تقدماً في المستقبل غير البعيد. ولكن قد يستغرق الأمر بعض الوقت للوصول إلى هناك. chatgpt O3 و O4-Mini هي أفضل دليل على ذلك. إنها نماذج التفكير الأكثر تقدماً في ChatGPT ، تتجاوز أداء ChatGPT O1 في مختلف المجالات.

الغريب ، ومع ذلك ، فإن chatgpt O3 و O4-Mini يهللون أكثر من أسلافهم ، وهذا شيء اعترف به Openai من تلقاء نفسه. من غير الواضح ما الذي يسبب هذا السلوك.

قام Openai بتفصيل إحصائيات الهلوسة لـ O3 و O4-MINI في ملف بطاقة النظام للنماذج الجديدة. وبالتالي ، فلا عجب أن ترى الكثير من مستخدمي ChatGpt يذكرون هذا السلوك غير العادي.

“لقد اختبرنا Openai O3 و O4-MINI ضد Personqa ، وهو تقييم يهدف إلى استنباط الهلوسة. PersonQa هي مجموعة بيانات من الأسئلة والحقائق المتاحة للجمهور التي تقيس دقة النموذج في محاولة الإجابات” ، يكتب Openai. “نحن نعتبر مقاينين: الدقة (هل أجب النموذج على السؤال بشكل صحيح) ومعدل الهلوسة (التحقق من عدد المرات التي يتمتع بها النموذج بالهلوسة).”

“إن نموذج O4-MINI ضعيفان O1 و O3 في تقييم personqa لدينا. هذا متوقع ، لأن النماذج الأصغر لديها معرفة أقل في العالم وتميل إلى الهلوسة أكثر. ومع ذلك ، لاحظنا أيضًا بعض الاختلافات في الأداء التي تقارن O1 و O3.

ChatGPT O3 مقابل O4-MINI مقابل O1 اختبارات: الدقة والهلوسة. مصدر الصورة: Openai

كما نشر فريق Openai الجدول أعلاه ، والذي يوضح أن ChatGPT O3 أكثر دقة من O1 ولكنه سوف يهلوس ضعف معدل O1. أما بالنسبة لـ O4-MINI ، فإن النموذج الأصغر ينتج استجابات أقل دقة من O1 و O3 ، ويهلوس ثلاثة أضعاف معدل O1.

من الرائع أن يقوم Openai بتدريب نماذج التفكير الأكثر تقدماً التي يمكنها استخدام البحث عبر الإنترنت أثناء التفكير ودمج الصور في سلسلة أفكارها ، لكن الشركة لا يمكنها شرح سبب ارتفاع معدلات الهلوسة.

يمكن أن تقوم نماذج الذكاء الاصطناعي هذه ببعض الأشياء المذهلة ، مثل التحليل العميق للصور التي تتيح لهم تحديد مكان التقاط صورة من خلال النظر إليها. يمكنهم تصفح الويب بدقة للحصول على معلوماتهم. ومع ذلك سوف يعوضون الأشياء على طول الطريق. لا يمكنهم منع أنفسهم من اختراع الحقائق. لم يجد Openai وصفة التدريب لتحقيق ذلك.

لا أستطيع أن أقول أنني واجهت العديد من الهلوسة O3 و O4-Mini ، لكنني اكتشفت القفز الأخير إلى استنتاج واحد على الأقل بشكل أسرع مما ينبغي. من المحتمل أن تكون ملموسة في هذه العملية. كل ما أعرفه هو أنني سأستمر في التحقق من مطالبات الذكاء الاصطناعي للمستقبل المنظور ، بغض النظر عن النماذج التي أديرها.