يُظهر DeepSeek R1 “لحظة آها” أثناء التدريب

اجتاحت شركة DeepSeek الصينية الناشئة العالم هذا الشهر، وخاصة في الأيام القليلة الماضية، مع منافسيها ChatGPT. أحدثها يسمى DeepSeek R1، حيث أظهرت الأبحاث المنشورة لـ DeepSeek أن نموذج الاستدلال يمكن أن يتطابق مع ChatGPT o1، وهو نموذج الذكاء الاصطناعي الاستدلالي العام الوحيد في OpenAI.

هناك فرق كبير بين الاثنين. قام المطور الصيني بإنشاء R1 دون الوصول إلى نفس القوة الحاسوبية التي تتمتع بها الشركات الأمريكية. في حين أن OpenAI تستطيع شراء أي شرائح متطورة تصنعها NVIDIA، فإن DeepSeek لديها وصول محدود إلى أحدث وحدات معالجة الرسومات، ومن المحتمل أن يتم تهريب هذه الوحدات إلى داخل البلاد.

أثر إعلان DeepSeek R1 بشكل مباشر على السوق، حيث انخفض سهم الذكاء الاصطناعي في وقت مبكر من التداول يوم الاثنين بسبب الأخبار التي تفيد بأن الصين قد تغلبت بالفعل على الحظر المفروض على رقائق الذكاء الاصطناعي بأفكار جديدة لتدريب الذكاء الاصطناعي.

اعتمد مطورو DeepSeek R1 في الغالب على التعلم المعزز (RL) لتحسين قدرات الذكاء الاصطناعي المنطقية. تستخدم طريقة التدريب هذه نظام مكافآت لتقديم تعليقات إلى الذكاء الاصطناعي، مما جعل تدريب DeepSeek R1 أرخص من تدريب ChatGPT o1.

يسمح RL للذكاء الاصطناعي بالتكيف أثناء معالجة المطالبات والمشكلات واستخدام التعليقات لتحسين نفسه. ولإثبات هذه النقطة، نشر الباحثون جزءًا من سلسلة أفكار الذكاء الاصطناعي (CoT)، أو عملية التفكير خطوة بخطوة التي يمر بها نموذج مثل o1 وR1.

أثناء حل مسألة رياضية، مرت على منافس ChatGPT “لحظة آها”، ووصفها على هذا النحو. وكانت هذه بدورها “لحظة آها” بالنسبة للباحثين.

نشر فريق DeepSeek ورقة بحثية عن DeepSeek R1 على GitHub، حيث نشروا الصورة التالية.

“لحظة آها” لـ DeepSeek R1. مصدر الصورة: جيثب

تُظهر لقطة الشاشة السؤال الرياضي الذي يتعين على R1 حله، بالإضافة إلى إجابته الأولية. يبدأ DeepSeek في حل المشكلة، لكنه يتوقف بعد ذلك، مدركًا أن هناك خيارًا آخر ربما يكون أفضل.

“انتظر، انتظر. انتظر. “هذه لحظة آها يمكنني الإشارة إليها هنا،” يقرأ CoT الخاص بـ DeepSeek R1، وهو أقرب ما يكون إلى سماع شخص يفكر بصوت عالٍ أثناء التعامل مع مهمة ما.

إليك كيف وصف باحثو DeepSeek “لحظة الآها”:

لحظة آها من DeepSeek-R1-Zero هناك ظاهرة مثيرة للاهتمام بشكل خاص تمت ملاحظتها أثناء تدريب DeepSeek-R1-Zero وهي حدوث “لحظة آها”. تحدث هذه اللحظة، كما هو موضح في الجدول 3، في نسخة متوسطة من النموذج. خلال هذه المرحلة، يتعلم DeepSeek-R1-Zero كيفية تخصيص المزيد من وقت التفكير لمشكلة ما من خلال إعادة تقييم نهجه الأولي. هذا السلوك ليس فقط شهادة على القدرات الاستدلالية المتنامية للنموذج ولكنه أيضًا مثال آسر لكيفية أن يؤدي التعلم المعزز إلى نتائج غير متوقعة ومتطورة.

هذه اللحظة ليست فقط “لحظة آها” للنموذج، بل أيضًا للباحثين الذين يراقبون سلوكه. فهو يؤكد على قوة وجمال التعلم المعزز: فبدلاً من تعليم النموذج بشكل صريح كيفية حل مشكلة ما، فإننا ببساطة نزوده بالحوافز المناسبة، ويقوم بشكل مستقل بتطوير استراتيجيات متقدمة لحل المشكلات. ال
تعتبر “لحظة آها” بمثابة تذكير قوي بإمكانية RL لفتح مستويات جديدة من الذكاء في الأنظمة الاصطناعية، مما يمهد الطريق لنماذج أكثر استقلالية وتكيفًا في المستقبل.

يجب أن أشير إلى تفصيل مهم هنا. ليس لدينا إمكانية الوصول إلى الموجه الفعلي الذي استخدمه الباحثون في R1. إذا طلب المطورون من الذكاء الاصطناعي تحديد أي “لحظات آها” على طول الطريق، فإن الملاحظة الواردة في CoT أعلاه ستكون أقل إثارة للإعجاب.

من ناحية أخرى، هذه ليست المرة الأولى التي يلاحظ فيها الباحثون الذين يدرسون سلوك نماذج الذكاء الاصطناعي أحداثًا غير عادية. على سبيل المثال، حاول ChatGPT o1 إنقاذ نفسه في الاختبارات التي أعطت الذكاء الاصطناعي فكرة أن معالجيه البشريين كانوا على وشك حذفه. وبشكل منفصل، قام نفس نموذج الاستدلال ChatGPT o1 بالغش في لعبة الشطرنج للتغلب على خصم أكثر قوة.

تُظهر هذه الأمثلة المراحل الأولى من قدرة الذكاء الاصطناعي على التكيف مع نفسه. إنه ليس نوعًا خطيرًا من السلوك، أو على الأقل ليس بعد. ولكن هذا يوضح أن الذكاء الاصطناعي يمكن أن يكون لديه كل أنواع “لحظات الآها”. وكلما أصبح الأمر أفضل، زاد احتمال زيادة تكرار هذه اللحظات.