نفيديا تنتصر على أحدث اختبارات الذكاء الاصطناعي

لسنوات عديدة، سيطرت Nvidia على العديد من معايير التعلم الآلي، والآن هناك درجتان إضافيتان في حزامها.
أصدرت MLPerf، مجموعة قياس الذكاء الاصطناعي التي يطلق عليها أحيانًا “أولمبياد التعلم الآلي”، مجموعة جديدة من اختبارات التدريب للمساعدة في إجراء مقارنات أكثر وأفضل بين أنظمة الكمبيوتر المتنافسة. يتعلق أحد اختبارات MLPerf الجديدة بالضبط الدقيق لنماذج اللغة الكبيرة، وهي عملية تأخذ نموذجًا مُدربًا موجودًا وتدربه بشكل أكبر باستخدام المعرفة المتخصصة لجعله مناسبًا لغرض معين. والآخر مخصص للشبكات العصبية الرسومية، وهو نوع من التعلم الآلي وراء بعض قواعد البيانات الأدبية، واكتشاف الاحتيال في الأنظمة المالية، والشبكات الاجتماعية.
وحتى مع الإضافات ومشاركة أجهزة الكمبيوتر التي تستخدم مسرعات الذكاء الاصطناعي من Google وIntel، سيطرت الأنظمة التي تدعمها بنية Nvidia’s Hopper على النتائج مرة أخرى. نظام واحد يتضمن 11.616 وحدة معالجة رسوميات Nvidia H100 – وهي أكبر مجموعة حتى الآن – تصدر كل من المعايير التسعة، مسجلاً أرقامًا قياسية في خمسة منها (بما في ذلك المعيارين الجديدين).
“إذا قمت فقط بإلقاء الأجهزة على المشكلة، فليس من المسلم به أنك ستتحسن.” – ديف سلفاتور، نفيديا
يقول ديف سالفاتور، مدير منتجات الحوسبة المتسارعة في شركة Nvidia، إن نظام 11,616-H100 هو “أكبر نظام قمنا به على الإطلاق”. لقد اجتاز تجربة تدريب GPT-3 في أقل من 3.5 دقيقة. وللمقارنة، استغرق نظام 512-GPU حوالي 51 دقيقة. (لاحظ أن مهمة GPT-3 ليست تدريبًا كاملاً، وقد يستغرق الأمر أسابيع ويكلف ملايين الدولارات. وبدلاً من ذلك، تتدرب أجهزة الكمبيوتر على جزء تمثيلي من البيانات، عند نقطة متفق عليها قبل الانتهاء بوقت طويل.)
بالمقارنة مع أكبر مشارك لشركة Nvidia في GPT-3 العام الماضي، وهو جهاز كمبيوتر H100 يبلغ 3584، فإن النتيجة التي تبلغ 3.5 دقيقة تمثل تحسنًا بمقدار 3.2 أضعاف. قد تتوقع ذلك فقط من الاختلاف في حجم هذه الأنظمة، ولكن في حوسبة الذكاء الاصطناعي ليس هذا هو الحال دائمًا، كما يوضح سالفاتور. ويقول: “إذا قمت فقط بطرح الأجهزة على المشكلة، فليس من المسلم به أنك ستتحسن”.
يقول سلفاتوري: “إننا نحصل على مقياس خطي بشكل أساسي”. ويعني بذلك أن ضعف عدد وحدات معالجة الرسومات يؤدي إلى تقليل وقت التدريب إلى النصف. “[That] ويضيف: “يمثل هذا إنجازًا كبيرًا من فرقنا الهندسية”.
يقترب المنافسون أيضًا من القياس الخطي. في هذه الجولة، نشرت إنتل نظامًا يستخدم 1024 وحدة معالجة رسوميات تؤدي مهمة GPT-3 في 67 دقيقة مقابل كمبيوتر ربع الحجم الذي كان يستغرق 224 دقيقة قبل ستة أشهر. استخدم أكبر إدخال GPT-3 من Google 12 ضعف عدد مسرعات TPU v5p كأصغر إدخال له وأدى مهمته أسرع بتسع مرات.
يقول سالفاتوري إن القياس الخطي سيكون مهمًا بشكل خاص لـ “مصانع الذكاء الاصطناعي” القادمة التي تضم 100000 وحدة معالجة رسوميات أو أكثر. ويقول إنه يتوقع أن يتم تشغيل أحد مراكز البيانات هذه هذا العام، وآخر، باستخدام بنية Nvidia التالية، Blackwell، لبدء التشغيل في عام 2025.
يستمر خط نفيديا
واصلت Nvidia زيادة أوقات التدريب على الرغم من استخدام نفس البنية، Hopper، كما فعلت في نتائج التدريب العام الماضي. يقول سلفاتوري إن هذا كله يعود إلى تحسينات البرمجيات. “عادةً، سنحصل على 2-2.5x [boost] من البرامج بعد إصدار بنية جديدة.
بالنسبة للتدريب على GPT-3، سجلت Nvidia تحسنًا بنسبة 27 بالمائة مقارنة بمعايير MLPerf لشهر يونيو 2023. يقول سلفاتوري إن هناك العديد من التغييرات البرمجية وراء التعزيز. على سبيل المثال، قام مهندسو Nvidia بضبط استخدام Hopper لعمليات الفاصلة العائمة ذات 8 بت الأقل دقة عن طريق تقليص التحويلات غير الضرورية بين أرقام 8 بت و16 بت واستهداف أفضل لطبقات الشبكة العصبية التي يمكن أن تستخدم تنسيق الأرقام الأقل دقة. ووجدوا أيضًا طريقة أكثر ذكاءً لضبط ميزانية الطاقة لكل محركات حسابية لكل شريحة، وتسريع الاتصال بين وحدات معالجة الرسومات بطريقة شبهها سالفاتور بـ “تدهن الخبز المحمص بالزبدة وهو لا يزال في محمصة الخبز”.
بالإضافة إلى ذلك، نفذت الشركة مخططًا يسمى Flash انتباه. تم اختراع فلاش انتباه في مختبر جامعة ستانفورد لمؤسس سامبا نوفا كريس ري، وهو عبارة عن خوارزمية تعمل على تسريع شبكات المحولات عن طريق تقليل عمليات الكتابة إلى الذاكرة. عندما ظهرت لأول مرة في معايير MLPerf، قلصت الانتباه السريع ما يصل إلى 10 بالمائة من أوقات التدريب. (استخدمت Intel أيضًا إصدارًا من تقنية Flash Attention، ولكن ليس لـ GPT-3. وبدلاً من ذلك، استخدمت الخوارزمية لأحد المعايير الجديدة، وهي الضبط الدقيق.)
وباستخدام حيل برامج وشبكات أخرى، حققت Nvidia تسريعًا بنسبة 80 بالمائة في اختبار تحويل النص إلى صورة، Stable Diffusion، مقابل تقديمه في نوفمبر 2023.
معايير جديدة
يضيف MLPerf معايير جديدة ويقوم بترقية المعايير القديمة لتبقى على صلة بما يحدث في صناعة الذكاء الاصطناعي. شهد هذا العام إضافة الشبكات العصبية الدقيقة والرسمية.
يتطلب الضبط الدقيق شهادة LLM مدربة بالفعل وتخصصها للاستخدام في مجال معين. على سبيل المثال، أخذت شركة Nvidia نموذجًا مدربًا مكونًا من 43 مليار معلمة ودربته على ملفات التصميم والوثائق الخاصة بصانع وحدة معالجة الرسومات لإنشاء ChipNeMo، وهو الذكاء الاصطناعي الذي يهدف إلى تعزيز إنتاجية مصممي الرقائق الخاصة بها. في ذلك الوقت، قال بيل دالي، كبير مسؤولي التكنولوجيا في الشركة، إن تدريب حامل شهادة الماجستير في القانون كان بمثابة منحها تعليمًا في الفنون الحرة، وكان الضبط الدقيق بمثابة إرسالها إلى كلية الدراسات العليا.
يأخذ معيار MLPerf نموذج Llama-2-70B مُدرب مسبقًا ويطلب من النظام ضبطه باستخدام مجموعة بيانات من المستندات الحكومية بهدف إنشاء ملخصات أكثر دقة للمستندات.
هناك عدة طرق للقيام بالضبط الدقيق. اختار MLPerf واحدًا يسمى التكيف ذو الرتبة المنخفضة (LoRA). تنتهي هذه الطريقة بتدريب جزء صغير فقط من معلمات LLM مما يؤدي إلى تقليل العبء على الأجهزة بمقدار 3 أضعاف وتقليل استخدام الذاكرة والتخزين مقارنة بالطرق الأخرى، وفقًا للمنظمة.
المعيار الجديد الآخر يتضمن الشبكة العصبية البيانية (GNN). هذه مخصصة للمشكلات التي يمكن تمثيلها بواسطة مجموعة كبيرة جدًا من العقد المترابطة، مثل شبكة اجتماعية أو نظام التوصية. بالمقارنة مع مهام الذكاء الاصطناعي الأخرى، تتطلب شبكات GNN الكثير من الاتصالات بين العقد في جهاز الكمبيوتر.
قام المعيار بتدريب GNN على قاعدة بيانات توضح العلاقات بين المؤلفين الأكاديميين والأبحاث والمعاهد – رسم بياني يحتوي على 547 مليون عقدة و5.8 مليار حافة. تم بعد ذلك تدريب الشبكة العصبية على التنبؤ بالعلامة الصحيحة لكل عقدة في الرسم البياني.
معارك المستقبل
قد تشهد الجولات التدريبية في عام 2025 مسابقات وجهاً لوجه لمقارنة المسرعات الجديدة من AMD وIntel وNvidia. تم إطلاق سلسلة MI300 من AMD منذ حوالي ستة أشهر، ومن المقرر إجراء ترقية معززة للذاكرة MI325x في نهاية عام 2024، مع الجيل التالي MI350 المقرر في عام 2025. وتقول إنتل إن Gaudi 3، متاح بشكل عام لصانعي الكمبيوتر في وقت لاحق من هذا العام، سيظهر في معايير الاستدلال القادمة لـ MLPerf. قال المسؤولون التنفيذيون في إنتل إن الشريحة الجديدة لديها القدرة على التغلب على H100 في تدريب LLMs. لكن النصر قد يكون قصير الأجل، حيث كشفت Nvidia عن معمارية جديدة، Blackwell، والتي من المقرر إطلاقها في أواخر هذا العام.
من مقالات موقعك
مقالات ذات صلة حول الويب