يهيمن Blackwell Ultra من Nvidia على استنتاج Mlperf

يتحرك مجال التعلم الآلي سريعًا ، ويتعين على المقياس المستخدمة قياس التقدم في ذلك للسباق لمواكبة ذلك. ومن الأمثلة على ذلك ، MLPERF ، مسابقة التعلم الآلي الثنائي السنوي في بعض الأحيان “أولمبياد الذكاء الاصطناعي” ، قدمت ثلاثة اختبارات جديدة جديدة ، مما يعكس اتجاهات جديدة في هذا المجال.
يقول ميرو هوداك ، ورئيس العمل المشارك لـ MLPERF: “في الآونة الأخيرة ، كان من الصعب للغاية محاولة اتباع ما يحدث في هذا المجال”. “نرى أن النماذج أصبحت أكبر تدريجياً ، وفي الجولتين الأخيرتين ، قدمنا أكبر النماذج التي لدينا على الإطلاق.”
جاءت الرقائق التي تعاملت مع هذه المعايير الجديدة من المشتبه بهم المعتادين – نفيديا ، الذراع ، و Intel. تصدرت Nvidia المخططات ، حيث قدمت GPU Blackwell Ultra الجديدة ، التي تم تعبئتها في تصميم على نطاق رف GB300. قدمت AMD أداءً قوياً ، حيث قدمت أحدث وحدات معالجة الرسومات MI325X. أثبتت Intel أنه لا يزال بإمكان المرء القيام بالاستدلال على وحدات المعالجة المركزية من خلال تقديمات Xeon الخاصة بهم ، ولكنها دخلت أيضًا لعبة GPU مع تقديم Intel Arc Pro.
معايير جديدة
في الجولة الأخيرة ، قدمت MLPERF أكبر معيار لها حتى الآن ، وهو نموذج لغة كبير يعتمد على LLAMA33.1-403B. في هذه الجولة ، تصدرت أنفسهم مرة أخرى ، حيث قدموا معيارًا يعتمد على طراز Deepseek R1 671B – أكثر من 1.5 ضعف عدد المعلمات من أكبر معيار سابق.
كنموذج التفكير ، يمر Deepseek R1 بعدة خطوات من سلسلة الأفكار عند الاقتراب من الاستعلام. هذا يعني أن الكثير من الحساب يحدث أثناء الاستدلال ثم في عملية LLM العادية ، مما يجعل هذا المعيار أكثر تحديا. يُزعم أن نماذج التفكير هي الأكثر دقة ، مما يجعلها تقنية اختيار العلوم والرياضيات واستفسارات البرمجة المعقدة.
بالإضافة إلى أكبر معيار LLM حتى الآن ، قدم MLPERF أيضًا الأصغر ، استنادًا إلى LLAMA33.1-8B. وأوضح تاران إيجار ، رئيس فرقة العمل في الاستدلال MLPERF. يمكن لـ LLMs الصغيرة توفير هذا ، وهي خيار ممتاز للمهام مثل تلخيص النص وتطبيقات الحافة.
هذا يجلب إجمالي عدد المعايير المستندة إلى LLM إلى أربعة مربكة. وهي تشمل معيار Llama3.1-8b الجديد والأصغر. معيار LLAMA2-70B موجود مسبقًا ؛ مقدمة الجولة الأخيرة من Llama3.1-403b القياس ؛ والأكبر ، نموذج Deepseek R1 الجديد. إذا لم يكن هناك شيء آخر ، فإن هذه الإشارات LLMs لا تسير في أي مكان.
بالإضافة إلى LLMS Myriad ، تضمنت هذه الجولة من الاستدلال MLPERF نموذجًا جديدًا للصوت إلى نص ، استنادًا إلى Whisper-LARGE-V3. هذا المعيار هو استجابة للعدد المتزايد للتطبيقات التي تدعم الصوت ، سواء أكان الأجهزة الذكية أو واجهات الذكاء الاصطناعي القائمة على الكلام.
تحتوي مسابقة Interference الخاصة بـ themlperf على فئتين عريضتين: “مغلق” ، والذي يتطلب استخدام نموذج الشبكة العصبية المرجعية كما هو دون تعديلات ، و “مفتوح” ، حيث يُسمح ببعض التعديلات على النموذج. ضمن هؤلاء ، هناك العديد من الفئات الفرعية المتعلقة بكيفية إجراء الاختبارات وفي أي نوع من البنية التحتية. سوف نركز على نتائج خادم البيانات “المغلق” من أجل التعقل.
نفيديا يؤدي
لم يسبق له مثيل ، لا أحد ، أفضل أداء لكل مسرع في كل معيار ، على الأقل في فئة “الخادم” ، تم تحقيقه بواسطة نظام قائم على GPU NVIDIA. كشفت Nvidia أيضًا عن Blackwell Ultra ، حيث تتصدر المخططات في أكبر معايير: Lllama3.1-405B و Deepseek R1.
يعد Blackwell Ultra تكرارًا أكثر قوة لهندسة Blackwell ، ويتميز بدرجة أكبر بكثير من الذاكرة ، ومضاعفة التسارع لطبقات الانتباه ، و 1.5x المزيد من الذكاء ، والذاكرة والاتصال الأسرع مقارنةً بالأسود القياسي. يهدف إلى أعباء عمل الذكاء الاصطناعى الأكبر ، مثل المعايير التي تم اختبارها.
بالإضافة إلى تحسينات الأجهزة ، يعزو مدير منتجات الحوسبة المتسارعة في Nvidia Dave Salvator نجاح Blackwell Ultra إلى تغييرين رئيسيين. أولاً ، استخدام NVIDIA Proprietary 4-Bit Floating Number Format ، NVFP4. يقول سالفاتور: “يمكننا تقديم دقة مماثلة لتنسيقات مثل BF16” ، أثناء استخدام قوة الحوسبة الأقل بكثير.
والثاني هو ما يسمى بالخدمة المفككة. تتمثل الفكرة وراء التقديم غير المتجنب في وجود جزأين رئيسيين لعبء عمل الاستدلال: premill ، حيث يتم تحميل الاستعلام (“يرجى تلخيص هذا التقرير.”) ويتم تحميل نافذة السياق بالكامل (التقرير) في LLM ، وتوليد/فك التشفير ، حيث يتم حساب الإخراج بالفعل. هاتان المرحلتين لهما متطلبات مختلفة. في حين أن مسبقًا يحسب ثقيلًا ، فإن التوليد/فك التشفير يعتمد أكثر على عرض النطاق الترددي للذاكرة. يقول سالفاتور إنه من خلال تعيين مجموعات مختلفة من وحدات معالجة الرسومات إلى المرحلتين المختلفين ، تحقق Nvidia كسب أداء قدره حوالي 50 في المائة.
AMD قريب وراء
أحدث رقاقة مسرع لـ AMD ، MI355X تم إطلاقها في يوليو. عرضت الشركة نتائج فقط في الفئة “المفتوحة” حيث يُسمح بتنفيذ تعديلات البرامج للنموذج. مثل Blackwell Ultra ، يتميز Mi355x بدعم عائم 4 بت ، بالإضافة إلى ذاكرة النطاق الترددي العالي الموسع. يقول ماهيش بالاسوبرامانيان ، المدير الأول لتسويق منتجات GPU في مركز GPU في AMD ، إن Mi355x تغلب على سلفه ، Mi325x ، في معيار Llama2.1-70b المفتوح بعامل 2.7.
تضمنت عمليات التقديمات “المغلقة” لـ AMD أنظمة مدعومة بواسطة AMD MI300X و MI325X وحدات معالجة الرسومات. تم تقديم كمبيوتر Mi325x الأكثر تقدماً بشكل مشابه لتلك التي تم إنشاؤها مع Nvidia H200s على Lllama2-70b ، ومزيج اختبار الخبراء ، ومعايير توليد الصور.
تضمنت هذه الجولة أيضًا أول تقديم هجين ، حيث تم استخدام كلا من وحدات معالجة الرسومات AMD MI300X و MI325X لنفس مهمة الاستدلال ، معايير LLAMA2-70B. يعد استخدام وحدات معالجة الرسومات الهجينة أمرًا مهمًا ، لأن وحدات معالجة الرسومات الجديدة تأتي في إيقاع سنوي ، والنماذج الأقدم ، التي تم نشرها في الغاز ، لا تسير في أي مكان. إن القدرة على نشر أعباء العمل بين أنواع مختلفة من وحدات معالجة الرسومات هي خطوة أساسية.
تدخل Intel لعبة GPU
في الماضي ، ظلت Intel صامدة لأن المرء لا يحتاج إلى وحدة معالجة الرسومات للقيام بالتعلم الآلي. في الواقع ، لا تزال التقديمات باستخدام وحدة المعالجة المركزية Xeon من Intel على قدم المساواة مع NVIDIA L4 على معيار الكشف عن الكائن ولكن متأخرا على معيار نظام التوصية.
هذه الجولة ، لأول مرة ، قدمت وحدة معالجة الرسومات Intel أيضًا عرضًا. تم إصدار Intel Arc Pro لأول مرة في عام 2022. عرض تقديم MLPERF بطاقة رسومات تسمى Maxsun Arc Pro B60 Dual 48g Turbo ، والتي تحتوي على وحدات معالجة الرسومات و 48 جيجابت من الذاكرة. تم أداء النظام على أساس مع L40s NVIDIA على معيار LLM الصغير وتخلفه على معيار LLAMA2-70B.
من مقالات موقعك
المقالات ذات الصلة حول الويب