بلاكويل، AMD Instinct، الذكاء الاصطناعي غير المقيد: المعايير الأولى
في حين أن هيمنة وحدات معالجة الرسوميات Nvidia في تدريب الذكاء الاصطناعي لا تزال بلا منازع، فقد نشهد علامات مبكرة على أن المنافسة تتزايد على عملاق التكنولوجيا، لاستدلال الذكاء الاصطناعي، لا سيما فيما يتعلق بكفاءة الطاقة. ومع ذلك، قد يكون من الصعب التغلب على الأداء الهائل لشريحة Blackwell الجديدة من Nvidia.
أصدرت ML Commons هذا الصباح نتائج أحدث منافساتها للاستدلال بالذكاء الاصطناعي، ML Perf Inference v4.1. تضمنت هذه الجولة تقديمات لأول مرة من فرق تستخدم مسرعات AMD Instinct، وأحدث مسرعات Google Trillium، ورقائق من شركة UntetherAI الناشئة في تورونتو، بالإضافة إلى تجربة أولى لشريحة Blackwell الجديدة من Nvidia. أعلنت شركتان أخريان، Cerebras وFuriosaAI، عن شرائح استدلال جديدة لكنهما لم تقدما إلى MLPerf.
مثل الكثير من الرياضات الأولمبية، يوجد في MLPerf العديد من الفئات والفئات الفرعية. والفئة التي شهدت أكبر عدد من التقديمات كانت فئة “مركز البيانات مغلق”. تتطلب الفئة المغلقة (بدلاً من المفتوحة) من مقدمي الطلبات تشغيل الاستدلال على نموذج معين كما هو، دون إجراء تعديلات كبيرة على البرنامج. تقوم فئة مركز البيانات باختبار مقدمي الطلبات على المعالجة المجمعة للاستعلامات، على عكس فئة الحافة، حيث يكون التركيز على تقليل زمن الوصول.
يوجد ضمن كل فئة 9 معايير مختلفة لأنواع مختلفة من مهام الذكاء الاصطناعي. يتضمن ذلك حالات الاستخدام الشائعة مثل إنشاء الصور (فكر في Midjourney) وLLM Q&A (فكر في ChatGPT)، بالإضافة إلى المهام التي لا تقل أهمية ولكنها أقل شهرة مثل تصنيف الصور واكتشاف الكائنات ومحركات التوصية.
تضمنت هذه الجولة من المنافسة معيارًا جديدًا يسمى خليط الخبراء. يعد هذا اتجاهًا متزايدًا في نشر LLM، حيث يتم تقسيم نموذج اللغة إلى عدة نماذج لغوية أصغر ومستقلة، ويتم ضبط كل منها بدقة لمهمة معينة، مثل المحادثة المنتظمة، وحل المشكلات الرياضية، والمساعدة في البرمجة. يمكن للنموذج توجيه كل استعلام إلى مجموعة فرعية مناسبة من النماذج الأصغر، أو “الخبراء”. يسمح هذا النهج باستخدام موارد أقل لكل استعلام، مما يتيح تكلفة أقل وإنتاجية أعلى، كما يقول ميروسلاف هوداك، رئيس مجموعة عمل MLPerf Inference Workgroup وعضو كبير في الطاقم الفني في AMD.
كان الفائزون في كل معيار ضمن المعيار الشهير المغلق لمراكز البيانات لا يزالون يقدمون بناءً على وحدات معالجة الرسومات H200 من Nvidia والرقائق الفائقة GH200، والتي تجمع بين وحدات معالجة الرسومات ووحدات المعالجة المركزية في نفس الحزمة. ومع ذلك، فإن نظرة فاحصة على نتائج الأداء ترسم صورة أكثر تعقيدًا. استخدم بعض مقدمي الطلبات العديد من شرائح التسريع بينما استخدم البعض الآخر شريحة واحدة فقط. إذا قمنا بتطبيع عدد الاستعلامات في الثانية التي كان كل مُرسل قادرًا على التعامل معها من خلال عدد المسرعات المستخدمة، واحتفظ فقط بعمليات الإرسال الأفضل أداءً لكل نوع من أنواع المسرعات، فستظهر بعض التفاصيل المثيرة للاهتمام. (من المهم ملاحظة أن هذا الأسلوب يتجاهل دور وحدات المعالجة المركزية والوصلات البينية.)
على أساس كل مسرع، يتفوق أداء Blackwell من Nvidia على جميع تكرارات الشريحة السابقة بمقدار 2.5x في مهمة LLM Q&A، وهو المعيار الوحيد الذي تم تقديمه إليه. كان أداء شريحة SpeedAI240 Preview من Untether AI على قدم المساواة تقريبًا مع H200 في مهمة الإرسال الوحيدة، وهي التعرف على الصور. كان أداء Trillium من Google ما يزيد قليلاً عن نصف أداء H100 وH200s في توليد الصور، وكان أداء AMD’s Instinct مساويًا تقريبًا لـ H100s في مهمة الأسئلة والأجوبة في LLM.
قوة بلاكويل
أحد أسباب نجاح Nvidia Blackwell هو قدرتها على تشغيل LLM باستخدام دقة الفاصلة العائمة 4 بت. تعمل شركة Nvidia ومنافسوها على خفض عدد البتات المستخدمة لتمثيل البيانات في أجزاء من نماذج المحولات مثل ChatGPT لتسريع العمليات الحسابية. قدمت Nvidia رياضيات 8 بت مع H100، ويمثل هذا التقديم أول عرض توضيحي لرياضيات 4 بت على معايير MLPerf.
يقول ديف سالفاتور، مدير تسويق المنتجات في Nvidia، إن التحدي الأكبر في استخدام مثل هذه الأرقام منخفضة الدقة هو الحفاظ على الدقة. وللحفاظ على الدقة العالية المطلوبة لعمليات تقديم MLPerf، كان على فريق Nvidia أن يبتكر بشكل كبير في مجال البرمجيات، كما يقول.
مساهمة أخرى مهمة في نجاح Blackwell هي مضاعفة عرض النطاق الترددي للذاكرة تقريبًا، 8 تيرابايت/ثانية، مقارنة بـ H200 الذي يبلغ 4.8 تيرابايت/ثانية.
نفيديا GB2800 جريس بلاكويل سوبر تشيبنفيديا
استخدم إصدار Blackwell من Nvidia شريحة واحدة، لكن Salvator يقول إنها مصممة للشبكة والتوسع، وستعمل بشكل أفضل عند دمجها مع وصلات NVLink البينية من Nvidia. تدعم وحدات معالجة الرسوميات Blackwell ما يصل إلى 18 اتصال NVLink بسرعة 100 جيجابايت في الثانية للحصول على عرض نطاق ترددي إجمالي يبلغ 1.8 تيرابايت في الثانية، أي ضعف عرض النطاق الترددي للتوصيل البيني لـ H100 تقريبًا.
يرى سلفاتوري أنه مع تزايد حجم النماذج اللغوية الكبيرة، فإن الاستدلال سيتطلب منصات متعددة وحدات معالجة الرسومات لمواكبة الطلب، وقد تم تصميم Blackwell لمواجهة هذا الاحتمال. يقول سلفاتور: “إن بلاكويل عبارة عن منصة”.
قدمت Nvidia نظامها القائم على شريحة Blackwell في فئة المعاينة الفرعية، مما يعني أنه ليس للبيع بعد ولكن من المتوقع أن يكون متاحًا قبل إصدار MLPerf التالي، بعد ستة أشهر من الآن.
يتألق Untether AI في استخدام الطاقة وعلى الحافة
بالنسبة لكل معيار، يتضمن MLPerf أيضًا نظيرًا لقياس الطاقة، والذي يختبر بشكل منهجي طاقة قابس الحائط التي يسحبها كل نظام أثناء أداء المهمة. شهد الحدث الرئيسي (فئة الطاقة المغلقة لمراكز البيانات) مقدمين اثنين فقط في هذه الجولة: Nvidia وUntether AI. بينما تنافست Nvidia في جميع المعايير، قدمت Untether فقط للتعرف على الصور.
مقدم |
مسرع |
عدد المسرعات |
الاستعلامات في الثانية الواحدة |
واتس |
الاستعلامات في الثانية لكل واط |
نفيديا |
نفيديا H200-SXM-141 جيجا |
8 |
480,131.00 |
5,013.79 |
95.76 |
UntetherAI |
UntetherAI speedAI240 سليم |
6 |
309,752.00 |
985.52 |
314.30 |
تمكنت الشركة الناشئة من تحقيق هذه الكفاءة المذهلة من خلال بناء شرائح باستخدام نهج تسميه حوسبة الذاكرة. تم تصميم شرائح UntetherAI كشبكة من عناصر الذاكرة مع معالجات صغيرة تتخللها مباشرة بجوارها. تكون المعالجات متوازية، ويعمل كل منها بشكل متزامن مع البيانات الموجودة في وحدات الذاكرة القريبة، مما يقلل بشكل كبير من مقدار الوقت والطاقة المستهلكة في نقل بيانات النموذج بين الذاكرة والنوى الحاسوبية.
يقول روبرت بيتشلر، نائب رئيس منتج Untether AI: “ما رأيناه هو أن 90 بالمائة من الطاقة اللازمة للقيام بعبء عمل الذكاء الاصطناعي هي مجرد نقل البيانات من DRAM إلى ذاكرة التخزين المؤقت إلى عنصر المعالجة”. “لذا فإن ما فعلته Untether هو قلب ذلك… فبدلاً من نقل البيانات إلى الحساب، سأقوم بنقل الحساب إلى البيانات.”
أثبت هذا الأسلوب نجاحه بشكل خاص في فئة فرعية أخرى من MLPerf: الحافة المغلقة. يقول بيتشلر إن هذه الفئة موجهة نحو المزيد من حالات الاستخدام على أرض الواقع، مثل فحص الآلات في المصنع، وروبوتات الرؤية الموجهة، والمركبات ذاتية القيادة، وهي التطبيقات التي يكون فيها الاستخدام المنخفض للطاقة والمعالجة السريعة أمرًا بالغ الأهمية.
مقدم |
نوع وحدة معالجة الرسومات |
عدد وحدات معالجة الرسومات |
زمن الوصول للبث الفردي (مللي ثانية) |
زمن انتقال البث المتعدد (ملي ثانية) |
عينات / عينات |
لينوفو |
نفيديا L4 |
2 |
0.39 |
0.75 |
25,600.00 |
لينوفو |
نفيديا L40S |
2 |
0.33 |
0.53 |
86,304.60 |
UntetherAI |
معاينة UntetherAI speedAI240 |
2 |
0.12 |
0.21 |
140,625.00 |
في مهمة التعرف على الصور، مرة أخرى، الوحيدة الوحيدة التي أبلغت UntetherAI عن نتائج لها، تفوقت شريحة speedAI240 Preview على أداء زمن الوصول لـ NVIDIA L40S بمقدار 2.8x وإنتاجيتها (عينات في الثانية) بمقدار 1.6x. قدمت الشركة الناشئة أيضًا نتائج الطاقة في هذه الفئة، لكن منافسيها الذين تسارعهم Nvidia لم يفعلوا ذلك، لذلك من الصعب إجراء مقارنة مباشرة. ومع ذلك، فإن سحب الطاقة الاسمي لكل شريحة لشريحة UntetherAI’s speedAI240 Preview هو 150 واط، بينما بالنسبة لـ Nvidia’s L40s يبلغ 350 واط، مما يؤدي إلى تقليل الطاقة الاسمية بمقدار 2.3x مع تحسين زمن الوصول.
يتخطى Cerebras وFuriosa MLPerf لكن يعلنان عن رقائق جديدة
تنفذ شريحة Furiosa الجديدة الوظيفة الرياضية الأساسية لاستدلال الذكاء الاصطناعي، وهي مضاعفة المصفوفات، بطريقة مختلفة وأكثر كفاءة. فيوريوسا
بالأمس، في مؤتمر IEEE Hot Chips في جامعة ستانفورد، كشفت شركة Cerebras عن خدمة الاستدلال الخاصة بها. تقوم شركة سانيفيل بولاية كاليفورنيا بتصنيع رقائق عملاقة بحجم رقاقة السيليكون، وبالتالي تتجنب الترابط بين الرقائق وتزيد بشكل كبير من عرض النطاق الترددي للذاكرة لأجهزتها، والتي تستخدم في الغالب لتدريب الشبكات العصبية الضخمة. لقد قامت الآن بترقية مجموعة برامجها لاستخدام أحدث أجهزة الكمبيوتر CS3 للاستدلال.
على الرغم من أن Cerebras لم تقدم إلى MLPerf، إلا أن الشركة تدعي أن منصتها تتفوق على H100 بمقدار 7x وشريحة Groq الناشئة في مجال الذكاء الاصطناعي بمقدار 2x في رموز LLM التي يتم إنشاؤها في الثانية. يقول أندرو فيلدمان، الرئيس التنفيذي والمؤسس المشارك لشركة Cerebras: “نحن اليوم في عصر الاتصال الهاتفي لجيل الذكاء الاصطناعي”. “وهذا بسبب وجود حاجز عرض النطاق الترددي للذاكرة. سواء كان جهاز H100 من Nvidia أو MI 300 أو TPU، فإنهم جميعًا يستخدمون نفس الذاكرة خارج الشريحة، وتنتج نفس القيود. نحن نخترق هذا، ونفعل ذلك لأننا على نطاق الرقائق.
وشهدت شركة Hot Chips أيضًا إعلانًا من شركة Furiosa ومقرها سيول، حيث قدمت شريحة الجيل الثاني الخاصة بها، RNGD (تُنطق “Renegade”). ما يميز شريحة Furiosa هو بنية معالج الانكماش الموتر (TCP). العملية الأساسية في أحمال عمل الذكاء الاصطناعي هي مضاعفة المصفوفات، والتي يتم تنفيذها عادةً كإجراء بدائي في الأجهزة. ومع ذلك، فإن حجم وشكل المصفوفات، المعروفة بشكل عام باسم الموترات، يمكن أن يختلف بشكل كبير. ينفذ RNGD ضرب هذا الإصدار الأكثر عمومية، الموترات، كنسخة بدائية بدلاً من ذلك. قال جون بايك، المؤسس والرئيس التنفيذي لشركة Furiosa، في Hot Chips: “أثناء الاستدلال، تختلف أحجام الدفعات بشكل كبير، لذا من المهم الاستفادة من التوازي المتأصل وإعادة استخدام البيانات من شكل موتر معين”.
على الرغم من أنها لم تقدم إلى MLPerf، إلا أن Furiosa قارنت أداء شريحة RNGD الخاصة بها مع معيار تلخيص LLM الخاص بـ MLPerf داخليًا. لقد كان أداؤه على قدم المساواة مع شريحة L40S الموجهة نحو الحافة من Nvidia مع استخدام 185 واطًا فقط من الطاقة، مقارنةً بشريحة L40S البالغة 320 واط. ويقول بايك إن الأداء سيتحسن مع المزيد من تحسينات البرامج.
أعلنت شركة IBM أيضًا عن شريحة Spyre الجديدة المصممة لأحمال عمل الذكاء الاصطناعي المولدة للمؤسسات، والتي ستصبح متاحة في الربع الأول من عام 2025.
على الأقل، لن يشعر المتسوقون في سوق شرائح الاستدلال بالذكاء الاصطناعي بالملل في المستقبل المنظور.
من مقالات موقعك
مقالات ذات صلة حول الويب