، مقالات،

تدريب الذكاء الاصطناعي: أحدث تدريب على الذكاء الاصطناعي من Google وNvidia Chips


أفادت شركات Nvidia وOracle وGoogle وDell و13 شركة أخرى عن المدة التي تستغرقها أجهزة الكمبيوتر الخاصة بها لتدريب الشبكات العصبية الرئيسية المستخدمة اليوم. ومن بين تلك النتائج كانت اللمحة الأولى للجيل القادم من معالج الرسوميات Nvidia، B200، ومسرع Google القادم، المسمى Trillium. حقق B200 أداءً مضاعفًا في بعض الاختبارات مقارنة بشريحة Nvidia العمود الفقري اليوم، H100. و قدمت Trillium دفعة تقارب أربعة أضعاف مقارنة بالشريحة التي اختبرتها Google في عام 2023.

تتكون الاختبارات المعيارية، التي تسمى MLPerf v4.1، من ست مهام: التوصية، والتدريب المسبق لنماذج اللغة الكبيرة (LLM) GPT-3 وBERT-large، والضبط الدقيق لنموذج اللغة الكبيرة Llama 2 70B، والكائن الكشف وتصنيف عقدة الرسم البياني وتوليد الصور.

يعد تدريب GPT-3 مهمة ضخمة لدرجة أنه سيكون من غير العملي القيام بالأمر برمته فقط لتقديم معيار. وبدلا من ذلك، فإن الاختبار هو تدريبه إلى نقطة حددها الخبراء تعني أنه من المرجح أن يصل إلى الهدف إذا واصلت المضي قدما. بالنسبة إلى Llama 2 70B، فإن الهدف ليس تدريب LLM من الصفر، ولكن أخذ نموذج تم تدريبه بالفعل وضبطه بحيث يتخصص في خبرة معينة – في هذه الحالة،الوثائق الحكومية. تصنيف عقدة الرسم البياني هو نوع من التعلم الآلي يستخدم في اكتشاف الاحتيال واكتشاف المخدرات.

مع تطور ما هو مهم في الذكاء الاصطناعي، في الغالب نحو استخدام الذكاء الاصطناعي التوليدي، تغيرت مجموعة الاختبارات. يمثل هذا الإصدار الأخير من MLPerf تحولًا كاملاً في ما يتم اختباره منذ بدء الجهد المعياري. يقول ديفيد كانتر، الذي يقود الجهود المرجعية في MLCommons: “في هذه المرحلة، تم التخلص التدريجي من جميع المعايير الأصلية”. في الجولة السابقة، كان الأمر يستغرق ثوانٍ فقط لأداء بعض المعايير.

لقد تجاوز أداء أفضل أنظمة التعلم الآلي وفقًا للمعايير المختلفة ما كان متوقعًا إذا كانت المكاسب من قانون مور فقط [blue line]. يمثل الخط الصلب المعايير الحالية. تمثل الخطوط المتقطعة المعايير التي تم إيقافها الآن، لأنها لم تعد ذات صلة بالصناعة.MLCommons

وفقًا لحسابات MLPerf، فإن تدريب الذكاء الاصطناعي على المجموعة الجديدة من المعايير يتحسن بحوالي ضعف المعدل الذي يتوقعه المرء من قانون مور. مع مرور السنين، استقرت النتائج بسرعة أكبر مما كانت عليه في بداية عهد MLPerf. يعزو كانتر هذا في الغالب إلى حقيقة أن الشركات قد توصلت إلى كيفية إجراء الاختبارات المعيارية على أنظمة كبيرة جدًا. وبمرور الوقت، قامت شركات Nvidia وGoogle وغيرهما بتطوير برامج وتكنولوجيا شبكات تسمح بقياس خطي تقريبًا – حيث تؤدي مضاعفة المعالجات إلى تقليل وقت التدريب إلى النصف تقريبًا.

نتائج التدريب الأولى لـ Nvidia Blackwell

كانت هذه الجولة بمثابة الاختبارات التدريبية الأولى لبنية وحدة معالجة الرسومات التالية من Nvidia، والتي تسمى Blackwell. بالنسبة للتدريب على GPT-3 والضبط الدقيق لـ LLM، ضاعف Blackwell (B200) أداء H100 تقريبًا على أساس كل وحدة معالجة رسومات. وكانت المكاسب أقل قوة بعض الشيء ولكنها لا تزال كبيرة بالنسبة لأنظمة التوصية وتوليد الصور – 64 بالمائة و62 بالمائة على التوالي.

تواصل بنية Blackwell، المتجسدة في وحدة معالجة الرسوميات Nvidia B200، اتجاهًا مستمرًا نحو استخدام أرقام أقل دقة لتسريع الذكاء الاصطناعي. بالنسبة لأجزاء معينة من الشبكات العصبية المحولة مثل ChatGPT وLlama2 وStable Diffusion، تستخدم Nvidia H100 وH200 أرقام الفاصلة العائمة ذات 8 بت. يعمل الطراز B200 على تقليل ذلك إلى 4 بتات فقط.

جوجل تطلق أجهزة الجيل السادس لأول مرة

أظهرت جوجل النتائج الأولى ل6ذ جيل من مادة TPU، يسمى Trillium – والذي كشفت عنه الشهر الماضي فقط – وجولة ثانية من النتائج لـ 5ذ متغير الجيل، Cloud TPU v5p. وفي إصدار 2023، أدخل عملاق البحث نسخة مختلفة من الإصدار 5ذ جيل TPU، v5e، مصمم لتحقيق الكفاءة أكثر من الأداء. وعلى عكس الأخير، يقدم Trillium تعزيزًا يصل إلى 3.8 أضعاف في الأداء في مهمة التدريب GPT-3.

ولكن مقابل منافس الجميع اللدود Nvidia، لم تكن الأمور وردية. وصل نظام مكون من 6,144 TPU v5ps إلى نقطة تفتيش تدريب GPT-3 في 11.77 دقيقة، ليحتل المركز الثاني بفارق كبير عن نظام 11,616-Nvidia H100، الذي أنجز المهمة في حوالي 3.44 دقيقة. كان نظام TPU العلوي هذا أسرع بحوالي 25 ثانية فقط من كمبيوتر H100 بنصف حجمه.

قام كمبيوتر من شركة Dell Technologies بضبط نموذج اللغة الكبير Llama 2 70B باستخدام كهرباء تبلغ قيمتها حوالي 75 سنتًا.

في أقرب مقارنة وجهاً لوجه بين v5p وTrillium، حيث يتكون كل نظام من 2048 وحدة TPU، خفض Trillium القادم دقيقتين قويتين من وقت تدريب GPT-3، وهو ما يقرب من تحسن بنسبة 8 بالمائة مقارنة بـ v5p البالغ 29.6 دقيقة. هناك اختلاف آخر بين إدخالات Trillium وv5p وهو أن Trillium مقترن بوحدات المعالجة المركزية AMD Epyc بدلاً من Intel Xeons الخاصة بـ v5p.

قامت Google أيضًا بتدريب منشئ الصور، Stable Diffusion، باستخدام Cloud TPU v5p. عند 2.6 مليار معلمة، يعد Stable Diffusion بمثابة رفع خفيف بدرجة كافية بحيث يُطلب من المتسابقين في MLPerf تدريبه على التقارب بدلاً من مجرد الوصول إلى نقطة تفتيش، كما هو الحال مع GPT-3. احتل نظام 1024 TPU المرتبة الثانية، حيث أنهى المهمة في دقيقتين و26 ثانية، أي حوالي دقيقة واحدة خلف نظام الحجم نفسه المكون من Nvidia H100s.

قوة التدريب لا تزال غامضة

لطالما كانت تكلفة الطاقة الباهظة لتدريب الشبكات العصبية مصدرًا للقلق. لقد بدأ MLPerf للتو في قياس هذا. وكانت شركة Dell Technologies هي المشارك الوحيد في فئة الطاقة، مع نظام مكون من ثمانية خوادم يحتوي على 64 وحدة معالجة رسوميات Nvidia H100 و16 وحدة معالجة مركزية Intel Xeon Platinum. كان القياس الوحيد الذي تم إجراؤه في مهمة الضبط الدقيق LLM (Llama2 70B). استهلك النظام 16.4 ميجاجول خلال تشغيله لمدة 5 دقائق، بمتوسط ​​طاقة 5.4 كيلووات. وهذا يعني حوالي 75 سنتا من الكهرباء بمتوسط ​​التكلفة في الولايات المتحدة.

على الرغم من أنها لا تقول الكثير في حد ذاتها، إلا أن النتيجة من المحتمل أن توفر ملعبًا لاستهلاك الطاقة في أنظمة مماثلة. أوراكل، على سبيل المثال، أبلغت عن نتيجة أداء قريبة – 4 دقائق و 45 ثانية – باستخدام نفس عدد وأنواع وحدات المعالجة المركزية ووحدات معالجة الرسومات.

من مقالات موقعك

مقالات ذات صلة حول الويب

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى