شبكة Nvidia Rubin تضاعف عرض النطاق الترددي

في وقت سابق من هذا الأسبوع، أعلنت شركة Nvidia بشكل مفاجئ عن تصميمها الجديد Vera Rubin (لا علاقة له بالتلسكوب الذي تم الكشف عنه مؤخرًا) في معرض الإلكترونيات الاستهلاكية في لاس فيغاس. تم الإعلان عن النظام الأساسي الجديد، الذي من المقرر أن يصل إلى العملاء في وقت لاحق من هذا العام، ليقدم تخفيضًا بمقدار عشرة أضعاف في تكاليف الاستدلال وخفضًا بمقدار أربعة أضعاف في عدد وحدات معالجة الرسومات التي قد تحتاجها لتدريب نماذج معينة، مقارنةً ببنية Blackwell من Nvidia.
المشتبه به المعتاد لتحسين الأداء هو GPU. في الواقع، تتميز وحدة معالجة الرسوميات Rubin الجديدة بـ 50 كوادريليون عملية فاصلة عائمة في الثانية (بيتافلوبس) لحساب 4 بت، مقارنة بـ 10 بيتافلوب في بلاكويل، على الأقل بالنسبة لأحمال عمل الاستدلال القائمة على المحولات مثل نماذج اللغات الكبيرة.
ومع ذلك، فإن التركيز على وحدة معالجة الرسومات فقط يفوتك الصورة الأكبر. يوجد إجمالي ست شرائح جديدة في أجهزة الكمبيوتر المستندة إلى Vera-Rubin: وحدة المعالجة المركزية Vera ووحدة معالجة الرسومات Rubin وأربع شرائح شبكات متميزة. ولتحقيق مزايا الأداء، يجب أن تعمل المكونات بشكل متناغم، كما يقول جلعاد شاينر، نائب الرئيس الأول للشبكات في نفيديا.
يقول شاينر: “إن نفس الوحدة المتصلة بطريقة مختلفة ستوفر مستوى مختلفًا تمامًا من الأداء”. “ولهذا السبب نسميه التصميم المشترك المتطرف.”
توسيع “الحوسبة داخل الشبكة”
تعمل أعباء عمل الذكاء الاصطناعي، سواء التدريب أو الاستدلال، على أعداد كبيرة من وحدات معالجة الرسومات في وقت واحد. يقول شاينر: “قبل عامين، كان الاستدلال يتم بشكل أساسي على وحدة معالجة رسومات واحدة، وصندوق واحد، وخادم واحد”. “في الوقت الحالي، أصبح الاستدلال موزعًا، وهو لا يقتصر على الرفوف فحسب. بل سينتقل عبر الرفوف.”
لاستيعاب هذه المهام الموزعة بشكل كبير، يحتاج أكبر عدد ممكن من وحدات معالجة الرسومات إلى العمل بفعالية كوحدة واحدة. هذا هو الهدف مما يسمى بشبكة التوسع: توصيل وحدات معالجة الرسومات داخل حامل واحد. تتعامل Nvidia مع هذا الاتصال من خلال شريحة شبكة NVLink الخاصة بها. يشتمل الخط الجديد على محول NVLink6، مع ضعف النطاق الترددي للإصدار السابق (3600 جيجابايت في الثانية لاتصالات GPU إلى GPU، مقارنة بـ 1800 جيجابايت/ثانية لمحول NVLink5).
بالإضافة إلى مضاعفة عرض النطاق الترددي، تشتمل شرائح التوسعة أيضًا على مضاعفة عدد SerDes – وحدات التسلسل/إلغاء التسلسل (التي تسمح بإرسال البيانات عبر أسلاك أقل) وعددًا موسعًا من الحسابات التي يمكن إجراؤها داخل الشبكة.
يقول شاينر: “إن الشبكة الموسعة ليست في الواقع الشبكة نفسها”. “إنها البنية التحتية للحوسبة، وبعض عمليات الحوسبة تتم على الشبكة… على المحول.”
الأساس المنطقي لتفريغ بعض العمليات من وحدات معالجة الرسومات إلى الشبكة ذو شقين. أولاً، يسمح بتنفيذ بعض المهام مرة واحدة فقط، بدلاً من اضطرار كل وحدة معالجة رسومات إلى تنفيذها. ومن الأمثلة الشائعة على ذلك عملية التخفيض الشامل في تدريب الذكاء الاصطناعي. أثناء التدريب، تقوم كل وحدة معالجة رسومات بحساب عملية رياضية تسمى التدرج على مجموعة البيانات الخاصة بها. من أجل تدريب النموذج بشكل صحيح، تحتاج جميع وحدات معالجة الرسومات إلى معرفة متوسط التدرج المحسوب عبر جميع الدفعات. بدلاً من أن ترسل كل وحدة معالجة رسومات تدرجها إلى كل وحدة معالجة رسومات أخرى، وتقوم كل واحدة منها بحساب المتوسط، فإنها توفر الوقت الحسابي والقوة حتى تتم هذه العملية مرة واحدة فقط، داخل الشبكة.
الأساس المنطقي الثاني هو إخفاء الوقت الذي يستغرقه نقل البيانات بين وحدات معالجة الرسومات عن طريق إجراء عمليات حسابية عليها في الطريق. يشرح شاينر ذلك من خلال تشبيه محل بيتزا يحاول تسريع الوقت الذي يستغرقه توصيل الطلب. “ماذا يمكنك أن تفعل إذا كان لديك المزيد من الأفران أو المزيد من العمال؟ هذا لا يساعدك؛ يمكنك صنع المزيد من البيتزا، ولكن الوقت اللازم لتحضير بيتزا واحدة سيظل كما هو. وبدلاً من ذلك، إذا أخذت الفرن ووضعته في السيارة، فسوف أقوم بإعداد البيتزا أثناء السفر إليك، فهذا هو المكان الذي أوفر فيه الوقت. وهذا ما نفعله.”
الحوسبة داخل الشبكة ليست جديدة على هذا التكرار لبنية Nvidia. في الواقع، لقد كان الاستخدام شائعًا منذ عام 2016 تقريبًا. لكن هذا التكرار يضيف مجموعة واسعة من العمليات الحسابية التي يمكن إجراؤها داخل الشبكة لاستيعاب أعباء العمل المختلفة والتنسيقات الرقمية المختلفة، كما يقول شاينر.
التحجيم وعبر
تشتمل بقية شرائح الشبكات المضمنة في بنية Rubin على ما يسمى بالشبكة واسعة النطاق. هذا هو الجزء الذي يربط الرفوف المختلفة ببعضها البعض داخل مركز البيانات.
هذه الرقائق هي ConnectX-9، وهي بطاقة واجهة الشبكة؛ BlueField-4 هو ما يسمى بوحدة معالجة البيانات، والتي يتم إقرانها بوحدتي Vera CPU وبطاقة ConnectX-9 لتفريغ مهام الشبكة والتخزين والأمان؛ وأخيرًا محول Spectrum-6 Ethernet، الذي يستخدم بصريات مجمعة لإرسال البيانات بين الرفوف. يعمل محول Ethernet أيضًا على مضاعفة عرض النطاق الترددي للأجيال السابقة، مع تقليل الارتعاش – وهو الاختلاف في أوقات وصول حزم المعلومات.
يقول: “تحتاج البنية التحتية الموسعة إلى التأكد من أن وحدات معالجة الرسومات هذه يمكنها التواصل بشكل جيد من أجل تشغيل أعباء عمل الحوسبة الموزعة، وهذا يعني أنني بحاجة إلى شبكة لا تحتوي على أي اهتزاز”. يشير وجود الارتعاش إلى أنه إذا كانت الحوامل المختلفة تقوم بأجزاء مختلفة من العملية الحسابية، فإن الإجابة من كل منها ستصل في أوقات مختلفة. سيكون أحد الرفوف دائمًا أبطأ من البقية، بينما تبقى بقية الرفوف، المليئة بالمعدات باهظة الثمن، في وضع الخمول أثناء انتظار تلك الحزمة الأخيرة. يقول شاينر: “الغضب يعني خسارة المال”.
لم يتم تخصيص أي من شرائح Nvidia الجديدة خصيصًا للاتصال بين مراكز البيانات، والتي يطلق عليها “النطاق الشامل”. لكن شاينر يرى أن هذه هي الحدود التالية. ويقول: “الأمر لا يتوقف هنا، لأننا نرى مطالب لزيادة عدد وحدات معالجة الرسومات في مركز البيانات”. “لم تعد 100000 وحدة معالجة رسوميات كافية لبعض أعباء العمل، ونحن الآن بحاجة إلى ربط مراكز بيانات متعددة معًا.”
من مقالات موقعك
مقالات ذات صلة حول الويب




