، مقالات،

HBM على GPU: التحديات والحلول الحرارية



ألق نظرة خاطفة على حزمة منتجات الذكاء الاصطناعي الأكثر تقدمًا من AMD أو Nvidia وستجد ترتيبًا مألوفًا: وحدة معالجة الرسومات محاطة من الجانبين بذاكرة ذات نطاق ترددي عالٍ (HBM)، وهي أكثر شرائح الذاكرة المتوفرة تقدمًا. يتم وضع شرائح الذاكرة هذه في أقرب مكان ممكن من شرائح الحوسبة التي تخدمها من أجل تقليل أكبر عنق الزجاجة في حوسبة الذكاء الاصطناعي – الطاقة والتأخير في تحويل مليارات البتات في الثانية من الذاكرة إلى المنطق. ولكن ماذا لو كان بإمكانك التقريب بين الحوسبة والذاكرة من خلال تكديس HBM أعلى وحدة معالجة الرسومات؟

استكشفت شركة Imec مؤخرًا هذا السيناريو باستخدام عمليات المحاكاة الحرارية المتقدمة، وكانت الإجابة – التي تم تقديمها في ديسمبر في اجتماع IEEE الدولي للأجهزة الإلكترونية (IEDM) لعام 2025 – قاتمة بعض الشيء. يؤدي التكديس ثلاثي الأبعاد إلى مضاعفة درجة حرارة التشغيل داخل وحدة معالجة الرسومات، مما يجعلها غير قابلة للتشغيل. لكن الفريق، بقيادة جيمس مايرز من شركة إيمك، لم يستسلم فحسب. وقد حددوا العديد من التحسينات الهندسية التي يمكن أن تقلل في النهاية الفرق في درجة الحرارة إلى ما يقرب من الصفر.

بدأت شركة Imec بمحاكاة حرارية لوحدة معالجة الرسومات وأربع قوالب HBM كما تجدها اليوم، داخل ما يسمى بحزمة 2.5D. وهذا يعني أن كلا من وحدة معالجة الرسومات ووحدة HBM يجلسان على ركيزة تسمى المتدخل، مع وجود مسافة ضئيلة بينهما. ويرتبط نوعان من الرقائق بآلاف الوصلات النحاسية ذات الحجم الميكرومتري المدمجة في سطح المتدخل. في هذا التكوين، تستهلك وحدة معالجة الرسومات النموذجية 414 واط وتصل إلى درجة حرارة قصوى تقل قليلاً عن 70 درجة مئوية، وهي درجة حرارة نموذجية للمعالج. تستهلك شرائح الذاكرة 40 واطًا إضافيًا أو نحو ذلك وتصبح أقل سخونة إلى حد ما. تتم إزالة الحرارة من الجزء العلوي من العبوة عن طريق التبريد السائل الذي أصبح شائعًا في مراكز بيانات الذكاء الاصطناعي الجديدة.

قال يوكاي تشين، أحد كبار الباحثين في شركة Imec للمهندسين في IEDM: “على الرغم من استخدام هذا النهج حاليًا، إلا أنه لا يتناسب بشكل جيد مع المستقبل – خاصة أنه يحجب جانبين من وحدة معالجة الرسومات، مما يحد من اتصالات وحدة معالجة الرسومات إلى وحدة معالجة الرسومات في المستقبل داخل الحزمة”. في المقابل، “يؤدي النهج ثلاثي الأبعاد إلى عرض نطاق ترددي أعلى، وزمن وصول أقل… والتحسين الأكثر أهمية هو بصمة الحزمة.”

لسوء الحظ، كما وجد تشن وزملاؤه، فإن النسخة الأكثر مباشرة من التراص، والتي تتمثل ببساطة في وضع شرائح HBM أعلى وحدة معالجة الرسومات وإضافة كتلة من السيليكون الفارغ لملء فجوة في المركز، رفعت درجات الحرارة في وحدة معالجة الرسومات إلى درجة حرارة حارقة تصل إلى 140 درجة مئوية، وهو ما يتجاوز بكثير الحد النموذجي لوحدة معالجة الرسومات وهو 80 درجة مئوية.

التحسين المشترك لتكنولوجيا النظام

بدأ فريق Imec في تجربة عدد من التحسينات التقنية والنظامية التي تهدف إلى خفض درجة الحرارة. أول شيء حاولوه هو التخلص من طبقة السيليكون التي أصبحت الآن زائدة عن الحاجة. لفهم السبب، عليك أولاً أن تتعرف على ماهية HBM حقًا.

هذا النوع من الذاكرة عبارة عن كومة مكونة من 12 قالب DRAM عالي الكثافة. تم تخفيف كل منها إلى عشرات الميكرومترات وتم إطلاقها من خلال وصلات رأسية. يتم تكديس هذه القوالب الرقيقة واحدة فوق الأخرى وتوصيلها بكرات صغيرة من اللحام، وترتبط مجموعة الذاكرة هذه عموديًا بقطعة أخرى من السيليكون، تسمى القالب الأساسي. القالب الأساسي عبارة عن شريحة منطقية مصممة لمضاعفة البيانات، وتجميعها في عدد محدود من الأسلاك التي يمكن أن تتناسب مع فجوة المليمتر إلى وحدة معالجة الرسومات.

ولكن مع وجود HBM الآن أعلى وحدة معالجة الرسومات، ليست هناك حاجة لمضخة البيانات هذه. يمكن أن تتدفق البتات مباشرة إلى المعالج دون النظر إلى عدد الأسلاك التي يمكن وضعها على جانب الشريحة. وبطبيعة الحال، يعني هذا التغيير نقل دوائر التحكم في الذاكرة من القالب الأساسي إلى وحدة معالجة الرسومات، وبالتالي تغيير مخطط أرضية المعالج، كما يقول مايرز. ولكن يقترح أنه يجب أن يكون هناك مجال واسع، لأن وحدة معالجة الرسومات لن تحتاج بعد الآن إلى الدوائر المستخدمة لإزالة تعدد إرسال بيانات الذاكرة الواردة.

إن الاستغناء عن هذا الوسيط في الذاكرة أدى إلى تبريد الأشياء بما يقل قليلاً عن 4 درجات مئوية. ولكن الأهم من ذلك، أنه ينبغي أن يعزز بشكل كبير عرض النطاق الترددي بين الذاكرة والمعالج، وهو أمر مهم لتحسين آخر حاول الفريق تجربته – وهو إبطاء وحدة معالجة الرسومات.

قد يبدو هذا مخالفًا للغرض الكامل المتمثل في تحسين حوسبة الذكاء الاصطناعي، ولكنه في هذه الحالة يعد ميزة. نماذج اللغة الكبيرة هي ما يسمى مشاكل “الذاكرة المرتبطة”. أي أن عرض النطاق الترددي للذاكرة هو العامل المحدد الرئيسي. لكن فريق مايرز قدر أن تكديس HBM ثلاثي الأبعاد على وحدة معالجة الرسومات من شأنه أن يعزز عرض النطاق الترددي بمقدار أربعة أضعاف. مع هذا الارتفاع الإضافي، حتى إبطاء ساعة وحدة معالجة الرسومات بنسبة 50 بالمائة لا يزال يؤدي إلى تحسين الأداء، بينما يتم تبريد كل شيء بأكثر من 20 درجة مئوية. من الناحية العملية، قد لا يحتاج المعالج إلى التباطؤ كثيرًا. يقول مايرز إن زيادة تردد الساعة إلى 70 بالمائة أدى إلى ارتفاع درجة حرارة وحدة معالجة الرسومات بمقدار 1.7 درجة مئوية فقط.

HBM الأمثل

حدث انخفاض كبير آخر في درجة الحرارة بسبب جعل مكدس HBM والمنطقة المحيطة به أكثر موصلية. وشمل ذلك دمج الأكوام الأربعة في مجموعتين أوسع، وبالتالي القضاء على منطقة احتجاز الحرارة؛ ترقق الجزء العلوي – عادة ما يكون أكثر سمكًا – من المكدس؛ وملء المزيد من المساحة حول HBM بقطع فارغة من السيليكون لتوصيل المزيد من الحرارة.

ومع كل ذلك، أصبحت المكدس يعمل عند درجة حرارة 88 درجة مئوية تقريبًا. أدى أحد التحسينات النهائية إلى إعادة الأمور إلى ما يقرب من 70 درجة مئوية. بشكل عام، تتم إزالة حوالي 95 بالمائة من حرارة الشريحة من الجزء العلوي من العبوة، حيث يقوم الماء في هذه الحالة بحمل الحرارة بعيدًا. لكن إضافة تبريد مماثل إلى الجانب السفلي أدى أيضًا إلى انخفاض درجة حرارة الرقائق المكدسة إلى 17 درجة مئوية.

على الرغم من أن البحث المقدم في IEDM يوضح أنه قد يكون ممكنًا، إلا أن HBM-on-GPU ليس بالضرورة الخيار الأفضل، كما يقول مايرز. ويقول: “إننا نحاكي تكوينات النظام الأخرى للمساعدة في بناء الثقة بأن هذا هو الخيار الأفضل أم لا”. “إن GPU-on-HBM يثير اهتمام البعض في الصناعة،” لأنه يجعل GPU أقرب إلى التبريد. ولكن من المحتمل أن يكون تصميمًا أكثر تعقيدًا، لأن طاقة وحدة معالجة الرسومات وبياناتها يجب أن تتدفق عموديًا عبر HBM للوصول إليها.

من مقالات موقعك

مقالات ذات صلة حول الويب

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى