إنتل غاودي 3 يلاحق نفيديا

على الرغم من أن السباق لتعزيز الطموحات الهائلة لشركات الذكاء الاصطناعي قد يبدو وكأن الأمر كله يتعلق بشركة Nvidia، إلا أن هناك منافسة حقيقية تجري في رقائق تسريع الذكاء الاصطناعي. أحدث مثال: في حدث Intel Vision 2024 هذا الأسبوع في فينيكس، أريزونا، قدمت الشركة التفاصيل المعمارية الأولى للجيل الثالث من مسرع الذكاء الاصطناعي، Gaudi 3.

مع الشريحة السابقة، روجت الشركة لمدى قرب أدائها من أفضل شريحة من Nvidia في ذلك الوقت، H100، وطالبت بنسبة أعلى من السعر مقابل الأداء. مع Gaudi 3، فإنه يشير إلى أداء نموذج اللغة الكبيرة (LLM) حيث يمكنه المطالبة بالتفوق التام. ولكن، يلوح في الخلفية وحدة معالجة الرسومات التالية من Nvidia، Blackwell B200، والتي من المتوقع أن تصل في وقت لاحق من هذا العام.

تطور العمارة غاودي

يتضاعف Gaudi 3 مع بنية سابقتها Gaudi 2، حرفيًا في بعض الحالات. بدلاً من شريحة Gaudi 2 المنفردة، يتكون Gaudi 3 من قالبين متطابقين من السيليكون متصلين بواسطة اتصال عالي النطاق. لكل منها منطقة مركزية تبلغ 48 ميغابايت من ذاكرة التخزين المؤقت. يحيط بها القوى العاملة العاملة بالذكاء الاصطناعي في الشريحة، وهي أربعة محركات لمضاعفة المصفوفات و32 وحدة قابلة للبرمجة تسمى نوى المعالج الموتر. كل ذلك محاط باتصالات بالذاكرة ومغطى بمعالجة الوسائط والبنية التحتية للشبكة من جهة واحدة.

تقول إنتل إن كل ذلك يجتمع لإنتاج ضعف حساب الذكاء الاصطناعي لغاودي 2 باستخدام بنية تحتية للفاصلة العائمة 8 بت والتي برزت كمفتاح لتدريب نماذج المحولات. كما أنه يوفر دفعة أربعة أضعاف للحسابات باستخدام تنسيق رقم BFloat 16.

غاودي 3 LLM الأداء

تتوقع Intel وقت تدريب أسرع بنسبة 40 بالمائة لنموذج اللغة الكبيرة GPT-3 175B مقارنة بـ H100 وحتى نتائج أفضل لإصدارات 7 مليار و8 مليار معلمة من Llama2.

بالنسبة للاستدلال، كانت المنافسة أقرب بكثير، وفقًا لشركة إنتل، حيث قدمت الشريحة الجديدة ما بين 95 إلى 170 بالمائة من أداء H100 لنسختين من Llama. على الرغم من أنه بالنسبة لطراز Falcon 180B، فقد حقق Gaudi 3 ميزة تصل إلى أربعة أضعاف. ومن غير المستغرب أن تكون الميزة أقل مقارنة بـ Nvidia H200، بنسبة 80 إلى 110 بالمائة لـ Llama و3.8x لـ Falcon.

تدعي Intel نتائج أكثر دراماتيكية عند قياس كفاءة الطاقة، حيث تتوقع ما يصل إلى 220 بالمائة من قيمة H100 على Llama و230 بالمائة على Falcon.

يقول إيتان ميدينا، مدير العمليات في شركة Habana Labs في إنتل: “يخبرنا عملاؤنا أن ما يجدونه مقيدًا هو توصيل الطاقة الكافية إلى مركز البيانات”.

كانت نتائج كفاءة الطاقة هي الأفضل عندما تم تكليف طلاب LLM بتقديم مخرجات أطول. يعزو مدينا هذه الميزة إلى محركات الرياضيات ذات المصفوفة الكبيرة التي صممها غاودي. هذه 512 بت عبر. تستخدم معماريات أخرى العديد من المحركات الأصغر حجمًا لإجراء نفس الحساب، لكن نسخة غاودي كبيرة الحجم “تحتاج تقريبًا إلى نطاق ترددي أقل للذاكرة لتغذيتها”، كما يقول.

غاودي 3 مقابل بلاكويل

من المتوقع مقارنة المسرعات قبل أن تكون في متناول اليد، ولكن هناك بضع نقاط بيانات للمقارنة، خاصة في الذاكرة وعرض النطاق الترددي للذاكرة. لقد كانت الذاكرة دائمًا مهمة في الذكاء الاصطناعي، ومع انتشار الذكاء الاصطناعي التوليدي ووصول النماذج الشائعة إلى عشرات المليارات من المعلمات في الحجم، أصبحت أكثر أهمية.

كلاهما يستخدم ذاكرة النطاق الترددي العالي (HBM)، وهي عبارة عن كومة من ذاكرة DRAM توضع فوق شريحة التحكم. وفي المسرعات المتطورة، يوجد داخل نفس الحزمة مثل السيليكون المنطقي، ويحيط به من جانبين على الأقل. يستخدم صانعو الرقاقات عبوات متقدمة، مثل جسور السيليكون EMIB من Intel أو الرقاقة على الرقاقة على السيليكون (CoWoS) من TSMC، لتوفير مسار نطاق ترددي عالٍ بين المنطق والذاكرة.

كما يظهر الرسم البياني، يحتوي Gaudi 3 على HBM أكثر من H100، ولكن أقل من H200 أو B200 أو MI300 من AMD. عرض النطاق الترددي للذاكرة الخاص به يتفوق أيضًا على H100. من المحتمل أن تكون ذات أهمية لقدرة غاودي التنافسية السعرية، فهي تستخدم HBM2e الأقل تكلفة مقابل HBM3 أو HBM3e الآخرين، والتي يُعتقد أنها تمثل جزءًا كبيرًا من عشرات الآلاف من الدولارات التي يقال إن المسرعات تباع بها.

نقطة أخرى للمقارنة هي أن Gaudi 3 مصنوع باستخدام تقنية المعالجة N5 الخاصة بـ TSMC (التي تسمى أحيانًا 5 نانومتر). لقد كانت Intel في الأساس بمثابة عقدة معالجة خلف Nvidia لأجيال من Gaudi، لذلك كانت عالقة في مقارنة أحدث شرائحها مع شريحة كانت على الأقل درجة أعلى في سلم قانون مور. مع غاودي 3، هذا الجزء من السباق يضيق قليلاً. تستخدم الشريحة الجديدة نفس العملية مثل H100 وH200. والأكثر من ذلك، بدلاً من الانتقال إلى تقنية 3 نانومتر، فإن المنافس القادم Blackwell يعمل على عملية تسمى N4P. تصف TSMC N4P بأنه ينتمي إلى نفس عائلة 5 نانومتر مثل N5 ولكنه يوفر تعزيزًا للأداء بنسبة 11 بالمائة وكفاءة أفضل بنسبة 22 بالمائة وكثافة أعلى بنسبة 6 بالمائة.

فيما يتعلق بقانون مور، فإن السؤال الكبير هو ما هي التكنولوجيا التي سيستخدمها الجيل القادم من غاودي، الذي يحمل الاسم الرمزي حاليا فالكون شورز. يعتمد المنتج حتى الآن على تقنية TSMC بينما تعمل شركة Intel على تشغيل أعمالها الخاصة بالمسابك. ولكن في العام المقبل ستبدأ إنتل في تقديم تقنية 18A لعملاء المسبك وستستخدم بالفعل 20A داخليًا. تجلب هاتان العقدتان الجيل التالي من تكنولوجيا الترانزستور، صفائح النانو، مع توصيل الطاقة من الجانب الخلفي، وهي مجموعة لا تخطط لها TSMC حتى عام 2026.