الرقائق العملاقة تمنح أجهزة الكمبيوتر العملاقة فرصة للفوز بأموالها
مع استمرار تزايد حجم أجهزة الكمبيوتر العملاقة الكبيرة،تتخذ شركة Cerebras ومقرها سانيفيل بولاية كاليفورنيا نهجا مختلفا. فبدلاً من ربط المزيد والمزيد من وحدات معالجة الرسومات معًا، قامت الشركة بضغط أكبر عدد ممكن من المعالجات على رقاقة واحدة عملاقة. الميزة الرئيسية هي في التوصيلات البينية – من خلال توصيل المعالجات معًا على الرقاقة، تتجاوز الرقاقة ذات حجم الرقاقة العديد من خسائر السرعة الحسابيةالتي تأتي من تحدث العديد من وحدات معالجة الرسومات مع بعضها البعض، بالإضافة إلى الخسائر الناجمة عن تحميل البيانات من الذاكرة وإليها.
الآن، تتباهى شركة Cerebras بمزايا رقائقها ذات حجم الرقاقة في نتيجتين منفصلتين لكن مرتبطتين. أولاً، أثبتت الشركة أن الجيل الثاني من محركها على نطاق الرقاقة، WSE-2،كان أسرع بكثير من أسرع حاسوب عملاق في العالم، فرونتير، في حسابات الديناميكيات الجزيئية – وهو المجال الذي يكمن وراء طي البروتين، ونمذجة الضرر الإشعاعي في المفاعلات النووية، ومشكلات أخرى في علوم المواد. ثانيًا، بالتعاون مع شركة تحسين نماذج التعلم الآلي Neural Magic، أثبتت شركة Cerebras أن نموذج اللغة الكبير المتناثر يمكنه إجراء الاستدلال بثلث تكلفة الطاقة للنموذج الكامل دون فقدان أي دقة. على الرغم من أن النتائج كانت في مجالات مختلفة إلى حد كبير، إلا أنها كانت ممكنة بسبب الترابط والوصول السريع إلى الذاكرة الذي أتاحته أجهزة Cerebras.
السرعة عبر العالم الجزيئي
يقول أندرو فيلدمان، الرئيس التنفيذي والمؤسس المشارك لشركة Cerebras: “تخيل أن هناك خياطًا ويستطيع أن يصنع بدلة في غضون أسبوع”. “لقد اشترى الخياط المجاور، ويمكنها أيضًا أن تصنع بدلة في غضون أسبوع، لكنهما لا يستطيعان العمل معًا. الآن، يمكنهم الآن صنع بدلتين في الأسبوع. لكن ما لا يمكنهم فعله هو صنع بدلة في ثلاثة أيام ونصف.
وفقًا لفيلدمان، فإن وحدات معالجة الرسوميات تشبه الخياطين الذين لا يمكنهم العمل معًا، على الأقل عندما يتعلق الأمر ببعض المشكلات في الديناميكيات الجزيئية. كلما قمت بتوصيل المزيد والمزيد من وحدات معالجة الرسومات، يمكنها محاكاة المزيد من الذرات في نفس الوقت، لكنها لا تستطيع محاكاة نفس العدد من الذرات بسرعة أكبر.
ومع ذلك، فإن محرك Cerebras الذي يستخدم على نطاق الرقاقة، يتكيف بطريقة مختلفة جذريًا. ونظرًا لأن الرقائق ليست محدودة بعرض النطاق الترددي المترابط، فيمكنها التواصل بسرعة، مثل خياطين يتعاونان بشكل مثالي لصنع بدلة في ثلاثة أيام ونصف.
“من الصعب إنشاء مواد تتمتع بالخصائص الصحيحة، ولها عمر طويل وقوة كافية ولا تنكسر.” —توماس أوبلستروب، مختبر لورانس ليفرمور الوطني
ولإثبات هذه الميزة، قام الفريق بمحاكاة 800 ألف ذرة تتفاعل مع بعضها البعض، وحساب التفاعلات بزيادات قدرها فمتوثانية واحدة في كل مرة. استغرقت كل خطوة ميكروثانية فقط لحسابها على أجهزتهم. وعلى الرغم من أن هذا لا يزال أبطأ بمقدار 9 مرات من التفاعلات الفعلية، إلا أنه كان أيضًا أسرع بـ 179 مرة من الكمبيوتر العملاق Frontier. أدى هذا الإنجاز فعليًا إلى خفض قيمة العمليات الحسابية لمدة عام إلى يومين فقط.
تم إنجاز هذا العمل بالتعاون مع مختبرات سانديا ولورنس ليفرمور ولوس ألاموس الوطنية. يقول توماس أوبلستروب، العالم في مختبر لورانس ليفرمور الوطني، إن هذا التقدم يجعل من الممكن محاكاة التفاعلات الجزيئية التي لم يكن من الممكن الوصول إليها في السابق.
يقول أوبلستروب إن هذا سيكون مفيدًا بشكل خاص لفهم استقرار المواد على المدى الطويل في الظروف القاسية. ويقول: “عندما تقوم ببناء آلات متقدمة تعمل في درجات حرارة عالية، مثل المحركات النفاثة، أو المفاعلات النووية، أو مفاعلات الاندماج النووي لإنتاج الطاقة، فأنت بحاجة إلى مواد يمكنها تحمل درجات الحرارة المرتفعة هذه والبيئات القاسية للغاية. من الصعب إنشاء مواد تتمتع بالخصائص الصحيحة، ولها عمر طويل وقوة كافية ولا تنكسر.” يقول أوبلستروب إن القدرة على محاكاة سلوك المواد المرشحة لفترة أطول ستكون أمرًا حاسمًا في عملية تصميم المواد وتطويرها.
يقول إيليا شارابوف، المهندس الرئيسي في شركة سيريبراس، إن الشركة تتطلع إلى توسيع تطبيقات محركها على نطاق الرقاقة لتشمل فئة أكبر من المشاكل، بما في ذلك محاكاة الديناميكيات الجزيئية للعمليات البيولوجية ومحاكاة تدفق الهواء حول السيارات أو الطائرات.
تقليص حجم نماذج اللغات الكبيرة
نظرًا لأن النماذج اللغوية الكبيرة (LLMs) أصبحت أكثر شيوعًا، فإن تكاليف الطاقة لاستخدامها بدأت تطغى على تكاليف التدريب – ربما بعامل يصل إلى عشرة في بعض التقديرات. يقول جيمس وانج، مدير تسويق المنتجات في شركة Cerebras: “يعد الاستدلال عبء العمل الأساسي للذكاء الاصطناعي اليوم، لأن الجميع يستخدمون ChatGPT، كما أن تشغيله مكلف للغاية، خاصة على نطاق واسع”.
إحدى الطرق لتقليل تكلفة الطاقة (وسرعة) الاستدلال هي من خلال التناثر، وهو في الأساس تسخير قوة الأصفار. تتكون LLMs من عدد كبير من المعلمات. على سبيل المثال، يحتوي نموذج Llama مفتوح المصدر الذي تستخدمه شركة Cerebras على 7 مليار معلمة. أثناء الاستدلال، يتم استخدام كل من هذه المعلمات لتحليل البيانات المدخلة وإخراج المخرجات. ومع ذلك، إذا كان جزء كبير من هذه المعلمات عبارة عن أصفار، فيمكن تخطيها أثناء الحساب، مما يوفر الوقت والطاقة.
المشكلة هي أن تخطي معلمات معينة يصعب القيام به على وحدة معالجة الرسومات. القراءة من الذاكرة على وحدة معالجة الرسومات (GPU) بطيئة نسبيًا، لأنها مصممة لقراءة الذاكرة على شكل قطع، مما يعني استيعاب مجموعات من المعلمات في المرة الواحدة. لا يسمح هذا لوحدات معالجة الرسومات بتخطي الأصفار المتناثرة بشكل عشوائي في مجموعة المعلمات. قدم فيلدمان، الرئيس التنفيذي لشركة Cerebras، تشبيهًا آخر: “إنه يعادل الشاحن، الذي يريد فقط نقل الأشياء على المنصات لأنه لا يريد فحص كل صندوق. النطاق الترددي للذاكرة هو القدرة على فحص كل مربع للتأكد من أنه ليس فارغًا. فإذا كان فارغًا، فضعه جانبًا ثم لا تحركه».
“هناك مليون نواة في حزمة ضيقة للغاية، مما يعني أن النوى لديها زمن استجابة منخفض جدًا، وتفاعلات ذات نطاق ترددي مرتفع فيما بينها.” – ايليا شارابوف، سيريبراس
تم تجهيز بعض وحدات معالجة الرسومات لنوع معين من التباين، يسمى 2:4، حيث يكون اثنان بالضبط من كل أربعة معلمات مخزنة على التوالي أصفارًا. تحتوي وحدات معالجة الرسومات الحديثة على تيرابايت في الثانية من عرض النطاق الترددي للذاكرة. يبلغ عرض النطاق الترددي للذاكرة في WSE-2 الخاص بـ Cerebras أكثر من ألف مرة، بمعدل 20 بيتابايت في الثانية. وهذا يسمح بتسخير التشتت غير المنظم، أي الباحثينيمكن التخلص من المعلمات حسب الحاجة، أينما كانت في النموذج، والتحقق من كل واحدة منها بسرعة أثناء الحساب. يقول وانغ: “تم تصميم أجهزتنا منذ اليوم الأول لدعم التشتت غير المنظم”.
حتى مع وجود الأجهزة المناسبة، يؤدي استبعاد العديد من معلمات النموذج إلى نموذج أسوأ. لكن الفريق المشترك من Neural Magic وCerebras توصل إلى طريقة لاستعادة الدقة الكاملة للنموذج الأصلي. وبعد خفض 70% من المعلمات إلى الصفر، أجرى الفريق مرحلتين إضافيتين من التدريب لمنح المعلمات غير الصفرية فرصة للتعويض عن الأصفار الجديدة.
يستخدم هذا التدريب الإضافي حوالي 7 بالمائة من طاقة التدريب الأصلية، ووجدت الشركات أنها تستعيد دقة النموذج الكاملة من خلال هذا التدريب. يستغرق النموذج الأصغر ثلث الوقت والطاقة أثناء الاستدلال باعتباره النموذج الأصلي الكامل. يقول شارابوف: “ما يجعل هذه التطبيقات الجديدة ممكنة في أجهزتنا، هو أن هناك مليون نواة في حزمة ضيقة للغاية، مما يعني أن النوى لديها زمن استجابة منخفض للغاية، وتفاعلات ذات نطاق ترددي مرتفع فيما بينها.”
من مقالات موقعك
مقالات ذات صلة حول الويب