تعزيز التعلم يكتشف أخطاء البيانات الصامتة

بالنسبة للرقائق عالية الأداء في مراكز البيانات الضخمة ، يمكن أن تكون الرياضيات هي العدو. بفضل النطاق الهائل للحسابات الجارية في مراكز البيانات الفائقة ، تعمل على مدار الساعة مع ملايين العقد وكميات هائلة من السيليكون ، تظهر الأخطاء غير المألوفة للغاية. إنها ببساطة إحصائيات. لا تظهر أخطاء البيانات “الصامتة” النادرة أثناء عروض مراقبة الجودة التقليدية – حتى عندما تقضي الشركات ساعات في البحث عنها.
هذا الشهر في ندوة IEEE الدولية للموثوقية الفيزيائية في مونتيري ، كاليفورنيا ، وصف مهندسو Intel تقنية تستخدم تعلم التعزيز للكشف عن المزيد من أخطاء البيانات الصامتة بشكل أسرع. تستخدم الشركة طريقة التعلم الآلي لضمان جودة معالجات Xeon الخاصة بها.
يقول مانو شمسا ، المهندس الكهربائي في تشاندلر ، الحرم الجامعي ، إنه عندما يحدث خطأ في مركز البيانات ، يمكن للمشغلين إما نقل عقدة واستبدالها ، أو استخدام النظام المعيب لحوسبة المخاطر المنخفضة. ولكن سيكون من الأفضل بكثير إذا كان يمكن اكتشاف الأخطاء في وقت سابق. من الناحية المثالية ، سيتم القبض عليهم قبل دمج رقاقة في نظام الكمبيوتر ، عندما يكون من الممكن إجراء تصحيحات التصميم أو التصنيع لمنع الأخطاء المتكررة في المستقبل.
“في جهاز كمبيوتر محمول لن تلاحظ أي أخطاء. في مراكز البياناتو مع العقد الكثيفة حقًا ، هناك فرص كبيرة ستتوافق النجوم وسيحدث خطأ “. – مانو شمسا ، إنتل
العثور على هذه العيوب ليس بالأمر السهل. يقول شمسا إن المهندسين كانوا يشعرون بالحيرة من قبلهم لدرجة أنهم مازحوا لدرجة أنهم يجب أن يكونوا بسبب عمل عصبي على مسافة ، وهي عبارة أينشتاين للتشابك الكمي. ولكن لا يوجد شيء مخيف عنهم ، وقد أمضت شمسا سنوات في وصفها. في ورقة مقدمة في نفس المؤتمر العام الماضي ، يوفر فريقه كتالوج كامل لأسباب هذه الأخطاء. معظمها بسبب الاختلافات اللانهائية في التصنيع.
حتى لو كان كل من المليارات من الترانزستورات على كل شريحة وظيفية ، فهي ليست متطابقة تمامًا مع بعضها البعض. يمكن أن يؤدي الاختلافات الدقيقة في كيفية استجابة ترانزستور معين للتغيرات في درجة الحرارة أو الجهد أو التردد ، على سبيل المثال ، إلى خطأ.
من المرجح أن تظهر هذه التفاصيل الدقيقة في مراكز بيانات ضخمة بسبب وتيرة الحوسبة والكمية الهائلة من السيليكون المعنية. “في جهاز كمبيوتر محمول لن تلاحظ أي أخطاء. في مراكز البياناتو مع وجود العقد الكثيفة حقًا ، هناك فرص كبيرة ستتوافق النجوم وسيحدث خطأ “.
لا يمكن أن تظهر بعض الأخطاء إلا بعد تثبيت شريحة في مركز بيانات وتعمل لعدة أشهر. يمكن أن تتسبب الاختلافات الصغيرة في خصائص الترانزستورات في تدهورها بمرور الوقت. أحد هذه الأخطاء الصامتة التي وجدها شامسا مرتبطة بالمقاومة الكهربائية. يمكن أن يتحلل الترانزستور الذي يعمل بشكل صحيح في البداية ، ويجري الاختبارات القياسية للبحث عن السراويل القصيرة ، مع الاستخدام ، بحيث يصبح أكثر مقاومة.
يقول شمسا: “أنت تفكر في أن كل شيء على ما يرام ، ولكن تحته ، الخطأ يسبب قرارًا خاطئًا”. بمرور الوقت ، بفضل ضعف طفيف في ترانزستور واحد ، “واحد بالإضافة إلى واحد يذهب إلى ثلاثة ، بصمت ، حتى ترى التأثير” ، كما يقول شامل.
تبني التقنية الجديدة على مجموعة موجودة من طرق اكتشاف الأخطاء الصامتة ، تسمى اختبارات Eigen. هذه الاختبارات تجعل الشريحة تقوم بمشاكل في الرياضيات الصعبة ، مرارًا وتكرارًا على مدى فترة من الزمن ، على أمل أن تبرز أخطاء صامتة. أنها تنطوي على عمليات على أحجام مختلفة من المصفوفات المملوءة بالبيانات العشوائية.
هناك عدد كبير من اختبارات eigen. إن تشغيلهم جميعًا سيستغرق وقتًا غير عملي. لذلك يستخدم صانعي الرقائق نهجًا عشوائيًا لإنشاء مجموعة يمكن التحكم فيها. هذا يوفر الوقت ، لكنه يترك الأخطاء دون اكتشاف. يقول شامل: “لا يوجد مبدأ لتوجيه اختيار المدخلات”. لقد أراد إيجاد طريقة لتوجيه الاختيار بحيث يمكن لعدد صغير نسبيًا من الاختبارات أن يظهر المزيد من الأخطاء.
استخدم فريق Intel التعلم التعزيز لتطوير اختبارات لجزء من رقائق CPU Xeon التي تؤدي تعليمات المصفوفة باستخدام ما يسمى تعليمات Fuse-Multiply-Add (FMA). يقول شمسا إنهم اختاروا منطقة FMA لأنها تشغل مساحة كبيرة نسبيًا من الشريحة ، مما يجعلها أكثر عرضة للأخطاء الصامتة المحتملة – أكثر من المشاكل ، والمزيد من المشاكل. ما هو أكثر من ذلك ، يمكن أن تولد العيوب في هذا الجزء من الشريحة الحقول الكهرومغناطيسية التي تؤثر على أجزاء أخرى من النظام. ولأن FMA يتم إيقاف تشغيله لتوفير الطاقة عندما لا يكون قيد الاستخدام ، فإن اختباره ينطوي على تشغيله بشكل متكرر لأعلى ولأسفل ، مما يحتمل أن ينشط العيوب الخفية التي لن تظهر في الاختبارات القياسية.
خلال كل خطوة من خطوة التدريب ، يختار برنامج التعلم التعزيز اختبارات مختلفة للرقاقة المعيبة المحتملة. يتم التعامل مع كل خطأ يكتشفه كمكافأة ، ومع مرور الوقت ، يتعلم الوكيل تحديد الاختبارات التي تزيد من فرص اكتشاف الأخطاء. بعد حوالي 500 دورة اختبار ، تعلمت الخوارزمية التي مجموعة من اختبارات eigen تحسين معدل اكتشاف الأخطاء لمنطقة FMA.
يقول شمسا إن هذه التقنية أكثر عرضة لخمس مرات لاكتشاف عيب من اختبار eigen العشوائي. اختبارات eigen مفتوحة المصدر ، جزء من OpendCdiag لمراكز البيانات. لذلك يجب أن يكون الآخرون قادرين على استخدام التعلم التعزيز لتعديل هذه الاختبارات لأنظمتهم الخاصة ، كما يقول.
إلى حد ما ، تعتبر العيوب الصامتة والخفية جزءًا لا مفر منه من عملية التصنيع – لا يزال الكمال والتوحيد بعيدًا عن متناول اليد. لكن شمسا تقول إن إنتل تحاول استخدام هذا البحث لتعلم العثور على السلائف التي تؤدي إلى أخطاء بيانات صامتة بشكل أسرع. إنه يحقق في ما إذا كانت هناك أعلام حمراء يمكن أن توفر تحذيرًا مبكرًا للأخطاء المستقبلية ، وما إذا كان من الممكن تغيير وصفات الرقائق أو التصميمات لإدارتها.
من مقالات موقعك
المقالات ذات الصلة حول الويب