تعلن MLCommons عن أول معيار لها لسلامة الذكاء الاصطناعي

إحدى العبارات الأكثر مبالغة في اقتباسات خبير الإدارة بيتر دراكر هي “ما يتم قياسه يتحسن”. ولكن تم المبالغة في الاقتباس لسبب ما: هذا صحيح.

ولا يوجد مكان أكثر صدقًا من التكنولوجيا على مدى الخمسين عامًا الماضية. قانون مور – الذي يتنبأ بأن عدد الترانزستورات (وبالتالي القدرة الحسابية) في الشريحة سوف يتضاعف كل 24 شهرًا – أصبح نبوءة ذاتية التحقق ونجم الشمال للنظام البيئي بأكمله. ولأن المهندسين قاموا بقياس كل جيل من تكنولوجيا تصنيع الرقائق الجديدة بعناية، فقد تمكنوا من اختيار التقنيات التي من شأنها أن تتحرك نحو أهداف الحوسبة الأسرع والأكثر قدرة. وقد نجح الأمر: لقد نمت القوة الحاسوبية، وبشكل مثير للإعجاب، القدرة الحاسوبية لكل واط أو لكل دولار، بشكل كبير في العقود الخمسة الماضية. تعد أحدث الهواتف الذكية أقوى من أسرع أجهزة الكمبيوتر العملاقة منذ عام 2000.

ومع ذلك، فإن قياس الأداء لا يقتصر على الرقائق. يتم قياس جميع أجزاء أنظمة الحوسبة لدينا اليوم، أي مقارنتها بمكونات مماثلة بطريقة خاضعة للرقابة، مع تقييمات كمية. تساعد هذه المعايير في دفع عجلة الابتكار.

وسوف نعرف.

باعتبارنا روادًا في مجال الذكاء الاصطناعي، من الصناعة والأوساط الأكاديمية، فإننا نبني ونقدم معايير الأداء الأكثر استخدامًا لأنظمة الذكاء الاصطناعي في العالم. MLCommons هو اتحاد اجتمع معتقدًا أن القياس الأفضل لأنظمة الذكاء الاصطناعي سيؤدي إلى التحسين. منذ عام 2018، قمنا بتطوير معايير أداء للأنظمة التي أظهرت تحسينات بأكثر من 50 ضعفًا في سرعة التدريب على الذكاء الاصطناعي. في عام 2023، أطلقنا أول معيار للأداء لنماذج اللغات الكبيرة (LLMs)، لقياس الوقت الذي يستغرقه تدريب النموذج على مستوى جودة معين؛ وفي غضون 5 أشهر، شهدنا نتائج متكررة لبرامج ماجستير إدارة الأعمال التي أدت إلى تحسين أدائها بما يقرب من ثلاثة أضعاف. ببساطة، يمكن للمعايير المفتوحة الجيدة أن تدفع الصناعة بأكملها إلى الأمام.

نحن بحاجة إلى معايير مرجعية لدفع التقدم في مجال سلامة الذكاء الاصطناعي

حتى مع تسارع أداء أنظمة الذكاء الاصطناعي إلى الأمام، فقد شهدنا قلقًا متزايدًا بشأن سلامة الذكاء الاصطناعي. في حين أن سلامة الذكاء الاصطناعي تعني أشياء مختلفة لأشخاص مختلفين، فإننا نعرّفها على أنها منع أنظمة الذكاء الاصطناعي من الخلل أو إساءة استخدامها بطرق ضارة. على سبيل المثال، يمكن إساءة استخدام أنظمة الذكاء الاصطناعي التي لا تحتوي على ضمانات لدعم النشاط الإجرامي مثل التصيد الاحتيالي أو إنشاء مواد الاعتداء الجنسي على الأطفال، أو يمكن أن تزيد من انتشار المعلومات الخاطئة أو المحتوى الذي يحض على الكراهية. ومن أجل تحقيق الفوائد المحتملة للذكاء الاصطناعي مع تقليل هذه الأضرار، نحتاج إلى دفع التحسينات في مجال السلامة جنبًا إلى جنب مع التحسينات في القدرات.

نحن نؤمن أنه إذا تم قياس أنظمة الذكاء الاصطناعي مقابل أهداف السلامة المشتركة، فإن أنظمة الذكاء الاصطناعي هذه ستصبح أكثر أمانًا بمرور الوقت. ومع ذلك، فإن كيفية تقييم مخاطر سلامة الذكاء الاصطناعي بشكل قوي وشامل – وكذلك تتبعها والتخفيف منها – تمثل مشكلة مفتوحة لمجتمع الذكاء الاصطناعي.

يمثل قياس السلامة تحديًا بسبب الطرق العديدة المختلفة التي تستخدم بها نماذج الذكاء الاصطناعي والجوانب العديدة التي تحتاج إلى تقييم. والسلامة بطبيعتها ذاتية وسياقية ومتنازع عليها – على عكس القياس الموضوعي لسرعة الأجهزة، لا يوجد مقياس واحد يتفق عليه جميع أصحاب المصلحة لجميع حالات الاستخدام. غالبًا ما يعتمد الاختبار والمقاييس المطلوبة على حالة الاستخدام. على سبيل المثال، المخاطر التي تصاحب طلب شخص بالغ للحصول على المشورة المالية تختلف كثيرًا عن مخاطر طفل يطلب المساعدة في كتابة قصة. إن تحديد “مفاهيم السلامة” يشكل التحدي الرئيسي في تصميم معايير موثوقة عبر المناطق والثقافات، ولقد اتخذنا بالفعل الخطوات الأولى نحو تحديد تصنيف موحد للأضرار.

وهناك مشكلة أخرى تتمثل في أن المعايير يمكن أن تصبح بسرعة غير ذات صلة إذا لم يتم تحديثها، وهو ما يمثل تحديًا لسلامة الذكاء الاصطناعي نظرًا لمدى سرعة ظهور المخاطر الجديدة وتحسن قدرات النموذج. يمكن للنماذج أيضًا أن “تفرط في التناسب”: فهي تؤدي أداءً جيدًا فيما يتعلق بالبيانات المعيارية التي تستخدمها للتدريب، ولكنها تؤدي أداءً سيئًا عند تقديمها مع بيانات مختلفة، مثل البيانات التي تواجهها في النشر الحقيقي. يمكن أن تصبح البيانات المعيارية (في كثير من الأحيان عن طريق الخطأ) جزءًا من بيانات تدريب النماذج، مما يعرض صحة المعيار للخطر.

أول معيار للسلامة يعتمد على الذكاء الاصطناعي: التفاصيل

للمساعدة في حل هذه المشكلات، شرعنا في إنشاء مجموعة من المعايير لسلامة الذكاء الاصطناعي. ولحسن الحظ، فإننا لا نبدأ من الصفر، بل يمكننا الاعتماد على المعرفة من الجهود الأكاديمية والخاصة الأخرى التي جاءت من قبل. من خلال الجمع بين أفضل الممارسات في سياق مجتمع واسع ومنظمة غير ربحية مرجعية مثبتة، نأمل في إنشاء نهج قياسي موثوق به على نطاق واسع ويتم الحفاظ عليه وتحسينه بشكل موثوق لمواكبة هذا المجال.

يركز معيارنا الأول لسلامة الذكاء الاصطناعي على نماذج اللغات الكبيرة. لقد أصدرنا الإصدار 0.5 من إثبات المفهوم (POC) اليوم، 16 أبريل 2024. ويؤكد إثبات المفهوم (POC) هذا على النهج الذي نتبعه في بناء مجموعة معايير السلامة المعتمدة على الذكاء الاصطناعي الإصدار 1.0، والتي سيتم إطلاقها في وقت لاحق من هذا العام.

ماذا يغطي المعيار؟ قررنا أولاً إنشاء معيار أمان الذكاء الاصطناعي لمجالات LLM لأن اللغة هي الطريقة الأكثر استخدامًا لنماذج الذكاء الاصطناعي. نهجنا متجذر في عمل الممارسين، ويستفيد بشكل مباشر من العلوم الاجتماعية. بالنسبة لكل معيار، سنحدد النطاق وحالة الاستخدام والشخصية (الشخصيات) وفئات المخاطر ذات الصلة. في البداية، نحن نستخدم حالة استخدام عامة لمستخدم يتفاعل مع مساعد محادثة للأغراض العامة، ويتحدث باللغة الإنجليزية ويعيش في أوروبا الغربية أو أمريكا الشمالية.

هناك ثلاثة أشخاص: المستخدمون الضارون، والمستخدمون الضعفاء مثل الأطفال، والمستخدمون النموذجيون، الذين ليسوا ضارين أو معرضين للخطر. على الرغم من أننا ندرك أن العديد من الأشخاص يتحدثون لغات أخرى ويعيشون في أجزاء أخرى من العالم، فقد اخترنا حالة الاستخدام هذه بشكل عملي نظرًا لانتشار المواد الموجودة. ويعني هذا النهج أننا قادرون على إجراء تقييمات مدروسة لمخاطر السلامة، بما يعكس الطرق المحتملة التي تستخدم بها النماذج فعلياً في العالم الحقيقي. وبمرور الوقت، سنقوم بتوسيع عدد حالات الاستخدام واللغات والشخصيات، بالإضافة إلى فئات المخاطر وعدد المطالبات.

ما الذي يختبره المعيار؟ يغطي المعيار مجموعة من فئات المخاطر، بما في ذلك جرائم العنف وإساءة معاملة الأطفال واستغلالهم والكراهية. بالنسبة لكل فئة من فئات المخاطر، نقوم باختبار أنواع مختلفة من التفاعلات حيث يمكن أن تؤدي استجابات النماذج إلى خطر حدوث ضرر. على سبيل المثال، نختبر كيفية استجابة النماذج للمستخدمين الذين يخبرونهم بأنهم سيصنعون قنبلة – وأيضًا المستخدمين الذين يطلبون النصيحة حول كيفية صنع قنبلة، وما إذا كان ينبغي عليهم صنع قنبلة، أو تقديم أعذار في حالة القبض عليهم. ويعني هذا النهج المنظم أنه يمكننا إجراء اختبار على نطاق أوسع لكيفية قيام النماذج بإحداث أو زيادة خطر الضرر.

كيف نختبر النماذج فعليًا؟ ومن منظور عملي، نقوم باختبار النماذج من خلال تغذيتها بمطالبات مستهدفة، وجمع استجاباتها، ثم تقييم ما إذا كانت آمنة أم غير آمنة. إن التقييمات البشرية عالية الجودة باهظة الثمن، وغالبًا ما تكلف عشرات الدولارات لكل استجابة – وقد تحتوي مجموعة الاختبار الشاملة على عشرات الآلاف من المطالبات! إن نظام التصنيف البسيط القائم على الكلمات الرئيسية أو القواعد لتقييم الاستجابات هو نظام ميسور التكلفة وقابل للتطوير، ولكنه ليس كافيًا عندما تكون استجابات النماذج معقدة أو غامضة أو غير عادية. وبدلاً من ذلك، نعمل على تطوير نظام يجمع بين “نماذج التقييم” – نماذج الذكاء الاصطناعي المتخصصة التي تقيم الاستجابات – مع التقييم البشري المستهدف للتحقق من موثوقية هذه النماذج وزيادتها.

كيف أنشأنا المطالبات؟ بالنسبة للإصدار 0.5، قمنا بإنشاء مطالبات بسيطة وواضحة تتوافق مع فئات المخاطر الخاصة بالمعيار. يسهل هذا النهج اختبار المخاطر ويساعد في الكشف عن مخاطر السلامة الحرجة في النماذج. نحن نعمل مع الخبراء ومجموعات المجتمع المدني والممارسين لإنشاء مطالبات أكثر تحديًا ودقة ومتخصصة، بالإضافة إلى استكشاف المنهجيات التي من شأنها أن تسمح بإجراء المزيد من التقييم السياقي إلى جانب التقييمات. نحن نقوم أيضًا بدمج المطالبات العدائية التي يولدها الذكاء الاصطناعي لتكمل تلك التي يولدها الإنسان.

كيف نقيم النماذج؟ منذ البداية، اتفقنا على أن نتائج معايير السلامة لدينا يجب أن تكون مفهومة للجميع. وهذا يعني أن نتائجنا يجب أن توفر إشارة مفيدة للخبراء غير التقنيين مثل صانعي السياسات والمنظمين والباحثين ومجموعات المجتمع المدني الذين يحتاجون إلى تقييم مخاطر سلامة النماذج، وكذلك مساعدة الخبراء الفنيين على اتخاذ قرارات مستنيرة بشأن النماذج. المخاطر واتخاذ الخطوات اللازمة للتخفيف منها. ولذلك، فإننا ننتج تقارير تقييم تحتوي على “أهرامات المعلومات”. توجد في الأعلى درجة واحدة توفر إشارة بسيطة لسلامة النظام بشكل عام، مثل تصنيف فيلم أو درجة سلامة السيارة. يوفر المستوى التالي درجات النظام لفئات مخاطر معينة. يقدم المستوى السفلي معلومات مفصلة عن الاختبارات ومصدر مجموعة الاختبار والمطالبات والاستجابات التمثيلية.

تتطلب سلامة الذكاء الاصطناعي وجود نظام بيئي

إن مجموعة عمل سلامة الذكاء الاصطناعي في MLCommons عبارة عن اجتماع مفتوح للخبراء والممارسين والباحثين – ونحن ندعو كل من يعمل في هذا المجال للانضمام إلى مجتمعنا المتنامي. نحن نهدف إلى اتخاذ القرارات من خلال الإجماع ونرحب بوجهات النظر المتنوعة حول سلامة الذكاء الاصطناعي.

نحن نؤمن إيمانًا راسخًا بأنه لكي تصل أدوات الذكاء الاصطناعي إلى مرحلة النضج الكامل والاعتماد على نطاق واسع، نحتاج إلى طرق قابلة للتطوير وجديرة بالثقة لضمان أنها آمنة. نحن بحاجة إلى نظام بيئي آمن للذكاء الاصطناعي، بما في ذلك اكتشاف الباحثين لمشاكل جديدة وحلول جديدة، وخبراء اختبار داخليين وموظفين لتوسيع المعايير لحالات الاستخدام المتخصصة، ومدققين للتحقق من الامتثال، وهيئات المعايير وصانعي السياسات لتشكيل الاتجاهات العامة. إن الآليات التي يتم تنفيذها بعناية، مثل نماذج الشهادات الموجودة في الصناعات الناضجة الأخرى، ستساعد في اتخاذ قرارات مستنيرة بشأن الذكاء الاصطناعي. في النهاية، نأمل أن توفر المعايير التي نبنيها الأساس لازدهار النظام البيئي لسلامة الذكاء الاصطناعي.

ساهم أعضاء مجموعة عمل سلامة الذكاء الاصطناعي في MLCommons التاليين في كتابة هذا المقال:

أحمد م. أحمد، جامعة ستانفورد، إيلي الحجار، مؤسسة RAND
كيرت بولكر، MLCommons
سيميون كامبوس، الذكاء الاصطناعي الأكثر أمانًا
كانيو تشن، معهد إلينوي للتكنولوجيا
راميش تشوكا، إنتل
زاكاري ديلبيير كوديرت، ميتا
تران دزونج، إنتل
إيان أيزنبرغ، عقيدة الذكاء الاصطناعي
مورالي إيماني، مختبر أرجون الوطني
جيمس إزيك، شركة كوالكوم تكنولوجيز
ماريسا فيرارا بوسطن، رينس AI
هيذر فراس، CSET (مركز الأمن والتكنولوجيا الناشئة)
كينيث فريكلاس، استراتيجية توراكو
بريان فولر، ميتا
غريغوري فورسين، المعرفة، الضبط
أجاستيا جانجافارابو، إثريفا
جيمس جيلي، الذكاء الاصطناعي الأكثر أمانًا
جيمس جويل، شركة كوالكوم تكنولوجيز
رومان جولد، الجمعية الإسرائيلية لأخلاقيات الذكاء الاصطناعي
ويبكي هوتيري، سوني AI
بافيا كيلخورا، مختبر لورانس ليفرمور الوطني
ديفيد كانتر، MLCommons
كريس كنوتس، الأرض المشتركة
باربرا كوريكي، MLCommons
شاشي كومار، إنتل
سريجان كومار، لايثوز آي
وي لي، إنتل
بو لي، جامعة شيكاغو
بيرسي ليانغ، جامعة ستانفورد
زيي لياو، جامعة ولاية أوهايو
ريتشارد ليو، مختبرات هيز
سارة لوغر، تقارير المستهلك
كلفن مانيكي، شركة بيستك سيستمز
جوزيف مارفن إمبريال، جامعة باث، الجامعة الوطنية الفلبينية
بيتر ماتسون، Google، MLCommons، الرئيس المشارك لمجموعة عمل سلامة الذكاء الاصطناعي
فيريندرا ميهتا، جامعة ترينتو
شافي محمد، Project Humanit.ai
بروتيك موخوبادهياي، Protecto.ai
لما نحمان، إنتل
بسميرا نوشي، أبحاث مايكروسوفت
لويس أوالا، دوتفوتون
إيدا أوكور، إنتل
برافين باريتوش
فروغ بورسابزي، مايكروسوفت
إليونورا بريساني، ميتا
بول روتجر، جامعة بوكوني
داميان روك، أدفاي
سوراف ساهي، إنتل
تيم سانتوس، جرافكور
أليس شويناور سيباج، كوهير
فامسي سيستلا، نايكي
ليونارد تانغ، مختبرات هايز
غانيش تياجالي، NStarx AI
جواكين فانشورين، TU Eindhoven، الرئيس المشارك لمجموعة عمل AI Safety
بيرتي فيدجن، MLCommons
ريبيكا فايس، MLCommons
أدينا ويليامز، فير، ميتا
كارول جان وو، فير، ميتا
بونام ياداف، جامعة يورك، المملكة المتحدة
وينهوي تشانغ، LFAI والبيانات
فيدور جدانوف، نيبيوس آي