شبكات كالموجوروف-أرنولد العصبية تغير طريقة عمل الذكاء الاصطناعي
الشبكات العصبية الاصطناعية – الخوارزميات المستوحاة من الأدمغة البيولوجية – هي في قلب الذكاء الاصطناعي الحديث، خلف كل من برامج الدردشة الآلية ومولدات الصور. لكن مع كثرة خلاياها العصبية، يمكن أن تكون بمثابة صناديق سوداء، وأعمالها الداخلية غير قابلة للتفسير للمستخدمين.
لقد ابتكر الباحثون الآن طريقة جديدة بشكل أساسي لإنشاء شبكات عصبية تتفوق في بعض النواحي على الأنظمة التقليدية. يقول المؤيدون إن هذه الشبكات الجديدة أكثر قابلية للتفسير وأكثر دقة أيضًا، حتى عندما تكون أصغر حجمًا. يقول مطوروها إن الطريقة التي يتعلمون بها تمثيل بيانات الفيزياء بإيجاز يمكن أن تساعد العلماء على اكتشاف قوانين جديدة للطبيعة.
“إنه لأمر رائع أن نرى أن هناك بنية جديدة على الطاولة.” — بريس مينارد، جامعة جونز هوبكنز
على مدى العقد الماضي أو أكثر، قام المهندسون في الغالب بتعديل تصميمات الشبكات العصبية من خلال التجربة والخطأ، كما يقول بريس مينارد، عالم الفيزياء في جامعة جونز هوبكنز الذي يدرس كيفية عمل الشبكات العصبية ولكنه لم يشارك في العمل الجديد، الذي تم نشره على موقع arXiv في أبريل. يقول: “إنه لأمر رائع أن نرى أن هناك بنية جديدة مطروحة على الطاولة”، خاصة تلك المصممة من المبادئ الأولى.
إحدى طرق التفكير في الشبكات العصبية هي من خلال القياس مع الخلايا العصبية، أو العقد، والمشابك العصبية، أو الاتصالات بين تلك العقد. في الشبكات العصبية التقليدية، التي تسمى الإدراك الحسي متعدد الطبقات (MLPs)، يتعلم كل مشبك عصبي وزنًا، وهو الرقم الذي يحدد مدى قوة الاتصال بين تلك الخلايا العصبية اثنين. يتم ترتيب الخلايا العصبية في طبقات، بحيث تتلقى الخلية العصبية من طبقة واحدة إشارات الإدخال من الخلايا العصبية في الطبقة السابقة، مرجحة بقوة اتصالها المتشابك. تقوم كل خلية عصبية بعد ذلك بتطبيق وظيفة بسيطة على مجموع مدخلاتها، تسمى وظيفة التنشيط.
في الشبكات العصبية التقليدية، تسمى أحيانًا الإدراك الحسي متعدد الطبقات [left]يتعلم كل مشبك عصبي رقمًا يسمى الوزن، وتقوم كل خلية عصبية بتطبيق وظيفة بسيطة على مجموع مدخلاتها. في عمارة كولموجوروف-أرنولد الجديدة [right]يتعلم كل مشبك عصبي وظيفة ما، وتقوم الخلايا العصبية بجمع مخرجات تلك الوظائف.معهد NSF للذكاء الاصطناعي والتفاعلات الأساسية
في البنية الجديدة، تلعب المشابك العصبية دورًا أكثر تعقيدًا. بدلا من مجرد التعلم مدى قوة العلاقة بين خليتين عصبيتين هي أنهما يتعلمان طبيعة كاملة من هذا الاتصال – الوظيفة التي تقوم بتعيين الإدخال إلى الإخراج. على عكس وظيفة التنشيط التي تستخدمها الخلايا العصبية في البنية التقليدية، يمكن أن تكون هذه الوظيفة أكثر تعقيدًا – في الواقع عبارة عن “خط” أو مجموعة من عدة وظائف – وتختلف في كل حالة. ومن ناحية أخرى، تصبح الخلايا العصبية أبسط، فهي تجمع فقط مخرجات جميع نقاط الاشتباك العصبي السابقة. تُسمى الشبكات الجديدة شبكات كولموجوروف-أرنولد (KANs)، على اسم اثنين من علماء الرياضيات الذين درسوا كيفية دمج الوظائف. والفكرة هي أن شبكات KAN ستوفر قدرًا أكبر من المرونة عند تعلم تمثيل البيانات، مع استخدام عدد أقل من المعلمات المستفادة.
“إنها مثل الحياة الغريبة التي تنظر إلى الأشياء من منظور مختلف ولكنها أيضًا مفهومة نوعًا ما للبشر.” —زيمينج ليو، معهد ماساتشوستس للتكنولوجيا
اختبر الباحثون شبكات KAN الخاصة بهم في مهام علمية بسيطة نسبيًا. وفي بعض التجارب، أخذوا قوانين فيزيائية بسيطة، مثل السرعة التي يمر بها جسمان لهما سرعة نسبية. استخدموا هذه المعادلات لإنشاء نقاط بيانات المدخلات والمخرجات، ثم قاموا، لكل وظيفة فيزيائية، بتدريب شبكة على بعض البيانات واختبارها على الباقي. لقد وجدوا أن زيادة حجم شبكات KAN تعمل على تحسين أدائها بمعدل أسرع من زيادة حجم شبكات MLP. عند حل المعادلات التفاضلية الجزئية، كان KAN أكثر دقة بـ 100 مرة من MLP الذي يحتوي على 100 مرة من المعلمات.
وفي تجربة أخرى، قاموا بتدريب الشبكات على التنبؤ بسمة واحدة للعقد الطوبولوجية، تسمى توقيعها، بناءً على سمات أخرى للعقد. حقق MLP دقة اختبار بنسبة 78 بالمائة باستخدام حوالي 300000 معلمة، بينما حقق KAN دقة اختبار بنسبة 81.6 بالمائة باستخدام حوالي 200 معلمة فقط.
علاوة على ذلك، يمكن للباحثين رسم خريطة بصرية لشبكات KAN وإلقاء نظرة على أشكال وظائف التنشيط، بالإضافة إلى أهمية كل اتصال. يمكنهم إما يدويًا أو تلقائيًا تقليم الاتصالات الضعيفة واستبدال بعض وظائف التنشيط بوظائف أبسط، مثل الوظائف الجيبية أو الأسية. ثم يمكنهم تلخيص شبكة KAN بأكملها في وظيفة بديهية من سطر واحد (بما في ذلك جميع وظائف تنشيط المكونات)، وفي بعض الحالات إعادة بناء الوظيفة الفيزيائية التي أنشأت مجموعة البيانات بشكل مثالي.
يقول زيمينج ليو، عالم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا، والمؤلف الأول للدراسة: “في المستقبل، نأمل أن تصبح أداة مفيدة للبحث العلمي اليومي”. “نظرًا لمجموعة بيانات لا نعرف كيفية تفسيرها، فإننا نرميها فقط إلى شبكة KAN، ويمكنها إنشاء بعض الفرضيات لك. أنت فقط تحدق في الدماغ [the KAN diagram] ويمكنك حتى إجراء عملية جراحية لذلك إذا كنت تريد ذلك. قد تحصل على وظيفة مرتبة. “إنها مثل الحياة الغريبة التي تنظر إلى الأشياء من منظور مختلف ولكنها أيضًا مفهومة نوعًا ما للبشر.”
وقد استشهدت العشرات من الأوراق بالفعل بطبعة KAN الأولية. يقول ألكسندر بودنر، وهو طالب جامعي في علوم الكمبيوتر بجامعة سان أندريس في الأرجنتين: “بدا الأمر مثيرًا للغاية في اللحظة التي رأيته فيها”. وفي غضون أسبوع، قام هو وثلاثة من زملائه بدمج شبكات KAN مع الشبكات العصبية التلافيفية، أو CNNs، وهي بنية شائعة لمعالجة الصور. لقد اختبروا شبكات KAN التلافيفية الخاصة بهم بشأن قدرتهم على تصنيف الأرقام المكتوبة بخط اليد أو قطع الملابس. أفضلها تطابق تقريبًا مع أداء شبكة CNN التقليدية (دقة 99 بالمائة لكلتا الشبكتين فيما يتعلق بالأرقام، و90 بالمائة لكلتا الشبكتين فيما يتعلق بالملابس) ولكن باستخدام معلمات أقل بنسبة 60 بالمائة تقريبًا. كانت مجموعات البيانات بسيطة، لكن بودنر يقول إن الفرق الأخرى التي تتمتع بقدرة حاسوبية أكبر بدأت في توسيع نطاق الشبكات. ويقوم أشخاص آخرون بدمج شبكات KAN مع المحولات، وهي بنية شائعة في نماذج اللغات الكبيرة.
أحد الجوانب السلبية لشبكات KAN هو أنها تستغرق وقتًا أطول لتدريب كل معلمة، ويرجع ذلك جزئيًا إلى عدم قدرتها على الاستفادة من وحدات معالجة الرسومات. لكنهم يحتاجون إلى معلمات أقل. ويشير ليو إلى أنه حتى لو لم تحل شبكات KAN محل شبكات CNN العملاقة والمحولات لمعالجة الصور واللغة، فإن وقت التدريب لن يمثل مشكلة على المستوى الأصغر للعديد من المشكلات الفيزيائية. إنه يبحث عن طرق يمكن للخبراء من خلالها إدراج معارفهم السابقة في شبكات KAN – عن طريق اختيار وظائف التنشيط يدويًا، على سبيل المثال – واستخلاص المعرفة منها بسهولة باستخدام واجهة بسيطة. ويقول إنه يومًا ما، يمكن لشبكات KAN أن تساعد الفيزيائيين على اكتشاف الموصلات الفائقة في درجات الحرارة العالية أو طرق التحكم في الاندماج النووي.
من مقالات موقعك
مقالات ذات صلة حول الويب