، مقالات،

رائد الذكاء الاصطناعي Fei-Fei Li لديه رؤية للرؤية الحاسوبية



لقد حصلت الأستاذة في جامعة ستانفورد Fei-Fei Li بالفعل على مكانتها في تاريخ الذكاء الاصطناعي. لقد لعبت دورًا رئيسيًا في ثورة التعلم العميق من خلال العمل لسنوات لإنشاء مجموعة بيانات ImageNet والمنافسة، والتي شكلت تحديًا لأنظمة الذكاء الاصطناعي للتعرف على الأشياء والحيوانات عبر 1000 فئة. في عام 2012، أرسلت شبكة عصبية تدعى AlexNet موجات صادمة عبر مجتمع أبحاث الذكاء الاصطناعي عندما تفوقت بشكل مذهل على جميع أنواع النماذج الأخرى وفازت في مسابقة ImageNet. ومن هناك، انطلقت الشبكات العصبية، مدعومة بكميات هائلة من بيانات التدريب المجانية المتاحة الآن على الإنترنت ووحدات معالجة الرسومات التي توفر قوة حسابية غير مسبوقة.

في غضون 13 عامًا منذ إنشاء ImageNet، أتقن الباحثون في مجال الرؤية الحاسوبية التعرف على الكائنات وانتقلوا إلى إنشاء الصور والفيديو. شارك لي في تأسيس معهد ستانفورد للذكاء الاصطناعي المرتكز على الإنسان (HAI) واستمر في دفع حدود الرؤية الحاسوبية. أطلقت هذا العام شركتها الناشئة World Labs، التي تنتج مشاهد ثلاثية الأبعاد يمكن للمستخدمين استكشافها. تلتزم World Labs بتوفير “الذكاء المكاني” للذكاء الاصطناعي، أو القدرة على إنشاء عوالم ثلاثية الأبعاد والتفكير فيها والتفاعل معها. ألقت لي كلمة رئيسية أمس في مؤتمر NeurIPS، وهو مؤتمر الذكاء الاصطناعي الضخم، حول رؤيتها للرؤية الآلية، وقد قدمت عرضًا IEEE الطيف مقابلة حصرية قبل حديثها.

لماذا عنوان حديثك هو “الصعود على سلم الذكاء البصري”؟

فاي فاي لي: أعتقد أنه من البديهي أن يمتلك الذكاء مستويات مختلفة من التعقيد والتعقيد. في هذه المحاضرة، أريد أن أوضح أنه على مدى العقود الماضية، وخاصة السنوات العشر الماضية من ثورة التعلم العميق، فإن الأشياء التي تعلمنا القيام بها باستخدام الذكاء البصري كانت مذهلة للغاية. لقد أصبحنا أكثر وأكثر قدرة على التعامل مع التكنولوجيا. وقد ألهمني أيضًا “سلم السببية” الذي وضعه يهودا بيرل. [in his 2020 book The Book of Why].

تحتوي المحادثة أيضًا على عنوان فرعي، “من الرؤية إلى الفعل”. وهذا شيء لا يقدره الناس بما فيه الكفاية: أن الرؤية تقترن بشكل وثيق بالتفاعل والقيام بالأشياء، سواء بالنسبة للحيوانات أو لعملاء الذكاء الاصطناعي. وهذا خروج عن اللغة. اللغة هي في الأساس أداة تواصل تُستخدم لتوصيل الأفكار. في رأيي، هذه هي طرائق الذكاء التكميلية للغاية، ولكنها على نفس القدر من العمق.

هل تقصد أننا نستجيب بشكل غريزي لمشاهد معينة؟

لي: أنا لا أتحدث فقط عن الغريزة. إذا نظرتم إلى تطور الإدراك وتطور الذكاء الحيواني، فإنهما متشابكان بشكل عميق. في كل مرة نكون قادرين على الحصول على مزيد من المعلومات من البيئة، تدفع القوة التطورية القدرة والذكاء إلى الأمام. إذا كنت لا تشعر بالبيئة، فإن علاقتك بالعالم سلبية للغاية؛ سواء كنت تأكل أو تؤكل هو عمل سلبي للغاية. ولكن بمجرد أن تكون قادرًا على تلقي إشارات من البيئة من خلال الإدراك، فإن الضغط التطوري يرتفع بالفعل، وهذا يدفع الذكاء إلى الأمام.

هل تعتقد أن هذه هي الطريقة التي نقوم بها بإنشاء ذكاء آلي أعمق وأعمق؟ من خلال السماح للآلات بإدراك المزيد من البيئة؟

لي: لا أعرف إذا كانت كلمة “عميق” هي الصفة التي سأستخدمها. أعتقد أننا نخلق المزيد من القدرات. أعتقد أن الأمر أصبح أكثر تعقيدًا وأكثر قدرة. أعتقد أنه من الصحيح تمامًا أن معالجة مشكلة الذكاء المكاني هي خطوة أساسية وحاسمة نحو الذكاء الشامل.

لقد رأيت العروض التوضيحية للمختبرات العالمية. لماذا تريد البحث في الذكاء المكاني وبناء هذه العوالم ثلاثية الأبعاد؟

لي: أعتقد أن الذكاء المكاني هو المكان الذي يتجه إليه الذكاء البصري. إذا كنا جادين في حل مشكلة الرؤية وربطها أيضًا بالممارسة، فهناك حقيقة بسيطة للغاية، واضحة للعيان: العالم ثلاثي الأبعاد. نحن لا نعيش في عالم مسطح. وكلاؤنا الماديون، سواء كانوا روبوتات أو أجهزة، سيعيشون في عالم ثلاثي الأبعاد. حتى العالم الافتراضي أصبح ثلاثي الأبعاد بشكل متزايد. إذا تحدثت إلى فنانين، ومطوري ألعاب، ومصممين، ومهندسين معماريين، وأطباء، حتى عندما يعملون في عالم افتراضي، فإن الكثير من هذا هو ثلاثي الأبعاد. إذا توقفت للحظة وتعرفت على هذه الحقيقة البسيطة والعميقة، فليس هناك شك في أن حل مشكلة الذكاء ثلاثي الأبعاد أمر أساسي.

أشعر بالفضول لمعرفة كيف تحافظ المشاهد من World Labs على ديمومة الكائن والامتثال لقوانين الفيزياء. يبدو ذلك بمثابة خطوة مثيرة للأمام، نظرًا لأن أدوات إنشاء الفيديو مثل Sora لا تزال تتعثر في مثل هذه الأشياء.

لي: بمجرد أن تحترم الأبعاد الثلاثية للعالم، يصبح الكثير من هذا أمرًا طبيعيًا. على سبيل المثال، في أحد مقاطع الفيديو التي نشرناها على وسائل التواصل الاجتماعي، يتم إسقاط كرات السلة في أحد المشاهد. ولأنه ثلاثي الأبعاد، فإنه يسمح لك بالحصول على هذا النوع من الإمكانيات. إذا كان المشهد عبارة عن بكسلات ثنائية الأبعاد فقط، فلن تؤدي كرة السلة إلى أي مكان.

أو، كما هو الحال في سورا، قد يذهب إلى مكان ما ثم يختفي بعد ذلك. ما هي أكبر التحديات التقنية التي تتعامل معها أثناء محاولتك دفع هذه التكنولوجيا إلى الأمام؟

لي: لم يحل أحد هذه المشكلة، أليس كذلك؟ إنه صعب جدًا. تستطيع أن ترى [in a World Labs demo video] أننا أخذنا لوحة لفان جوخ وأنشأنا المشهد بأكمله من حولها بأسلوب متسق: الأسلوب الفني، والإضاءة، وحتى نوع المباني التي سيحتوي عليها هذا الحي. إذا استدرت وتحولت إلى ناطحات سحاب، فسيكون ذلك غير مقنع تمامًا، أليس كذلك؟ ويجب أن تكون ثلاثية الأبعاد. عليك أن تتنقل فيه. لذا فالأمر لا يقتصر على البكسلات فقط.

هل يمكنك قول أي شيء عن البيانات التي استخدمتها لتدريبه؟

لي: كثيراً.

هل تواجه تحديات تقنية فيما يتعلق بعبء الحوسبة؟

لي: إنه كثير من الحساب. إنه نوع الحوسبة الذي لا يستطيع القطاع العام تحمله. وهذا جزء من السبب الذي يجعلني أشعر بالحماس لأخذ هذه الإجازة، للقيام بذلك بطريقة القطاع الخاص. وهذا أيضًا جزء من السبب الذي جعلني أدعو إلى الوصول إلى الحوسبة في القطاع العام لأن تجربتي الخاصة تؤكد أهمية الابتكار مع قدر كافٍ من الموارد.

سيكون من الجيد تمكين القطاع العام، لأنه عادة ما يكون أكثر تحفيزًا من خلال اكتساب المعرفة لذاته والمعرفة لصالح الإنسانية.

لي: اكتشاف المعرفة يحتاج إلى دعم بالموارد، أليس كذلك؟ وفي زمن جاليليو، كان أفضل تلسكوب يسمح لعلماء الفلك بمراقبة الأجرام السماوية الجديدة. لقد أدرك هوك أن العدسات المكبرة يمكن أن تصبح مجاهرًا وتكتشف الخلايا. في كل مرة تظهر فيها أدوات تكنولوجية جديدة، فإنها تساعد في البحث عن المعرفة. والآن، في عصر الذكاء الاصطناعي، تتضمن الأدوات التكنولوجية الحوسبة والبيانات. وعلينا أن ندرك ذلك بالنسبة للقطاع العام.

ما الذي تريد أن يحدث على المستوى الفيدرالي لتوفير الموارد؟

لي: لقد كان هذا هو عمل جامعة ستانفورد هاي على مدى السنوات الخمس الماضية. لقد عملنا مع الكونجرس ومجلس الشيوخ والبيت الأبيض والصناعة والجامعات الأخرى لإنشاء NAIRR، المورد الوطني لأبحاث الذكاء الاصطناعي.

على افتراض أننا نستطيع أن نجعل أنظمة الذكاء الاصطناعي تفهم العالم ثلاثي الأبعاد حقًا، فماذا سيعطينا ذلك؟

لي: سيفتح الكثير من الإبداع والإنتاجية للناس. أرغب في تصميم منزلي بطريقة أكثر كفاءة. أعلم أن الكثير من الاستخدامات الطبية تتضمن فهم عالم ثلاثي الأبعاد محدد جدًا، وهو جسم الإنسان. نتحدث دائمًا عن المستقبل حيث سيصنع البشر روبوتات لمساعدتنا، لكن الروبوتات تتنقل في عالم ثلاثي الأبعاد، وتتطلب الذكاء المكاني كجزء من دماغها. نتحدث أيضًا عن العوالم الافتراضية التي ستسمح للأشخاص بزيارة الأماكن أو تعلم المفاهيم أو الترفيه. ويستخدم هؤلاء تقنية ثلاثية الأبعاد، وخاصة الهجينة، ما نسميه AR [augmented reality]. أحب أن أتجول في حديقة وطنية مع نظارة تعطيني معلومات عن الأشجار، والمسار، والسحب. أود أيضًا أن أتعلم مهارات مختلفة بمساعدة الذكاء المكاني.

أي نوع من المهارات؟

لي: مثالى الضعيف هو إذا كان لدي إطار مثقوب على الطريق السريع، فماذا أفعل؟ الآن، أفتح مقطع فيديو بعنوان “كيفية تغيير الإطار”. ولكن إذا كان بإمكاني ارتداء النظارات ورؤية ما يحدث بسيارتي ومن ثم توجيهي خلال هذه العملية، فسيكون ذلك رائعًا. لكن هذا مثال ضعيف. يمكنك التفكير في الطبخ، يمكنك التفكير في النحت، أشياء ممتعة.

إلى أي مدى تعتقد أننا سنصل إلى هذا في حياتنا؟

لي: أوه، أعتقد أن هذا سيحدث في حياتنا لأن وتيرة التقدم التكنولوجي سريعة جدًا. لقد رأيتم ما جلبته السنوات العشر الماضية. إنها بالتأكيد إشارة إلى ما سيأتي بعد ذلك.

من مقالات موقعك

مقالات ذات صلة حول الويب

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى