التعلم الروبوت في النظارات الذكية

من الصعب تدريب الروبوتات للأغراض العامة. الحلم هو أن يكون لديك روبوت مثل روزي Jetson الذي يمكنه أداء مجموعة من أُسرَة المهام ، مثل ترتيب أو طي الغسيل. ولكن لكي يحدث ذلك ، يحتاج الروبوت إلى التعلم من أ كمية كبيرة من البيانات تلك الظروف في العالم الحقيقي-يمكن جمع البيانات. حاليًا ، يتم جمع معظم بيانات التدريب من كاميرات ثابتة متعددة يجب إعدادها بعناية لجمع معلومات مفيدة. ولكن ماذا لو كان بإمكان الروبوتات أن تتعلم من التفاعلات اليومية التي لدينا بالفعل مع العالم المادي؟
هذا سؤال يأمله الروبوتات للأغراض العامة ومختبر الذكاء الاصطناعي في جامعة نيويورك ، بقيادة أستاذ مساعد ليريل بينتو ، في الإجابة مع Egozero ، وهو نظام Glasses الذكي الذي يساعد على تعلم الروبوت من خلال جمع البيانات مع نسخة مملوءة من نظارات Meta.
في طباعة ما قبل الطباعة الأخيرة ، والتي تعمل كدليل على مفهوم النهج ، قام الباحثون بتدريب روبوت على إكمال سبع مهام معالجة ، مثل التقاط قطعة من الخبز ووضعها على طبق قريب. لكل مهمة ، قاموا بجمع 20 دقيقة من البيانات من البشر الذين يقومون بهذه المهام أثناء تسجيل أفعالهم باستخدام نظارات من مشروع Meta. (يتم استخدام هذه النظارات المليئة بالاستشعار حصريًا لأغراض البحث.) عند نشرها بعد ذلك لإكمال هذه المهام بشكل مستقل باستخدام روبوت ، حقق النظام معدل نجاح بنسبة 70 في المائة.
ميزة البيانات الأنانية
يشير الجزء “الأنا” من Egozero إلى الطبيعة “الأنانية” للبيانات ، مما يعني أنه يتم جمعها من منظور الشخص الذي يؤدي المهمة. يقول Raunaq Bhirangi ، الباحث ما بعد الدكتوراه في مختبر NYU Lab: “إن الكاميرا تتحرك معك نوعًا ما ، مثل كيف تتحرك أعيننا معنا.
هذا له مزايزتان رئيسيتان: أولاً ، الإعداد أكثر قدرة من الكاميرات الخارجية. ثانياً ، من المرجح أن تلتقط النظارات المعلومات اللازمة لأن مرتديها سيتأكدون من أنهم – وبالتالي الكاميرا – يمكن أن ترى ما هو مطلوب لأداء المهمة. يقول Bhirangi: “على سبيل المثال ، قل أن لديّ شيء مدمن مخدرات تحت طاولة وأريد إلغاء تكوينه. أود أن ينحني ، أنظر إلى هذا الخطاف ، ثم فكه ، على عكس كاميرا الشخص الثالث ، وهو أمر غير نشط”. “مع هذا المنظور الأناني ، يمكنك الحصول على هذه المعلومات مخبوزًا في بياناتك مجانًا.”
يشير النصف الثاني من اسم Egozero إلى حقيقة أن النظام يتم تدريبه بدون أي بيانات روبوت ، والتي قد تكون مكلفة ويصعب جمعها ؛ البيانات البشرية وحدها تكفي أن يتعلم الروبوت مهمة جديدة. يتم تمكين ذلك من خلال إطار عمل تم تطويره بواسطة مختبر Pinto الذي يتتبع النقاط في الفضاء ، بدلاً من الصور الكاملة. عند تدريب الروبوتات على البيانات المستندة إلى الصور ، “عدم التطابق كبير جدًا بين شكل الأيدي البشرية وما تبدو عليه ذراعي الروبوت” ، كما يقول Bhirangi. بدلاً من ذلك ، يتتبع هذا الإطار النقاط على اليد ، والتي يتم تعيينها على نقاط على الروبوت.
يأخذ نظام Egozero بيانات من البشر الذين يرتدون نظارات ذكية ويحولها إلى بيانات التنقل ثلاثية الأبعاد القابلة للاستخدام للروبوتات للقيام بمهام التلاعب العامة.فنسنت ليو ، أديمي أدينيجي ، هاوتيان تشان وآخرون.
يعني تقليل الصورة إلى النقاط في المساحة ثلاثية الأبعاد أن النموذج يمكنه تتبع الحركة بنفس الطريقة ، بغض النظر عن الملحق الآلي المحدد. يقول Bhirangi: “طالما أن نقاط الروبوت تتحرك بالنسبة للكائن بنفس الطريقة التي تتحرك بها النقاط البشرية ، فنحن على ما يرام”.
كل هذا يؤدي إلى نموذج قابل للتعميم يتطلب الكثير من بيانات الروبوت المتنوعة للتدريب. إذا تم تدريب الروبوت على البيانات التي تلتقط قطعة واحدة من الخبز – Say ، لفة لذيذة – فيمكنها تعميم تلك المعلومات لالتقاط قطعة من Ciabatta في بيئة جديدة.
حل قابل للتطوير
بالإضافة إلى Egozero ، تعمل مجموعة الأبحاث على العديد من المشاريع للمساعدة في جعل الروبوتات للأغراض العامة حقيقة واقعة ، بما في ذلك تصميمات الروبوت مفتوحة المصدر وأجهزة استشعار اللمس المرنة وطرق إضافية لجمع بيانات التدريب في العالم الحقيقي.
على سبيل المثال ، كبديل لـ Egozero ، قام الباحثون أيضًا بتصميم إعداد مع قبو محمول ثلاثي الأبعاد يشبه إلى حد كبير معظم الأيدي الروبوت. يلتقط الهاتف الذكي المرفق مع القابض الفيديو بنفس طريقة مساحة النقطة المستخدمة في Egozero. ولكن من خلال جعل الناس يجمعون البيانات دون الحاجة إلى جلب روبوت إلى منازلهم ، يمكن أن يوفر كلتا النهجين حلاً أكثر قابلية للتطوير لجمع بيانات التدريب.
هذا التوسع هو في نهاية المطاف هدف الباحث. يمكن أن تسخر نماذج اللغة الكبيرة الإنترنت بأكمله ، ولكن لا يوجد أي معادل للإنترنت للعالم المادي. يمكن أن يساعد الاستفادة من التفاعلات اليومية مع النظارات الذكية في سد هذه الفجوة.
من مقالات موقعك
المقالات ذات الصلة حول الويب




