الروبوتات ومعهد الذكاء الاصطناعي ثلاثية السرعة من بقعة بوسطن ديناميات

منذ حوالي عام ، صدرت بوسطن ديناميات نسخة بحثية من الروبوت الرباعي الفوري، والتي تأتي مع واجهة برمجة التطبيق منخفضة المستوى (API) تتيح التحكم المباشر في مفاصل Spot. حتى في ذلك الوقت ، كانت الشائعات أن واجهة برمجة التطبيقات هذه فتحت بعض التحسينات الهامة في الأداء على الفور ، بما في ذلك سرعة تشغيل أسرع بكثير. جاءت تلك الشائعات من معهد الروبوتات ومعهد الذكاء الاصطناعي (RAI)سابقا معهد الذكاء الاصطناعى ، سابقا معهد بوسطن ديناميات الذكاء الاصطناعي، وإذا كنت في مارك رايبرت تحدث في مؤتمر ICRA@40 في روتردام في الخريف الماضي ، فأنت تعلم بالفعل أنه لم يكن بمثابة شائعات على الإطلاق.
اليوم ، نحن قادرون على مشاركة بعض الأعمال التي يقوم بها معهد RAI لتطبيق تقنيات التعلم التعزيز على أساس الواقع لتمكين أداء أعلى بكثير من SPOT. يمكن للتقنيات نفسها أيضًا أن تساعد الروبوتات الديناميكية للغاية على العمل بشكل قوي ، وهناك منصة أجهزة جديدة تُظهر هذا: دراجة مستقلة يمكن أن تقفز.
انظر SPOT RUN
https://www.youtube.com/watch؟v=Z478HMH5OME
يعرض هذا الفيديو بقعة تعمل بسرعة مستدامة تبلغ 5.2 متر في الثانية (11.6 ميل في الساعة). خارج الصندوق ، تبلغ سرعة SPOT القصوى 1.6 مترًا في الثانية، وهذا يعني أن بقعة راي قد تضاعفت أكثر من ثلاث مرات (!) سرعة مصنع الرباعي.
إذا كان هناك بقعة تعمل بسرعة يبدو غريباً بعض الشيء ، فربما يكون ذلك بسبب ذلك يكون غريب ، بمعنى أن الطريقة التي تتحرك بها أرجل الكلب الروبوت وحركتها كما يديرها لا تشبه إلى حد كبير كلب حقيقي على الإطلاق. “المشي ليس بيولوجيًا ، لكن الروبوت ليس بيولوجيًا” ، يوضح Farbod Farshidian، روبوتيست في معهد راي. “يختلف مشغلات Spot عن العضلات ، وحركيته مختلفة ، لذا فإن المشية المناسبة للكلب للركض بسرعة ليست بالضرورة لهذا الروبوت.”
يمكن لأفضل Farshidian تصنيف كيفية تحرك SPOT هو أنه يشبه إلى حد ما مشية الهرولة ، باستثناء مرحلة رحلة إضافية (مع وجود جميع الأقدام الأربعة على الأرض في وقت واحد) تحولها تقنيًا إلى تشغيل. يقول فارشيديان إن مرحلة الطيران هذه ضرورية ، لأن الروبوت يحتاج إلى ذلك الوقت لسحب قدميه إلى الأمام على التوالي بسرعة كافية للحفاظ على سرعته. هذا “سلوك اكتشف” ، حيث لم يتم برمجة الروبوت بشكل صريح إلى “التشغيل” ، بل كان مطلوبًا فقط لإيجاد أفضل طريقة للتحرك بأسرع ما يمكن.
التعلم التعزيز مقابل النموذج السيطرة التنبؤية
تعتمد وحدة التحكم الفورية التي تشحن مع الروبوت عند شرائها من Boston Dynamics على التحكم التنبئي النموذج (MPC) ، والذي يتضمن إنشاء نموذج برنامج يقارب ديناميات الروبوت قدر الإمكان ، وبعد ذلك حل مشكلة التحسين للمهام التي تريد أن يفعلها الروبوت في الوقت الحقيقي. إنها طريقة يمكن التنبؤ بها وموثوقة للغاية للتحكم في روبوت ، لكنها أيضًا صلبة إلى حد ما ، لأن نموذج البرمجيات الأصلي لن يكون قريبًا بما يكفي للواقع للسماح لك بدفع حدود الروبوت حقًا. وإذا حاولت أن تقول ، “حسنًا ، سأقوم فقط بإنشاء نموذج برامج مفصل للغاية من روبوتي ودفع الحدود بهذه الطريقة ،” تتعثر لأن مشكلة التحسين يجب حلها لأي شيء تريد أن يفعله الروبوت ، في الوقت الفعلي ، وكلما كان النموذج أكثر تعقيدًا ، كلما كان من الصعب القيام بذلك بسرعة كافية ليكون مفيدًا. تعلم التعزيز (RL) ، من ناحية أخرى ، يتعلم دون اتصال. يمكنك استخدام نموذج معقد ما تريد ، ثم تأخذ طوال الوقت الذي تحتاجه في المحاكاة لتدريب سياسة التحكم التي يمكن بعد ذلك تشغيلها بكفاءة كبيرة على الروبوت.
في المحاكاة ، يمكن تدريب بعض المواقع (أو مئات البقع) بالتوازي مع الأداء الواقعي القوي.روبوتات ومعهد الذكاء الاصطناعي
في مثال السرعة القصوى في Spot ، لا يمكن ببساطة تصميم كل التفاصيل الأخيرة لجميع مشغلات الروبوت ضمن نظام تحكم قائم على النماذج يتم تشغيله في الوقت الفعلي على الروبوت. لذا بدلاً من ذلك ، يتم تقديم افتراضات مبسطة (وعادة ما تكون محافظة للغاية) حول ما يفعله المحركات فعليًا حتى تتوقع أداءً آمنًا وموثوقًا.
يوضح Farshidian أن هذه الافتراضات تجعل من الصعب تطوير فهم مفيد لقيود الأداء بالفعل. “يعرف الكثير من الناس في الروبوتات أن أحد القيود المفروضة على الجري بسرعة هو أنك ستصل إلى أقصى عزم الدوران وسرعة نظام التشغيل الخاص بك. لذلك ، يحاول الناس نموذج استخدام أوراق البيانات للمشغلات. بالنسبة لنا ، فإن السؤال الذي أردنا الإجابة عليه هو ما إذا كان هناك بعض آخر الظواهر التي كانت في الواقع تحد من الأداء. “
إن البحث عن هذه الظواهر الأخرى ينطوي على جلب بيانات جديدة إلى خط أنابيب التعلم التعزيز ، مثل نماذج المشغل التفصيلية المستفادة من الأداء العالمي الحقيقي للروبوت. في حالة Spot ، قدم ذلك الإجابة على الجري عالي السرعة. اتضح أن ما كان يحد من سرعة Spot لم يكن المشغلات أنفسهم ، ولا أي من حركيات الروبوت: لقد كانت البطاريات ببساطة غير قادرة على توفير ما يكفي من الطاقة. يقول فارشيديان: “كانت هذه مفاجأة بالنسبة لي ، لأنني اعتقدت أننا سنصل إلى حدود المحرك أولاً.”
نظام الطاقة في Spot معقد بما يكفي لدرجة أنه من المحتمل أن يكون هناك مساحة إضافية للمناورة ، ويقول Farshidian إن الشيء الوحيد الذي منعهم من دفع سرعة Spot القصوى بعد 5.2 م/ث هو أنهم لم يتمكنوا من الوصول إلى فولتية البطارية حتى لا يكونوا قادر على دمج بيانات العالم الحقيقي في نموذج RL الخاص بهم. “لو كان لدينا بطاريات أكثر من ذلك ، يمكن أن نركض بشكل أسرع. وإذا قمت بتصميم هذه الظواهر أيضًا في جهاز المحاكاة الخاص بنا ، فأنا متأكد من أنه يمكننا دفع هذا أبعد “.
يؤكد Farshidian على أن تقنية RAI هي أكثر بكثير من مجرد الحصول على مكان للركض بسرعة – يمكن أيضًا تطبيقه على جعل التحرك الفوري أكثر كفاءة لزيادة عمر البطارية ، أو بهدوء للعمل بشكل أفضل في بيئة مكتبية أو منزلية. في الأساس ، هذه أداة قابلة للتعميم يمكنها العثور على طرق جديدة لتوسيع قدرات أي نظام آلي. وعندما يتم استخدام بيانات العالم الحقيقي لجعل روبوتًا محاكيًا أفضل ، يمكنك أن تطلب من المحاكاة بذل المزيد من الجهد ، بثقة في أن هذه المهارات المحاكاة ستنقل بنجاح إلى الروبوت الحقيقي.
مركبة التنقل الفائقة: تدريس دراجات الروبوت للقفز
التعلم التعزيز ليس جيدًا فقط لزيادة أداء الروبوت – يمكن أن يجعل هذا الأداء أكثر موثوقية. قام معهد RAI بتجربة نوع جديد تمامًا من الروبوت الذي اخترعوه في المنزل: دراجة قفزة صغيرة تسمى مركبة التنقل الفائقة ، أو UMV ، والتي تم تدريبها على القيام باركور باستخدام نفس خط أنابيب RL نفسه لموازنة وقيادة مثل تم استخدامه لجري Spot High SPEED.
https://www.youtube.com/watch؟v=ATWR25XGF74
لا يوجد نظام تثبيت مادي مستقل (مثل الجيروسكوب) يمنع UMV من السقوط ؛ إنها مجرد دراجة عادية يمكنها التحرك للأمام والخلف وتوجه عجلة القيادة الأمامية. يتم تعبئة أكبر قدر ممكن من الكتلة في الجزء العلوي ، والتي يمكن للمشغلات تسريعها بسرعة لأعلى ولأسفل. يقول: “نحن نعرض شيئين في هذا الفيديو”. ماركو هوتر، مدير مكتب زيوريخ في معهد راي. أحدهما هو كيف يساعد تعلم التعزيز في جعل UMV قويًا للغاية في قدرات القيادة في مواقف متنوعة. وثانياً ، كيف يتيح لنا فهم القدرات الديناميكية للروبوتات القيام بأشياء جديدة ، مثل القفز على طاولة أعلى من الروبوت نفسه. “
“مفتاح RL في كل هذا هو اكتشاف سلوك جديد وجعل هذا القوي وموثوق به في ظل الظروف التي يصعب تصميمها. هذا هو المكان الذي يضيء فيه RL حقًا “. – Marco Hutter ، معهد RAI
من المثير للإعجاب مثل القفز ، بالنسبة للهوت ، من الصعب (إن لم يكن أكثر صعوبة) القيام بمناورات قد تبدو بسيطة إلى حد ما ، مثل الركوب للخلف. “العودة إلى الوراء أمر غير مستقر للغاية” ، يشرح هوتر. “على الأقل بالنسبة لنا ، لم يكن من الممكن حقًا القيام بذلك باستخدام الكلاسيكية [MPC] تحكم ، وخاصة على التضاريس الوعرة أو مع الاضطرابات. ”
إن إخراج هذا الروبوت من المختبر وإلى التضاريس للقيام باركور باركور المناسبة هو العمل قيد التقدم الذي يقول معهد RAI إنهم سيكونون قادرين على التظاهر في المستقبل القريب ، لكن الأمر لا يتعلق حقًا بما يمكن أن تفعله منصة الأجهزة هذه – إنه حول ماذا أي يمكن أن يفعل روبوت من خلال RL والأساليب الأخرى القائمة على التعلم ، كما يقول Hutter. “الصورة الأكبر هنا هي أن أجهزة هذه الأنظمة الآلية يمكن أن تفعل من الناحية النظرية أكثر مما تمكنا من تحقيقه من خلال خوارزميات التحكم الكلاسيكية. يتيح لنا فهم هذه الحدود الخفية في أنظمة الأجهزة تحسين الأداء والحفاظ على دفع الحدود على السيطرة. “
يؤدي تعليم UMV إلى دفع نفسه إلى أسفل الدرج في SIM إلى روبوت حقيقي يمكنه التعامل مع السلالم في أي زاوية.روبوتات ومعهد الذكاء الاصطناعي
التعلم التعزيز للروبوتات في كل مكان
قبل بضعة أسابيع فقط ، أعلن معهد RAI شراكة جديدة مع Boston Dynamics “لتعزيز الروبوتات البشرية من خلال التعلم التعزيز.” Humanoids هي مجرد نوع آخر من منصات الآلية ، وإن كان ذلك أكثر تعقيدًا بشكل كبير مع درجات كثيرة من الحرية والأشياء التي تصممها ومحاكاة. ولكن عند النظر في قيود التحكم النموذجي التنبؤية لهذا المستوى من التعقيد ، يبدو نهج التعلم التعزيز أمرًا لا مفر منه تقريبًا ، خاصةً عندما يتم تبسيط مثل هذا النهج بالفعل بسبب قدرته على التعميم.
يقول Hutter: “أحد الطموحات التي لدينا كمعهد هو أن يكون لديها حلول تمتد عبر جميع أنواع المنصات المختلفة”. “يتعلق الأمر ببناء أدوات ، حول بناء البنية التحتية ، وبناء الأساس لذلك يتعين القيام به في سياق أوسع. لذلك ليس فقط البشر ، ولكن القيادة المركبات ، الرباعي ، سمها ما شئت. لكن إجراء البحث في RL وعرض بعض الدليل الأول على المفهوم هو شيء واحد – فرضه للعمل في العالم الحقيقي في ظل جميع الظروف ، مع دفع الحدود في الأداء ، هو شيء آخر. ”
لقد كان نقل المهارات إلى العالم الحقيقي دائمًا تحديًا على الروبوتات المدربة في المحاكاة ، على وجه التحديد لأن المحاكاة ودية للغاية للروبوتات. “إذا كنت تقضي وقتًا كافيًا ،” يوضح Farshidian ، “يمكنك التوصل إلى وظيفة مكافأة حيث سيفعل الروبوت في النهاية ما تريد. ما يفشل في كثير من الأحيان هو عندما تريد نقل سلوك SIM إلى الأجهزة ، لأن التعلم التعزيز جيد جدًا في العثور على مواطن الخلل في محاكاةك والاستفادة منها للقيام بالمهمة. “
أصبحت المحاكاة أفضل بكثير ، مع أدوات جديدة ، وديناميات أكثر دقة ، والكثير من قوة الحوسبة لرمي المشكلة. يقول هوتر: “إنها قدرة قوية للغاية يمكننا محاكاة أشياء كثيرة ، وإنشاء الكثير من البيانات مجانًا تقريبًا”. لكن فائدة تلك البيانات في علاقتها بالواقع ، مع التأكد من أن ما تحاكيه دقيق بما فيه الكفاية بحيث يتم حل نهج التعلم التعزيز في الواقع للواقع. يعتقد Hutter ، أن إعادة البيانات المادية التي تم جمعها على الأجهزة الحقيقية إلى المحاكاة ، هي نهج واعد للغاية ، سواء تم تطبيقه على تشغيل رباعي أو دراجات قفز أو البشرية. “إن مزيج الاثنين – المحاكاة والواقع – هذا ما سأفترضه هو الاتجاه الصحيح.”
من مقالات موقعك
المقالات ذات الصلة حول الويب