قد يجعل Robotics Gemini AI الروبوتات الذكية البشرية حقيقة واقعة

عندما وصل ChatGpt لأول مرة ، حصلنا على chatbot المستندة إلى النص يمكن أن تحاول الإجابة على أي سؤال بشكل معقول ، حتى لو أخطأت الأمور (لا يزال الأمر كذلك ، لأن الهلوسة لم تختف). لم يستغرق الأمر وقتًا طويلاً حتى يكتسب الذكاء الاصطناعي قدرات جديدة. يمكن أن ترى الأشياء عبر الصور ومقاطع الفيديو. يمكن أن تسمع البشر يتحدثون ويستجيبون عبر صوتها.

كانت الخطوة التالية هي إعطاء عيون وآذان منظمة العفو الدولية التي يمكن أن تلاحظ محيطك في الوقت الفعلي. لدينا بالفعل نظارات ذكية تقوم بذلك ، نموذج Ray-Ban Meta. تعمل Google وغيرها على منتجات مماثلة. قد تضع Apple الكاميرات داخل AirPods لنفس السبب.

سيكتمل العمل عندما يكون لدى الذكاء الاصطناعى جسمًا ليكون حاضرًا جسديًا من حولنا ويساعدنا في جميع أنواع المهام التي تتطلب التعامل مع الكائنات الواقعية. رأيت الكتابة على الحائط قبل أشهر عندما قلت إنني أردت روبوتات AI Humanoid للمنزل.

في الآونة الأخيرة ، رأيت نوعًا من نموذج الذكاء الاصطناعي الذي من شأنه أن يعطي الروبوتات الذكاء لرؤية وفهم العالم المادي من حولهم والتفاعل مع الأشياء والإجراءات التي لم يتم تدريبهم عليها أبدًا. كان هذا هو الشكل اللولبي اللولبي اللولبي (VLA) لروبوتات الذكاء الاصطناعي.

مما لا يثير الدهشة ، أن الآخرين يعملون على تقنية مماثلة ، وأعلنت Google للتو نموذجين من روبوتات Gemini التي فجرت ذهني. مثل Figure Tech ، ستساعد AIS Gemini Robotics AIS على فهم الأوامر البشرية ، ومحيطها ، وما يتعين عليهم القيام به لأداء المهام التي يقدمها لهم البشر.

ما زلنا في الأيام الأولى من روبوتات الذكاء الاصطناعي ، وسوف يكون بعض الوقت حتى يصبح Humanoid Robot Helper الذي أريده حول المنزل جاهزًا للاستهلاك الشامل. لكن Google تضع الأساس بالفعل لهذا المستقبل.

نشرت Google Deepmind منشورًا مدونة وورقة بحثية تصف نماذج Gemini Robotics و Gemini Robotics-ER الجديدة التي طورتها على ظهر Gemini 2.0 Tech. هذا هو برنامج AI الأكثر تقدماً في Google متاح للمستخدمين في الوقت الحالي.

https://www.youtube.com/watch؟v=sy20x_tywpq

Google Robotics هي VLA المبنية على Gemini 2.0 “مع إضافة الإجراءات المادية كطريقة ناتج جديدة لغرض الروبوتات التي تتحكم بشكل مباشر.”

والثاني هو “نموذج الجوزاء ذو الفهم المكاني المتقدم ، مما يمكّن من الموظفين الآليين من إدارة برامجهم الخاصة باستخدام قدرات التفكير المجسد في الجوزاء.” يطلق عليه بشكل مناسب الجوزاء روبوتات.

من خلال التفكير المجسد ، تعني Google أن الروبوتات تحتاج إلى تطوير “القدرة البشرية على الفهم والرد على العالم من حولنا” والقيام بذلك بأمان.

شاركت Google العديد من مقاطع الفيديو التي تعرض روبوتات الذكاء الاصطناعي في العمل ، والاستجابة لأوامر اللغة الطبيعية والتكيف مع المناظر الطبيعية المتغيرة. بفضل Gemini ، يمكن للروبوتات رؤية محيطها وفهم اللغة الطبيعية. يمكنهم بعد ذلك أداء مهام جديدة على الرغم من أنهم ربما لم يتفاعلوا أبدًا مع الأشياء أو الأماكن من قبل.

https://www.youtube.com/watch؟v=hyqs2oaif-i

تشرح Google المبادئ الثلاثة التي وجهت تطوير روبوتات الجوزاء. هذا عمومية ، التفاعل ، والبراعة:

لكي تكون مفيدًا ومفيدًا للناس ، تحتاج نماذج الذكاء الاصطناعى للروبوتات إلى ثلاث صفات رئيسية: يجب أن تكون عامة ، مما يعني أنها قادرة على التكيف مع المواقف المختلفة ؛ يجب أن يكونوا تفاعليين ، مما يعني أنه يمكنهم فهم التعليمات أو التغييرات بسرعة في بيئتهم ؛ ويجب أن يكونوا مختلفين ، مما يعني أنه يمكنهم القيام بأنواع الأشياء التي يمكن أن يفعلها الناس عمومًا بأيديهم وأصابعهم ، مثل الكائنات المعالجة بعناية.

كما سترى في مقاطع الفيديو في هذا المنشور ، يمكن للروبوتات التعرف على جميع أنواع الكائنات على طاولة وتنفيذ المهام في الوقت الفعلي. على سبيل المثال ، يغطس روبوت كرة سلة صغيرة من خلال طوق عندما يتم إخباره بذلك.

أنواع مختلفة من الروبوتات يمكن أن تستخدم نماذج AI Robotics Gemini. مصدر الصورة: جوجل

يمكن أن تتكيف روبوتات الذكاء الاصطناعى بسرعة مع المشهد المتغير. قيلًا لوضع الموز في سلة من لون معين على طاولة ، فإن الروبوتات تؤدي المهمة بشكل صحيح على الرغم من أن الإنسان يتحرك بشكل مزعج تلك السلة.

أخيرًا ، يمكن أن تعرض روبوتات الذكاء الاصطناعى مهارات حركية رائعة ، مثل طي الأوريغامي أو تعبئة حقيبة ziplock.

تشرح Google أن نموذج Gemini Robotics يعمل مع جميع أنواع أنواع الروبوت ، سواء كانت منصة روبوتية ثنائية أو نموذج بشري.

https://www.youtube.com/watch؟v=x-exzz-ciuw

Gemini Robotics-ER هي تقنية منظمة العفو الدولية الرائعة للروبوتات. يركز هذا النموذج على فهم العالم حتى تتمكن الروبوتات من أداء الحركات والمهام داخل المساحة التي من المفترض أن تقوم بإجراءات. مع Robotics Gemini ، فإن روبوتات الذكاء الاصطناعي ستستخدم Gemini 2.0 للرمز (العقل؟) أثناء الطيران:

يحسن الجوزاء Robotics-ER قدرات Gemini 2.0 الحالية مثل الإشارة والاكتشاف ثلاثي الأبعاد بهامش كبير. الجمع بين التفكير المكاني وقدرات الترميز في الجوزاء ، يمكن لـ Gemini Robotics-ER مثيله على القدرات الجديدة تمامًا أثناء الطيران. على سبيل المثال ، عند عرض قدح القهوة ، يمكن للنموذج أن يتخلى عن فهم ملعون من أصابعه لالتقاطه عن طريق المقبض ومسار آمن للاقتراب منه.

كل هذا مثير للغاية ، على الأقل لعشاق الذكاء الاصطناعي هذا ، على الرغم من أنني أعلم أن لدي الكثير من الانتظار حتى تتوفر روبوتات منظمة العفو الدولية التي تعمل بها مثل هذه التقنية تجاريًا.

يساعد Robotics Gemini-er على رؤية الأشياء وفهم المساحات من حولها. مصدر الصورة: جوجل

قبل أن تبدأ في القلق بشأن أن تصبح روبوتات الذكاء الاصطناعى العدو ، كما هو الحال في الأفلام ، يجب أن تعلم أن Google قد طورت أيضًا دستورًا روبوتًا في العمل السابق لضمان أن روبوتات الذكاء الاصطناعى تتصرف بأمان في بيئاتها وتمنع الأذى للبشر. يعتمد دستور السلامة على قوانين Isaac Asimov الثلاثة للروبوتات ، حيث تقوم Google بتحديثها لإنشاء إطار عمل جديد يمكن تعديله عبر تعليمات اللغة الطبيعية البسيطة:

لقد قمنا منذ ذلك الحين بتطوير إطار لإنشاء دساتير تعتمد على البيانات تلقائيًا-القواعد المعبر عنها مباشرة في اللغة الطبيعية-لتوجيه سلوك الروبوت. سيسمح هذا الإطار للأشخاص بإنشاء الدساتير وتعديلها وتطبيقها لتطوير روبوتات أكثر أمانًا وأكثر توافقًا مع القيم الإنسانية.

يمكنك قراءة المزيد حول نماذج الجوزاء الروبوتات في هذا الرابط.