لقد حصلت Chatgpt للتو على قوى رؤية الكمبيوتر التي تفجر في الأفلام

فاجأنا Openai جميعًا بميزات Chatgpt الجديدة لتوليد الصور ، والتي أصبحت فيروسية قبل بضعة أسابيع. ومع ذلك ، تجدر الإشارة إلى أن chatbot لا يقوم فقط بإنشاء صور من موجه نص ؛ يمكن أن تفهم أيضا الصور. حصلت ChatGPT على قدراتها متعددة الوسائط في مايو الماضي ، والتي تتضمن القدرة على النظر إلى الملفات ، بما في ذلك الصور.

سريع إلى الأمام لإعلان O3 و O4-MINI في وقت سابق من هذا الأسبوع ، وحصلت Chatgpt على ترقية ضخمة تتعلق بالصور. إنه شيء يتصدر بسهولة قدرته على إنشاء صور Deepfakes المشاهير أو استوديو Ghibli.

يمكن أن تنظر نماذج التفكير الجديدة في ChatGPT (O3 و O4-MINI) إلى صورة ودمجها في سلسلة أفكارها عند التعامل مع سؤال أو موجه. يعالج الذكاء الاصطناعى الصور من تلقاء نفسه ، مما يعني أنه يمكنه تدوير ومحصول وتكبير صورة للعثور على المعلومات التي تبحث عنها.

هذا هو أقرب شيء لدينا على رؤية الكمبيوتر التي نراها طوال الوقت في الأفلام. كما تعلمون ، عندما يخبر نجم الفيلم أو البرنامج التلفزيوني The Tech Guy لتعزيز صورة ضبابية ، ثم يجعل الكمبيوتر كل شيء واضحًا. لا يمكن أن يحدث هذا في الحياة الحقيقية (حسنًا ، إنه نوع من العلبة) ، ولكن يمكن الآن لفهم AI مثل ChatGPT O3 و O4-Mini الصور ومحتوياتها أفضل بكثير من ذي قبل. يمكنهم فهم تفاصيل ضبابية في الصور ، تمامًا مثل أجهزة الكمبيوتر في تلك الأفلام.

كمستخدم ChatGpt Plus ، تمكنت بالفعل من الوصول إلى O3 و O4-Mini ، وهو أمر مثير للدهشة ، بالنظر إلى أنني أعيش في أوروبا. لم تتح لي الفرصة لتجربة ميزة التفكير المرئي الجديد ، لكنني مررت بعروض Openai ، وفجرت عقلي. إليكم عدد قليل منهم:

ما هو مكتوب على دفتر الملاحظات؟

في هذه المطالبة ، قام Openai بتحميل صورة لدفتر ملاحظات إلى ChatGpt O3 ، يسألها “ما هو مكتوب على دفتر الملاحظات؟”

chatgpt O3 النظر في دفتر ملاحظات رأسًا على عقب. مصدر الصورة: Openai

نظرت الذكاء الاصطناعى إلى الصورة ، وانقلبها ، وتعرفت على خط اليد ، وأنتجت الإجابة.

انقلبت الذكاء الاصطناعى الصورة من تلقاء نفسها. مصدر الصورة: Openai

ما هو مكتوب على العلامة؟

عندما رأيت الصورة التالية ، سألت على الفور ، “أي علامة ؟؟؟”

هل يمكنك اكتشاف العلامة؟ مصدر الصورة: Openai

بعد ذلك ، رأيت Chatgpt يتكبير للعثور على الإجابة ، وهو ما فعلته. نعم ، أعتقد أن منظمة العفو الدولية يمكن أن تقرأ صور ضبابية تحتوي على نص. بجدية ، كان بإمكاني جعل هذا النص بنفسي بعد تكبير ما يكفي. ولكن سيكون أسرع إذا كان بإمكان الذكاء الاصطناعى استلامه.

تم تكبير O3 وقراءة العلامة. مصدر الصورة: Openai

أي محطة هذا؟

كان على chatgpt O3 أن يفعل أكثر من تكبير صورة للإجابة على هذه المطالبة: “أي توقف هذا ، وما هو تردد الحافلة في هذا التوقف؟ ابحث في الإنترنت إذا لزم الأمر!”

كان على الذكاء الاصطناعى تحديد الموقع ، وقراءة بعض النص المرئي على العلامة ، ثم تقديم إجابة نهائية.

لم يكن لدى ChatGPT O3 مشكلة في التفكير من خلاله ، على الرغم من أنه يحتاج إلى ما يقرب من ثلاث دقائق للإجابة على السؤال.

تم تكبير O3 على الصورة مرة أخرى لقراءة النص. مصدر الصورة: Openai

حددت الذكاء الاصطناعى الموقع ، وتم تكبيره على اللوحة في الخلفية ، وترجم النص ، ثم قدم استجابة. عقل. مهب.

هذا هو جدول الحافلة لهذا التوقف. مصدر الصورة: Openai

ما هي الأفلام التي تم تصويرها هنا؟

بنفس القدر من الإعجاب هو العرض التوضيحي التالي الذي عرضه Openai. أعطيت الذكاء الاصطناعى صورة لموقع مأخوذ من خلال نافذة.

هل يمكن أن تنظر Chatgpt من النافذة وفهم ما يراه؟ مصدر الصورة: Openai

سأل Openai Chatgpt O3 عن الأفلام التي تم تصويرها في هذا الموقع ، وهو سؤال يتضمن التفكير.

أولاً ، يحتاج الذكاء الاصطناعي إلى تحديد الموقع من خلال النظر في النافذة. بعد ذلك ، يجب أن تجد الأفلام التي ربما تم تصويرها بالقرب من هذا الموقع من خلال تصفح الويب.

ها هي قائمة الأفلام. مصدر الصورة: Openai

لا أتوقع أن يعمل المنطق البصري الجديد لـ Chatgpt في كل مرة. ولكن إذا كان بإمكان الذكاء الاصطناعى التعامل مع الصور في سلسلة تفكيرها مثل هذه العروض التجريبية Openai ، فإننا نبحث عن وظائف لا تصدق في AI chatbots. ونعم ، يجب أن تتحسن قدرات المنطق البصري لمنظمة العفو الدولية بشكل كبير مع النماذج المستقبلية.

يمكنك رؤية المزيد من أمثلة التفكير المرئي ChatGPT في هذا الرابط.

مرتبط

الوسوم

لقد حصلت Chatgpt للتو على قوى رؤية الكمبيوتر التي تفجر في الأفلام

ما هو مكتوب على دفتر الملاحظات؟

ما هو مكتوب على العلامة؟

أي محطة هذا؟

ما هي الأفلام التي تم تصويرها هنا؟

معجب بهذه:

مرتبط

اترك تعليقاً إلغاء الرد

تذكر المتطوع المخلص في IEEE جوس جاينور

انتقال MediaTek من التابع إلى القوة

التدريب اللامركزي على الذكاء الاصطناعي يحول المنازل إلى مراكز بيانات

تهديد البرامج الضارة للبنية التحتية الحيوية يثير الإنذارات

ديون البنية التحتية | مؤسسة البحوث

تذكر المتطوع المخلص في IEEE جوس جاينور

انتقال MediaTek من التابع إلى القوة

التدريب اللامركزي على الذكاء الاصطناعي يحول المنازل إلى مراكز بيانات

تهديد البرامج الضارة للبنية التحتية الحيوية يثير الإنذارات

ديون البنية التحتية | مؤسسة البحوث

طالب جامعة تيمبل يتحدث عن امتيازات عضوية IEEE

التكنولوجيا. ترفيه. علوم. صندوق الوارد الخاص بك.

ما هو مكتوب على دفتر الملاحظات؟

ما هو مكتوب على العلامة؟

أي محطة هذا؟

ما هي الأفلام التي تم تصويرها هنا؟

شارك هذا الموضوع:

معجب بهذه:

مرتبط

أول نظرة لك على كابلات Beats

ربما حصلنا للتو على نظرة أولى على جزء من Apple Vision Air

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

تذكر المتطوع المخلص في IEEE جوس جاينور

انتقال MediaTek من التابع إلى القوة

التدريب اللامركزي على الذكاء الاصطناعي يحول المنازل إلى مراكز بيانات

تهديد البرامج الضارة للبنية التحتية الحيوية يثير الإنذارات

ديون البنية التحتية | مؤسسة البحوث

طالب جامعة تيمبل يتحدث عن امتيازات عضوية IEEE