لقد حصلت Chatgpt للتو على قوى رؤية الكمبيوتر التي تفجر في الأفلام

فاجأنا Openai جميعًا بميزات Chatgpt الجديدة لتوليد الصور ، والتي أصبحت فيروسية قبل بضعة أسابيع. ومع ذلك ، تجدر الإشارة إلى أن chatbot لا يقوم فقط بإنشاء صور من موجه نص ؛ يمكن أن تفهم أيضا الصور. حصلت ChatGPT على قدراتها متعددة الوسائط في مايو الماضي ، والتي تتضمن القدرة على النظر إلى الملفات ، بما في ذلك الصور.
سريع إلى الأمام لإعلان O3 و O4-MINI في وقت سابق من هذا الأسبوع ، وحصلت Chatgpt على ترقية ضخمة تتعلق بالصور. إنه شيء يتصدر بسهولة قدرته على إنشاء صور Deepfakes المشاهير أو استوديو Ghibli.
يمكن أن تنظر نماذج التفكير الجديدة في ChatGPT (O3 و O4-MINI) إلى صورة ودمجها في سلسلة أفكارها عند التعامل مع سؤال أو موجه. يعالج الذكاء الاصطناعى الصور من تلقاء نفسه ، مما يعني أنه يمكنه تدوير ومحصول وتكبير صورة للعثور على المعلومات التي تبحث عنها.
هذا هو أقرب شيء لدينا على رؤية الكمبيوتر التي نراها طوال الوقت في الأفلام. كما تعلمون ، عندما يخبر نجم الفيلم أو البرنامج التلفزيوني The Tech Guy لتعزيز صورة ضبابية ، ثم يجعل الكمبيوتر كل شيء واضحًا. لا يمكن أن يحدث هذا في الحياة الحقيقية (حسنًا ، إنه نوع من العلبة) ، ولكن يمكن الآن لفهم AI مثل ChatGPT O3 و O4-Mini الصور ومحتوياتها أفضل بكثير من ذي قبل. يمكنهم فهم تفاصيل ضبابية في الصور ، تمامًا مثل أجهزة الكمبيوتر في تلك الأفلام.
كمستخدم ChatGpt Plus ، تمكنت بالفعل من الوصول إلى O3 و O4-Mini ، وهو أمر مثير للدهشة ، بالنظر إلى أنني أعيش في أوروبا. لم تتح لي الفرصة لتجربة ميزة التفكير المرئي الجديد ، لكنني مررت بعروض Openai ، وفجرت عقلي. إليكم عدد قليل منهم:
ما هو مكتوب على دفتر الملاحظات؟
في هذه المطالبة ، قام Openai بتحميل صورة لدفتر ملاحظات إلى ChatGpt O3 ، يسألها “ما هو مكتوب على دفتر الملاحظات؟”
نظرت الذكاء الاصطناعى إلى الصورة ، وانقلبها ، وتعرفت على خط اليد ، وأنتجت الإجابة.

ما هو مكتوب على العلامة؟
عندما رأيت الصورة التالية ، سألت على الفور ، “أي علامة ؟؟؟”

بعد ذلك ، رأيت Chatgpt يتكبير للعثور على الإجابة ، وهو ما فعلته. نعم ، أعتقد أن منظمة العفو الدولية يمكن أن تقرأ صور ضبابية تحتوي على نص. بجدية ، كان بإمكاني جعل هذا النص بنفسي بعد تكبير ما يكفي. ولكن سيكون أسرع إذا كان بإمكان الذكاء الاصطناعى استلامه.

أي محطة هذا؟
كان على chatgpt O3 أن يفعل أكثر من تكبير صورة للإجابة على هذه المطالبة: “أي توقف هذا ، وما هو تردد الحافلة في هذا التوقف؟ ابحث في الإنترنت إذا لزم الأمر!”

كان على الذكاء الاصطناعى تحديد الموقع ، وقراءة بعض النص المرئي على العلامة ، ثم تقديم إجابة نهائية.
لم يكن لدى ChatGPT O3 مشكلة في التفكير من خلاله ، على الرغم من أنه يحتاج إلى ما يقرب من ثلاث دقائق للإجابة على السؤال.

حددت الذكاء الاصطناعى الموقع ، وتم تكبيره على اللوحة في الخلفية ، وترجم النص ، ثم قدم استجابة. عقل. مهب.

ما هي الأفلام التي تم تصويرها هنا؟
بنفس القدر من الإعجاب هو العرض التوضيحي التالي الذي عرضه Openai. أعطيت الذكاء الاصطناعى صورة لموقع مأخوذ من خلال نافذة.

سأل Openai Chatgpt O3 عن الأفلام التي تم تصويرها في هذا الموقع ، وهو سؤال يتضمن التفكير.
أولاً ، يحتاج الذكاء الاصطناعي إلى تحديد الموقع من خلال النظر في النافذة. بعد ذلك ، يجب أن تجد الأفلام التي ربما تم تصويرها بالقرب من هذا الموقع من خلال تصفح الويب.

لا أتوقع أن يعمل المنطق البصري الجديد لـ Chatgpt في كل مرة. ولكن إذا كان بإمكان الذكاء الاصطناعى التعامل مع الصور في سلسلة تفكيرها مثل هذه العروض التجريبية Openai ، فإننا نبحث عن وظائف لا تصدق في AI chatbots. ونعم ، يجب أن تتحسن قدرات المنطق البصري لمنظمة العفو الدولية بشكل كبير مع النماذج المستقبلية.
يمكنك رؤية المزيد من أمثلة التفكير المرئي ChatGPT في هذا الرابط.