منشئ الصور Google Whisk Gemini AI: كيف يعمل

تهيمن OpenAI على مشهد الذكاء الاصطناعي في الوقت الحالي بعد أن استحوذت بذكاء على العطلات من خلال حدث “12 يومًا”. يقدم لنا كل يوم من أيام الأسبوع بثًا مباشرًا جديدًا حيث تعلن OpenAI عن ميزة ChatGPT جديدة أو تحديث آخر للمنتج، مما لا يترك مجالًا كبيرًا لشركات الذكاء الاصطناعي المتنافسة للتألق. ولكن هناك أيضًا Google، أكبر منافس لـ OpenAI في مجال الذكاء الاصطناعي، والتي وجدت طرقًا ذكية بنفس القدر للتنافس على الاهتمام.
في الأسبوع الماضي فقط، أعلنت Google عن ترقية Gemini 2.0 الكبيرة وأول عملاء الذكاء الاصطناعي. إذا لم يكن ذلك كافيًا لجعلنا ننسى ChatGPT لمدة يوم على الأقل، فقد قررت Google أيضًا الكشف عن نظام Android AR الذي سيعمل على تشغيل أجهزة XR باستخدام الذكاء الاصطناعي في جوهرها. في هذه العملية، قامت جوجل بمعاينة نظارات الواقع المعزز الذكية التي تعمل بتقنية Gemini والتي لم يتم تسميتها.
وبعد بضعة أيام، خرجت جوجل بمنتج جديد آخر للذكاء الاصطناعي. إنه منشئ صور مثير يسمى Google Whisk. إنه ليس مثل منشئ الصور العادي الذي يعمل بتقنية الذكاء الاصطناعي، وربما يجعله هذا أكثر متعة. بدلاً من كتابة مطالبة إلى Gemini لإنشاء صورة معينة تعمل بالذكاء الاصطناعي، يمكنك تحميل الصور وجعل Whisk ينشئ مشاهد جديدة بناءً على مطالباتك.
إنه ليس منتجًا كاملاً، حيث إن Whisk متاح حاليًا فقط كعرض تجريبي من Google Labs. إنه يقتصر أيضًا على السوق الأمريكية، لكنه يبدو رائعًا على الرغم من ذلك.
لدى Google عدد قليل من مولدات الصور القوية المدعومة بالذكاء الاصطناعي تحت تصرفها. بعضها متاح في صور Google، وبعضها تم تقديمه مع هواتف Pixel 9. لقد انتقدت عادةً برامج تحرير الصور المدعومة بالذكاء الاصطناعي من Google، خاصة تلك التي يتم شحنها مع هواتف Pixel 9، لأنها تسمح لأي شخص بالتلاعب بالواقع بسهولة وتحويله إلى شيء مزيف.
كانت الشركة في عجلة من أمرها لإظهار تقدمها في مجال الذكاء الاصطناعي لدرجة أنها أطلقت هذه الميزات دون نشر الضمانات أولاً. تلك جاءت في وقت لاحق.
الخفق ليس هكذا. ليس المقصود منه إنشاء صور نابضة بالحياة يمكن استخدامها في أنشطة مشبوهة. إنها طريقة ممتعة لتطوير صور الذكاء الاصطناعي السريعة باستخدام الصور المتوفرة لديك بالفعل كمصدر إلهام. لن يخبرك Whisk بكتابة مطالبة مفصلة لصورة تم إنشاؤها بواسطة الذكاء الاصطناعي. بدلاً من ذلك، سيطلب منك تحميل ثلاث صور: واحدة للموضوع، وواحدة للمشهد، وواحدة للنمط. سيقوم Gemini بعد ذلك بتحليل تلك الصور، وصياغة مطالبته الخاصة بناءً عليها، وتمرير ذلك إلى أداة إنشاء الصور Imagen 3 من Google.
وقالت جوجل في منشور على مدونتها إن العملية “تجسد جوهر الموضوع الخاص بك، وليس نسخة طبق الأصل”.
ومع ذلك، قد لا يعجبك ما اعتقد الجوزاء أنك تريده من صورك. إذا كان الأمر كذلك، فيمكنك إضافة مطالبة نصية حتى يتمكن الذكاء الاصطناعي من ابتكار شيء جديد يتماشى أكثر مع ما تصورته.
تشير Google أيضًا إلى أن Whisk هو “نوع جديد من الأدوات الإبداعية” وليس محرر الصور التقليدي. “لقد قمنا ببنائها من أجل الاستكشاف البصري السريع، وليس من أجل إجراء تعديلات مثالية للبكسل. وقالت جوجل: “إن الأمر يتعلق باستكشاف الأفكار بطرق جديدة ومبتكرة، مما يسمح لك بالعمل من خلال عشرات الخيارات وتنزيل ما تحبه”.
وجد بعض مستخدمي Redditors الذين اختبروا الميزة أن Whisk يمكنه إنشاء كائنات واقعية، مثل القطة أدناه:
يبدو لي أيضًا أن Whisk هي الأداة المثالية لطلب مساعدتك في تدريب الذكاء الاصطناعي دون أن يخبرك Google بأنك تقوم بتدريب الذكاء الاصطناعي. فكر في الأمر: أنت تعطي Google صورك، ثم ينظر إليها الجوزاء ليرى ما يمكنه فهمه. ثم يقوم بتجميع ثلاث صور معًا لإنشاء صورة واحدة ليست مثالية. إن المطالبة النصية التي تستخدمها لتحسين الصورة هي في الواقع أداة تعليقات لـ Gemini.
في عالم تنفد فيه البيانات من شركات الذكاء الاصطناعي لتدريب الذكاء الاصطناعي، يمكن لتجارب مثل Whisk، والتي يمكن أن تنتشر بسهولة، أن تكون مفيدة. في هذه الملاحظة، لا يذكر Google ما يحدث مع تفاعل Whisk الخاص بك. ماذا يحدث للصور التي تقوم بتحميلها إلى Whisk؟ ماذا يحدث مع “الدردشة” مع الجوزاء؟ نحن لا نعرف.
يمكنك تجربة Whisk عن طريق الاشتراك فيه في Google Labs على هذا الرابط، طالما أنك مقيم في الولايات المتحدة. منشئ الصور الجديد بتقنية الذكاء الاصطناعي غير متوفر في الأسواق الدولية. إليك مقطع فيديو لـ Whisk أثناء العمل:




