أخبار

NVLM رسمي ومفتوح المصدر


لا يمكنك التحدث عن برامج الذكاء الاصطناعي التوليدية مثل ChatGPT دون التفكير في Nvidia، التي تعد واحدة من أكبر الفائزين في الأيام الأولى لثورة الذكاء الاصطناعي الجيني. لكن شركة Nvidia معروفة حتى الآن بتوفير الرقائق التي تحتاجها شركات مثل OpenAI لمعالجة جميع وظائف الذكاء الاصطناعي التوليدية المعقدة الخاصة بها.

وبالتقدم سريعًا إلى أوائل أكتوبر 2024، أذهلت Nvidia عالم الذكاء الاصطناعي بإعلانها عن NVLM 1.0، وهي عائلة من نماذج اللغات الكبيرة متعددة الوسائط التي يمكنها الأداء على الأقل مثل نموذج GPT-4o الخاص بـ ChatGPT.

قبل أن تتحمس كثيرًا لمنتج NVLM المحتمل الذي يواجه المستهلك من Nvidia، يجب أن تعلم أن الشركة تختار طريقًا مختلفًا لإظهار قوة الذكاء الاصطناعي الجيني الخاصة بها. بدلاً من إطلاق منافس مباشر لـ ChatGPT وClaude وGemini، فإنها تجعل أوزان النموذج متاحة للعامة حتى يتمكن الآخرون من استخدام NVLM لتطوير تطبيقات وأنظمة الذكاء الاصطناعي الخاصة بهم.

أصدرت Nvidia ورقة للإعلان عن NVLM 1.0 وتكشف أنها ستفتح مصدر الأوزان وكود التدريب:

نقدم NVLM 1.0، وهي عائلة من نماذج اللغات الكبيرة متعددة الوسائط (LLMs) من الدرجة الأولى التي تحقق أحدث النتائج في مهام لغة الرؤية، وتنافس النماذج المسجلة الملكية الرائدة (على سبيل المثال، GPT-4o) والوصول المفتوح النماذج (على سبيل المثال، Llama 3-V 405B وInternVL 2). ومن اللافت للنظر أنه بعد التدريب متعدد الوسائط، يُظهر NVLM 1.0 دقة محسنة في المهام النصية فقط عبر عموده الفقري LLM. نحن نوفر مصدرًا مفتوحًا لأوزان النموذج وكود التدريب في Megatron-Core للمجتمع.

تعد المعلمة NVLM-D-72B التي تبلغ 72 مليارًا هي LLM الرائدة في Nvidia. وتقول الشركة إنها “تحقق أداءً على قدم المساواة مع النماذج الرائدة في كل من مهام لغة الرؤية والمهام النصية فقط.”

تعرض الورقة أمثلة متنوعة للدردشة التي تتضمن مدخلات متعددة الوسائط. يستخدم البشر في الدردشات النصوص والصور في مطالباتهم. توضح الأمثلة أن الذكاء الاصطناعي جيد جدًا في تحديد الأشخاص والحيوانات والأشياء الموجودة في هذه الصور وتقديم الإجابات المتعلقة بها.

مثال على إجابة NVLM لمطالبة تتضمن نصًا وصورة. مصدر الصورة: نفيديا

في المثال أعلاه، يطلب المستخدم من NVLM شرح أحد الميمات، ويقوم الذكاء الاصطناعي بذلك بشكل جيد للغاية. إليك شرح Nvidia لقدرات الذكاء الاصطناعي:

يُظهر NVLM-D-1.0-72B قدرات متعددة الاستخدامات في العديد من المهام متعددة الوسائط من خلال الاستخدام المشترك للتعرف الضوئي على الحروف (OCR) والاستدلال والتعريب والحس السليم والمعرفة العالمية والقدرة على البرمجة. على سبيل المثال، يمكن لنموذجنا أن يفهم الفكاهة الكامنة وراء ميم “الملخص مقابل الورق” في المثال (أ) عن طريق إجراء التعرف الضوئي على الحروف للتعرف على التسميات النصية لكل صورة واستخدام المنطق لفهم سبب وضع “الملخص” جنبًا إلى جنب – والذي تم تصنيفه بعلامة شرسة – مظهر الوشق – و”الورقة” – التي تحمل علامة قطة منزلية – أمر مضحك.

يمكن لـ NVLM أيضًا حل المسائل الرياضية المعقدة، وهو ما رأيناه مع منتجات genAI الأخرى، بما في ذلك ChatGPT من OpenAI.

أيضًا، تقول Nvidia إن NVLM-D-72B يمكنه تحسين الأداء في المهام النصية فقط بعد التدريب متعدد الوسائط.

تشير المعايير التي قدمتها Nvidia إلى أن NVLM يمكنها أن تصمد أمام GPT-4o وClaude 3.5 Sonnet وGemini 1.5 Pro. يمكن لنموذج لغة genAI المفتوح الآن من Nvidia أن يتفوق في الواقع على منتجات الذكاء الاصطناعي الخاصة من OpenAI وAnthrophic وGoogle في مهام معينة. يوضح الجدول أدناه أيضًا أن NVLM-D-72B يتساوى مع منصات Llama AI ذات الوصول المفتوح من Meta.

مقارنة معايير NVLM 1.0 مع منافسي الذكاء الاصطناعي المفتوح والمغلق.
مقارنة معايير NVLM 1.0 مع منافسي الذكاء الاصطناعي المفتوح والمغلق. مصدر الصورة: نفيديا

مثل فينشربيت يشير إلى أن الكشف المفاجئ لـ Nvidia قد أذهل بعض الباحثين في مجال الذكاء الاصطناعي.

لا يقتصر الأمر على أداء NVLM فحسب، بل قرار Nvidia بإتاحته كمشروع مفتوح المصدر. ومن غير المتوقع أن تفعل شركات مثل OpenAI وClaude وGoogle ذلك في أي وقت قريب. يمكن أن يفيد نهج Nvidia باحثي الذكاء الاصطناعي والشركات الصغيرة، حيث سيتمكنون من الوصول إلى ماجستير إدارة الأعمال متعدد الوسائط الذي يبدو قويًا دون الحاجة إلى دفع ثمنه.

سيتعين على مستخدمي ChatGPT العاديين مثلك ومثلي الانتظار ورؤية ما سينتج عن إعلان Nvidia. وهذا يعني أنه سيتعين علينا انتظار المنتجات التجارية التي تستخدم NVLM. وكلما حدث ذلك مبكرًا، كلما كان ذلك أفضل للصناعة، لأنه قد يؤثر على قرارات الأعمال المختلفة لشركة OpenAI وAnthropic وGoogle وغيرها.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى