يزعم أن ميتا تستخدم 82 تيرابايت من الكتب المسروقة لتدريب الذكاء الاصطناعي

إذا اتبعت منتجات الذكاء الاصطناعى مثل ChatGpt و Gemini ، فيجب عليك أيضًا إدراك واحدة من الحقائق الحزينة عنها. لا يمكننا الحصول على الذكاء الاصطناعى المتقدم دون تدريب مناسب ، وتتضمن عملية التدريب تعريض الذكاء الاصطناعي لأطنان من البيانات عالية الجودة. حقيقة أخرى هي أنني ، كمستخدم ChatGpt ، لا أريد البيانات الشخصية في الدردشات الخاصة بي مع الذكاء الاصطناعى للمساعدة في تدريب نماذج أفضل يمكن أن تكون أكثر فائدة. وبالمثل ، فإن مالكي محتوى حقوق الطبع والنشر ليسوا سعداء بتدريب شركات الذكاء الاصطناعي على أعمالهم على أعمالهم دون موافقة. ومع ذلك ، إنه شيء يحدث طوال الوقت. أيضًا ، قد لا ترغب بعض شركات الذكاء الاصطناعي في إنفاق الأموال للحصول على الموافقة عندما يتمكنون من الحصول على البيانات من زوايا الإنترنت Shadier.
ليس فقط Openai هو الذي يجب أن يواجه دعاوى حقوق الطبع والنشر ، حيث تقاتل Meta قضية انتهاك حقوق النشر ذات الصلة بـ AI. على الرغم من أن دعوى الدعوى الجماعية ضد META ليست مفاجئة ، إلا أن الكشف الذي جاء منه يلقي المزيد من الضوء على نوع نماذج البيانات مثل استخدام META AI.
وبحسب ما ورد قام Meta بتنزيل ما يصل إلى 82 تيرابايت من الكتب المقرصنة من مصادر غير قانونية لتدريب الذكاء الاصطناعي. يأتي الرقم من الاتصالات المزعومة بين موظفي META الذين ظهروا في الدعوى. ويترتب على اعتراف Meta بأنه سيورل عشرات الملايين من الكتب المقرصنة.
ظهرت مستندات من الدعوى ضد Meta على X ، مما يوفر المزيد من التفاصيل حول ممارسات Meta. حتى أنها تتضمن تعليقات من موظفي META المشاركين في العملية الذين تأملوا في نوع جمع البيانات غير القانوني الذي كان Meta يفعله.
فيما يلي بعض التعليقات من الوثائق:
- “لا أعتقد أننا يجب أن نستخدم المواد المقرصنة. أنا حقا بحاجة لرسم خط هناك. ” – كبار باحث من الذكاء الاصطناعي.
- “يجب أن يكون استخدام المواد المقرصنة خارج عتبةنا الأخلاقية” … “Scihub ، ResearchGate ، Libgen يشبه بشكل أساسي Piratebay أو شيء من هذا القبيل ، فهي توزع المحتوى المحمي بواسطة حقوق الطبع والنشر وينتهكونه”. – باحث آخر الذكاء الاصطناعي.
- “لا يشعر التورن من جهاز كمبيوتر محمول للشركات على صواب” – موظفو META يناقشون في أبريل 2023 باستخدام VPN لإخفاء عناوين IP META عند تنزيل المحتوى المقرصنة.
تذكر المستندات أيضًا اجتماعًا ميتا في يناير 2023 ، والذي من المفترض أن يحضره الرئيس التنفيذي لشركة Meta Mark Zuckerber وقال إنه يريد “تحريك هذه الأشياء للأمام” وأن “نحتاج إلى إيجاد طريقة لإلغاء حظر هذا”.
كتذكير ، أصبح Chatgpt فيروسًا في أواخر نوفمبر 2022 ، مما أذهل عالم التكنولوجيا ودفعت تحولًا كبيرًا نحو البرمجيات ومنتجات الأجهزة الأولى من الذكاء الاصطناعي. في حين تم الإشادة بنماذج Llama المفتوحة المصدر في Meta في السنوات الماضية ، لم تكن Meta AI في الواقع تصنع الأخبار مثل ChatGpt أو Gemini لابتكارات الذكاء الاصطناعي والميزات الجديدة.
في سبتمبر الماضي ، قلل زوكربيرج من الحاجة إلى دفع المبدعين وفقًا لمطالبهم في مقابلة:
“أعتقد أن المبدعين الفرديين أو الناشرين يميلون إلى المبالغة في تقدير قيمة محتواهم المحددة في المخطط الكبير لهذا.
أظن أنه سيكون هناك شراكات معينة يتم إجراؤها عندما يكون المحتوى مهمًا وقيمة حقًا […] عندما يتعلق الأمر بالدفع ، إذا طالبوا بعدم استخدام محتوىهم ، فلن نستخدم محتوىها. ليس الأمر هكذا سيغير نتائج هذه الأشياء كثيرًا. “
عندما أدلى Zuckerberg بالتعليقات أعلاه ، تم بالفعل مقاضاة Meta لانتهاك حقوق الطبع والنشر. الآن وبعد أن تعلمنا مقدار meta المحتوى المقرصنة يُزعم أنه تم تنزيله لتدريب الذكاء الاصطناعي ، فإن التعليق يقرأ بشكل مختلف كثيرًا.
قد يتم تدريب Meta AI بالفعل على محتوى حقوق الطبع والنشر ؛ حقق ميتا هدفها. من السهل إزالة المحتوى المحمي بحقوق الطبع والنشر الآن ، وربما لن يغير نتيجة “هذه الأشياء” كثيرًا.
وهذا هو ، حصلت Meta بالفعل على ما تحتاجه ، على الأقل للمرحلة الأولى من تطوير Llama. هذا على افتراض أن Meta استخدم البيانات لتدريب الذكاء الاصطناعي. قد تقول الشركة دائمًا أنها قامت بتنزيلها فقط ولكنها لم تستخدمها أبدًا.
قد تغير نتيجة التجربة كيف تتعامل Meta مع مصادر جديدة للمحتوى في المستقبل ، وخاصة بالنظر إلى هذه الكشفات اللعينة. ليس فقط الكمية الهائلة من الكتب المطبوعة التي ربما تكون Meta تنزيلها لتدريب الذكاء الاصطناعي ؛ إنها أيضًا الممارسات المستخدمة للقيام بذلك.
وفق أجهزة توم و ARS Technica، اتخذت Meta خطوات لضمان عدم تتبع تنزيل المحتوى غير القانوني إلى Meta. هذا يشير إلى أن Meta اتخذت خطوات متعمدة للحصول على محتوى مقرصنة لمنظمة العفو الدولية ، مع العلم تمامًا بما كانت تفعله.
ومن المفارقات أن Openai يتهم Deepseek باستخدام بيانات ChatGPT لتدريب Deepseek AI التي أصبحت فيروسية قبل بضعة أسابيع. هذا على قدم المساواة مع حاملي حقوق الطبع والنشر يقولون إن Openai و Meta قاموا بنسخ أعمالهما لتدريب AIS.