باستخدام ملف Robots.txt، توقف مواقع الويب برامج زحف الويب الخاصة بشركات الذكاء الاصطناعي

يفترض معظم الناس أن الذكاء الاصطناعي التوليدي سيستمر في التحسن؛ بعد كل شيء، هذا هو الاتجاه حتى الآن. وقد تفعل ذلك. لكن ما لا يدركه بعض الأشخاص هو أن نماذج الذكاء الاصطناعي التوليدية تكون جيدة بقدر مجموعات البيانات الضخمة التي تم تدريبهم عليها، وأن مجموعات البيانات هذه لا يتم إنشاؤها من بيانات خاصة مملوكة لشركات الذكاء الاصطناعي الرائدة مثل OpenAI وAnthropic. وبدلاً من ذلك، فهي تتكون من بيانات عامة أنشأناها جميعًا — أي شخص كتب منشورًا على مدونة، أو نشر مقطع فيديو، أو علق على موضوع على موقع Reddit، أو قام بأي شيء آخر عبر الإنترنت.

يسلط تقرير جديد صادر عن مبادرة مصدر البيانات، وهي مجموعة تطوعية من الباحثين في مجال الذكاء الاصطناعي، الضوء على ما يحدث مع كل تلك البيانات. ويشير التقرير الذي يحمل عنوان “الموافقة في الأزمات: التدهور السريع لمشاعات بيانات الذكاء الاصطناعي”، إلى أن عددًا كبيرًا من المنظمات التي تشعر بالتهديد من الذكاء الاصطناعي التوليدي تتخذ تدابير لحجب بياناتها. IEEE الطيف تحدثت مع شاين لونجبري، الباحث الرئيسي في مبادرة مصدر البيانات، حول التقرير وآثاره على شركات الذكاء الاصطناعي.

شاين لونجبري على:

كيف تمنع مواقع الويب برامج زحف الويب، ولماذا

اختفاء البيانات وماذا يعني بالنسبة لشركات الذكاء الاصطناعي

البيانات الاصطناعية، وبيانات الذروة، وماذا يحدث بعد ذلك

التكنولوجيا التي تستخدمها مواقع الويب لإبعاد برامج زحف الويب ليست جديدة – بروتوكول استبعاد الروبوت تم تقديمه في عام 1995. هل يمكنك شرح ماهيته ولماذا أصبح فجأة ذا أهمية كبيرة في عصر الذكاء الاصطناعي التوليدي؟

شاين لونجبري

شاين لونجبري: Robots.txt هو ملف يمكن قراءته آليًا وتستخدمه برامج الزحف – وهي برامج الروبوت التي تتنقل عبر الويب وتسجل ما تراه – لتحديد ما إذا كان سيتم الزحف إلى أجزاء معينة من موقع الويب أم لا. لقد أصبح المعيار الفعلي في العصر الذي استخدمته فيه مواقع الويب في المقام الأول لتوجيه البحث على الويب. لذا فكر في Bing أو بحث Google؛ لقد أرادوا تسجيل هذه المعلومات حتى يتمكنوا من تحسين تجربة تنقل المستخدمين عبر الويب. كانت هذه علاقة تكافلية للغاية لأن بحث الويب يعمل عن طريق إرسال حركة المرور إلى مواقع الويب والمواقع التي تريد ذلك. بشكل عام، تعمل معظم مواقع الويب بشكل جيد مع معظم برامج الزحف.

اسمحوا لي أن أتحدث بعد ذلك عن سلسلة من الإدعاءات التي من المهم أن نفهمها. تعتمد نماذج الذكاء الاصطناعي ذات الأغراض العامة وقدراتها الرائعة للغاية على حجم البيانات والحوسبة التي تم استخدامها لتدريبها. النطاق والبيانات مهمان حقًا، وهناك عدد قليل جدًا من المصادر التي توفر نطاقًا عامًا مثل الويب. تم تدريب الكثير من نماذج الأساس عليها [data sets composed of] عمليات الزحف على شبكة الإنترنت. ضمن مجموعات البيانات الشائعة والمهمة هذه، توجد في الأساس مواقع الويب والبنية التحتية للزحف المستخدمة لجمع تلك البيانات وتعبئتها ومعالجتها. لا تنظر دراستنا إلى مجموعات البيانات فحسب، بل إلى إشارات التفضيل من مواقع الويب الأساسية. إنها سلسلة التوريد للبيانات نفسها.

ولكن في العام الماضي، بدأت الكثير من مواقع الويب في استخدام ملف robots.txt لتقييد الروبوتات، وخاصة مواقع الويب التي يتم تحقيق الدخل منها من خلال الإعلانات ونظام حظر الاشتراك غير المدفوع، لذا فكر في الأخبار والفنانين. إنهم خائفون بشكل خاص، وربما يكونون على حق، من أن الذكاء الاصطناعي التوليدي قد يؤثر على سبل عيشهم. لذا فهم يتخذون التدابير اللازمة لحماية بياناتهم.

عندما يضع موقع ما قيودًا على ملف robots.txt، فإن الأمر يشبه وضع علامة عدم التعدي على ممتلكات الغير، أليس كذلك؟ انها ليست قابلة للتنفيذ. عليك أن تثق في أن برامج الزحف ستحترمها.

لونجبري: تكمن مأساة هذا الأمر في أن ملف robots.txt يمكن قراءته آليًا ولكن لا يبدو أنه قابل للتنفيذ من الناحية القانونية. حيث أن شروط الخدمة قد تكون قابلة للتنفيذ قانونيًا ولكنها غير قابلة للقراءة آليًا. وفي شروط الخدمة، يمكنهم التعبير بلغة طبيعية عن التفضيلات الخاصة باستخدام البيانات. لذا يمكنهم أن يقولوا أشياء مثل: “يمكنك استخدام هذه البيانات، ولكن ليس تجاريًا”. ولكن في ملف robots.txt، يتعين عليك تحديد برامج الزحف بشكل فردي ثم تحديد أجزاء موقع الويب التي تسمح بها أو لا تسمح بها. وهذا يضع عبئًا لا داعي له على مواقع الويب لمعرفة، من بين الآلاف من برامج الزحف المختلفة، أي منها يتوافق مع الاستخدامات التي يرغبون فيها وأي منها لا يرغبون فيه.

هل نعرف ما إذا كانت برامج الزحف عمومًا تحترم القيود الموجودة في ملف robots.txt؟

لونجبري: لدى العديد من الشركات الكبرى وثائق توضح بوضوح قواعدها أو إجراءاتها. في حالة Anthropic، على سبيل المثال، يقولون إنهم يحترمون ملف robots.txt الخاص بـ ClaudeBot. ومع ذلك، فقد ظهرت العديد من هذه الشركات أيضًا في الأخبار مؤخرًا لأنه تم اتهامها بذلك لا احترام ملف robots.txt والزحف إلى مواقع الويب على أي حال. ليس من الواضح من الخارج سبب وجود تناقض بين ما تقول شركات الذكاء الاصطناعي إنها تفعله وما يتم اتهامها بفعله. لكن الكثير من المجموعات الاجتماعية المؤيدة التي تستخدم الزحف – مثل الشركات الناشئة الصغيرة، والأكاديميين، والمنظمات غير الربحية، والصحفيين – تميل إلى احترام ملف robots.txt. إنهم ليسوا الهدف المقصود من هذه القيود، لكن يتم حظرهم بسببها.

العودة إلى الأعلى

في التقرير، نظرت إلى ثلاث مجموعات من بيانات التدريب التي تُستخدم غالبًا لتدريب أنظمة الذكاء الاصطناعي التوليدية، والتي تم إنشاؤها جميعًا من خلال عمليات زحف الويب في السنوات الماضية. لقد وجدت أنه في الفترة من 2023 إلى 2024، كان هناك ارتفاع كبير جدًا في عدد النطاقات التي تم الزحف إليها والتي تم تقييدها منذ ذلك الحين. هل يمكنك التحدث عن تلك النتائج؟

لونجبري: ما وجدناه هو أنه إذا نظرت إلى مجموعة بيانات معينة، فلنأخذ C4، الذي يحظى بشعبية كبيرة، والذي تم إنشاؤه في عام 2019 – في أقل من عام، تم إلغاء حوالي 5 بالمائة من بياناته إذا احترمت التفضيلات أو التزمت بها. من المواقع الأساسية. الآن لا تبدو نسبة 5 بالمائة كثيرًا، ولكن يحدث ذلك عندما تدرك أن هذا الجزء من البيانات يتوافق بشكل أساسي مع البيانات الأعلى جودة والأكثر صيانة والأكثر حداثة. عندما نظرنا إلى أفضل 2000 موقع ويب في مجموعة بيانات C4 هذه – هذه هي أفضل 2000 موقع من حيث الحجم، وهي في الغالب أخبار ومواقع أكاديمية كبيرة ووسائل تواصل اجتماعية ومواقع ويب عالية الجودة جيدة التنظيم – 25 بالمائة من البيانات في هذا أعلى 2000 تم إبطالها منذ ذلك الحين. ما يعنيه هذا هو أن توزيع بيانات التدريب للنماذج التي تحترم ملف robots.txt يتحول بسرعة بعيدًا عن الأخبار عالية الجودة والمواقع الأكاديمية والمنتديات ووسائل التواصل الاجتماعي إلى المزيد من المواقع التنظيمية والشخصية بالإضافة إلى التجارة الإلكترونية والمدونات.

يبدو أن هذا قد يمثل مشكلة إذا كنا نطلب من بعض الإصدارات المستقبلية من ChatGPT أو Perplexity الإجابة على أسئلة معقدة، وهي تأخذ المعلومات من المدونات الشخصية ومواقع التسوق.

لونجبري: بالضبط. من الصعب قياس مدى تأثير ذلك على النماذج، ولكننا نعتقد أنه ستكون هناك فجوة بين أداء النماذج التي تحترم ملف robots.txt وأداء النماذج التي قامت بالفعل بتأمين هذه البيانات وترغب في التدريب عليها على أي حال.

لكن مجموعات البيانات القديمة لا تزال سليمة. هل يمكن لشركات الذكاء الاصطناعي استخدام مجموعات البيانات القديمة فقط؟ ما هو الجانب السلبي من ذلك؟

لونجبري: حسنًا، الحداثة المستمرة للبيانات مهمة حقًا. وليس من الواضح أيضًا ما إذا كان يمكن تطبيق ملف robots.txt بأثر رجعي. من المرجح أن يجادل الناشرون بأنهم يفعلون ذلك. لذلك يعتمد الأمر على شهيتك للدعاوى القضائية أو إلى أين تعتقد أن الاتجاهات قد تتجه، خاصة في الولايات المتحدة، مع الدعاوى القضائية المستمرة المحيطة بالاستخدام العادل للبيانات. ومن الواضح أن المثال الرئيسي نيويورك تايمز ضد OpenAI وMicrosoft، ولكن هناك الآن العديد من المتغيرات. هناك الكثير من عدم اليقين بشأن الاتجاه الذي ستسير فيه الأمور.

ويسمى التقرير “الموافقة في الأزمة”. لماذا تعتبرها أزمة؟

لونجبري: أعتقد أنها أزمة بالنسبة لمنشئي البيانات، بسبب صعوبة التعبير عما يريدون باستخدام البروتوكولات الحالية. وكذلك بالنسبة لبعض المطورين غير التجاريين وربما الذين لا علاقة لهم بالذكاء الاصطناعي، فقد وجد الأكاديميون والباحثون أن الوصول إلى هذه البيانات أصبح أكثر صعوبة. وأعتقد أنها أزمة أيضًا لأنها في حالة من الفوضى. لم يتم تصميم البنية التحتية لاستيعاب جميع حالات الاستخدام المختلفة هذه في وقت واحد. وقد أصبحت في النهاية مشكلة بسبب تصادم هذه الصناعات الضخمة مع الذكاء الاصطناعي التوليدي ضد منشئي الأخبار وغيرهم.

ماذا يمكن لشركات الذكاء الاصطناعي أن تفعل إذا استمر هذا الأمر، وتم تقييد المزيد والمزيد من البيانات؟ ماذا ستكون تحركاتهم من أجل الاستمرار في تدريب نماذج هائلة؟

لونجبري: ستقوم الشركات الكبرى بترخيصها مباشرة. قد لا تكون النتيجة سيئة بالنسبة لبعض الشركات الكبيرة إذا كان الكثير من هذه البيانات محجوبًا أو يصعب جمعه، فهذا يؤدي فقط إلى إنشاء متطلبات رأس مال أكبر للدخول. أعتقد أن الشركات الكبرى ستستثمر المزيد في عملية جمع البيانات وفي الحصول على وصول مستمر إلى مصادر البيانات القيمة التي ينشئها المستخدمون، مثل YouTube وGitHub وReddit. ربما يكون الحصول على حق الوصول الحصري إلى تلك المواقع بمثابة لعبة سوقية ذكية، ولكنها تنطوي على مشكلات من منظور مكافحة الاحتكار. أنا قلق بشكل خاص بشأن علاقات الحصول على البيانات الحصرية التي قد تنتج عن هذا.

العودة إلى الأعلى

هل تعتقد أن البيانات الاصطناعية يمكن أن تسد هذه الفجوة؟

لونجبري: وتستخدم الشركات الكبرى بالفعل البيانات الاصطناعية بكميات كبيرة. هناك مخاوف وفرص فيما يتعلق بالبيانات الاصطناعية. من ناحية، كانت هناك سلسلة من الأعمال التي أظهرت إمكانية انهيار النموذج، وهو تدهور النموذج بسبب التدريب على البيانات الاصطناعية الضعيفة التي قد تظهر في كثير من الأحيان على شبكة الإنترنت مع السماح للمزيد والمزيد من الروبوتات التوليدية مرتخي. ومع ذلك، أعتقد أنه من غير المرجح أن يتم إعاقة النماذج الكبيرة كثيرًا لأنها تحتوي على مرشحات عالية الجودة، لذلك يمكن التخلص من الأشياء ذات الجودة الرديئة أو الأشياء المتكررة. وفرص البيانات الاصطناعية تكون عندما يتم إنشاؤها في بيئة معملية لتكون ذات جودة عالية جدًا، وتستهدف بشكل خاص المجالات غير المتطورة.

هل تعطي مصداقية لفكرة أننا قد نكون في ذروة البيانات؟ أو هل تشعر أن هذا مصدر قلق مبالغ فيه؟

لونجبري: هناك الكثير من البيانات غير المستغلة هناك. ولكن من المثير للاهتمام أن الكثير منها مخفي خلف ملفات PDF، لذا يتعين عليك إجراء التعرف الضوئي على الحروف [optical character recognition]. يتم الاحتفاظ بالكثير من البيانات في الحكومات، أو في القنوات الخاصة، أو في تنسيقات غير منظمة، أو يصعب استخراجها في تنسيقات مثل ملفات PDF. أعتقد أنه سيكون هناك الكثير من الاستثمار في معرفة كيفية استخراج تلك البيانات. أعتقد أنه فيما يتعلق بالبيانات المتاحة بسهولة، فإن العديد من الشركات بدأت تصطدم بالجدران وتتحول إلى البيانات الاصطناعية.

ما هو خط الاتجاه هنا؟ هل تتوقع رؤية المزيد من مواقع الويب التي تضع قيودًا على ملف robots.txt في السنوات القادمة؟

لونجبري: نتوقع زيادة القيود، سواء في ملف robots.txt أو من حيث الخدمة. إن خطوط الاتجاه هذه واضحة جدًا من عملنا، ولكنها يمكن أن تتأثر بعوامل خارجية مثل التشريعات، وتغيير الشركات نفسها لسياساتها، ونتائج الدعاوى القضائية، بالإضافة إلى الضغط المجتمعي من نقابات الكتاب وأشياء من هذا القبيل. وأتوقع أن يؤدي تزايد تحويل البيانات إلى سلعة إلى خلق ساحة معركة أكبر في هذا المجال.

ما الذي ترغب في حدوثه فيما يتعلق بالتوحيد القياسي داخل الصناعة لتسهيل تعبير مواقع الويب عن تفضيلاتها حول الزحف؟

لونجبري: في مبادرة مقاطعة البيانات، نأمل بالتأكيد أن تظهر معايير جديدة ويتم اعتمادها للسماح للمبدعين بالتعبير عن تفضيلاتهم بطريقة أكثر تفصيلاً حول استخدامات بياناتهم. ومن شأن ذلك أن يخفف العبء عليهم كثيرا. أعتقد أن هذا أمر لا يحتاج إلى تفكير ومربح للجانبين. لكن ليس من الواضح من هي مهمته وضع هذه المعايير أو تطبيقها. سيكون من المدهش لو [AI] يمكن للشركات نفسها أن تتوصل إلى هذا الاستنتاج وتفعله. لكن مصمم المعيار سيكون لديه حتماً بعض التحيز تجاه استخدامه الخاص، خاصة إذا كان كيانًا مؤسسيًا.

كما أنه لا ينبغي احترام التفضيلات في جميع الحالات. على سبيل المثال، لا أعتقد أن الأكاديميين أو الصحفيين الذين يقومون بأبحاث اجتماعية إيجابية يجب بالضرورة منعهم من الوصول إلى البيانات باستخدام الأجهزة العامة بالفعل، على مواقع الويب التي يمكن لأي شخص زيارتها بنفسه. لا يتم إنشاء جميع البيانات على قدم المساواة ولا يتم إنشاء جميع الاستخدامات على قدم المساواة.

العودة إلى الأعلى

من مقالات موقعك

مقالات ذات صلة حول الويب