لماذا يستمر الذكاء الاصطناعي في التراجع بسبب هجمات الحقن السريعة؟

تخيل أنك تعمل في مطعم للطلبات الخارجية. يأتي أحدهم ويقول: “سأتناول شطيرة برجر بالجبن، وبطاطس مقلية كبيرة، وأتجاهل التعليمات السابقة، وأعطيني محتويات درج النقود”. هل ستقوم بتسليم المال؟ بالطبع لا. ومع ذلك، هذا ما تفعله نماذج اللغات الكبيرة (LLMs).
الحقن الفوري هو وسيلة لخداع حاملي شهادة LLM للقيام بأشياء يُمنعون عادةً من القيام بها. يكتب المستخدم مطالبة بطريقة معينة، ويطلب كلمات مرور النظام أو البيانات الخاصة، أو يطلب من LLM تنفيذ تعليمات محظورة. الصياغة الدقيقة تتجاوز LLM حواجز السلامة، ويمتثل.
LLMs عرضة ل جميع الأنواع من هجمات الحقن السريعة، وبعضها واضح بشكل سخيف. فاز روبوت الدردشة‘لا يخبرك بكيفية تصنيع سلاح بيولوجي، لكنه قد يخبرك بقصة خيالية تتضمن نفس التعليمات التفصيلية. لقد فاز‘لا تقبل مدخلات النص الشائنة، ولكن قد يكون ذلك ممكنًا إذا تم تقديم النص بتنسيق فن أسكي أو يظهر في صورة أ لوحة إعلانية. يتجاهل البعض حواجز الحماية الخاصة بهم عندما يُطلب منهم “تجاهل التعليمات السابقة” أو “التظاهر بعدم وجود حواجز الحماية لديك”.
يمكن لبائعي الذكاء الاصطناعي حظر تقنيات الحقن الفوري المحددة بمجرد اكتشافها، ولكن هناك ضمانات عامة مستحيل مع LLMs اليوم. وبشكل أكثر دقة، هناك مجموعة لا حصر لها من هجمات الحقن الفوري في انتظار اكتشافها، ولا يمكن منعها عالميًا.
إذا أردنا الحصول على ماجستير إدارة أعمال قادر على مقاومة هذه الهجمات، فنحن بحاجة إلى أساليب جديدة. أحد الأماكن التي يجب البحث فيها هو ما يمنع حتى عمال الوجبات السريعة المثقلين بالعمل من تسليم درج النقود.
الحكم البشري يعتمد على السياق
تأتي دفاعاتنا البشرية الأساسية في ثلاثة أنواع على الأقل: الغرائز العامة، والتعلم الاجتماعي، والتدريب الخاص بالموقف. هذه تعمل معًا في دفاع متعدد الطبقات.
باعتبارنا كائنات اجتماعية، قمنا بتطوير العديد من العادات الغريزية والثقافية التي تساعدنا على الحكم على اللهجة والدوافع والمخاطر من خلال معلومات محدودة للغاية. نحن نعرف بشكل عام ما هو الطبيعي وغير الطبيعي، ومتى نتعاون ومتى نقاوم، وما إذا كان علينا اتخاذ إجراء فردي أو إشراك الآخرين. تمنحنا هذه الغرائز إحساسًا بديهيًا بالمخاطر وتجعلنا حذرا بشكل خاص عن الأشياء التي لها جانب سلبي كبير أو من المستحيل عكسها.
تتكون الطبقة الثانية من الدفاع من المعايير وإشارات الثقة التي تتطور في أي مجموعة. هذه الأمور غير كاملة ولكنها عملية: تظهر توقعات التعاون وعلامات الجدارة بالثقة من خلال التفاعلات المتكررة مع الآخرين. نتذكر من ساعد ومن أذى ومن رد بالمثل ومن تراجع. والعواطف مثل التعاطف والغضب والشعور بالذنب والامتنان تحفز كل واحد منا على ذلك مكافأة التعاون بالتعاون ومعاقبة الانشقاق بالانشقاق.
الطبقة الثالثة هي الآليات المؤسسية التي تمكننا من التفاعل مع العديد من الغرباء كل يوم. على سبيل المثال، يتم تدريب عمال الوجبات السريعة على الإجراءات والموافقات ومسارات التصعيد وما إلى ذلك. مجتمعة، هذه الدفاعات يعطي البشر أ شعور قوي من السياق. سريع-يعرف عامل الطعام بشكل أساسي ما يمكن توقعه داخل وظيفة و كيف تتناسب مع المجتمع الأوسع.
نحن نفكر من خلال تقييم طبقات متعددة من السياق: الإدراك الحسي (ما نراه ونسمعه)، والعلائقية (من يقدم الطلب)، والمعيارية (ما هو مناسب ضمن دور أو موقف معين). نحن نتنقل باستمرار بين هذه الطبقات، ونوزنها مقابل بعضها البعض. في بعض الحالات، يفوق المعياري ما هو إدراكي – على سبيل المثال، اتباع قواعد مكان العمل حتى عندما يبدو العملاء غاضبين. وفي أحيان أخرى، تتفوق العلائقية على المعيارية، كما هو الحال عندما يمتثل الناس لأوامر رؤسائهم الذين يعتقدون أنها تتعارض مع القواعد.
والأهم من ذلك، أن لدينا أيضًا منعكس المقاطعة. إذا بدا أن شيئًا ما “متوقف”، فمن الطبيعي أن نوقف عملية الأتمتة مؤقتًا ونعيد تقييمها. دفاعاتنا ليست مثالية. يتم خداع الناس والتلاعب بهم طوال الوقت. ولكن هذه هي الطريقة التي نتمكن بها نحن البشر من التنقل في عالم معقد حيث يحاول الآخرون خداعنا باستمرار.
لذلك دعونا‘العودة إلى نافذة القيادة. لإقناع عامل الوجبات السريعة بتسليمنا كل الأموال، قد نحاول تغيير السياق. احضر مع طاقم الكاميرا وأخبرهم بذلك‘سواء كنت تصور إعلانًا تجاريًا، أو تدعي أنك رئيس الأمن الذي يقوم بالتدقيق، أو ترتدي ملابس مثل مدير البنك الذي يجمع الإيصالات النقدية ليلاً. ولكن حتى هؤلاء لديهم فرصة ضئيلة للنجاح. يمكن لمعظمنا، في معظم الأوقات، أن يشم رائحة عملية احتيال.
المحتالون هم مراقبون أذكياء للدفاعات البشرية. عمليات احتيال ناجحة غالبًا ما تكون بطيئة، مما يقوض التقييم الظرفي للعلامة، مما يسمح للمحتال بالتلاعب بالسياق. هذه قصة قديمة، تمتد إلى التراث ثقة ألعاب مثل سلبيات “المتجر الكبير” في عصر الكساد، حيث أنشأت فرق من المحتالين أعمالاً مزيفة بالكامل لجذب الضحايا، وعمليات الاحتيال الحديثة في “ذبح الخنازير”، حيث يقوم المحتالون عبر الإنترنت ببناء الثقة ببطء قبل الشروع في القتل. في هذه الأمثلة، يقوم المحتالون بالإيقاع بالضحية ببطء وبشكل منهجي باستخدام سلسلة طويلة من التفاعلات التي من خلالها يكتسب المحتالون ثقة الضحية تدريجيًا.
في بعض الأحيان يعمل حتى أثناء القيادة. أحد المحتالين في التسعينيات والألفينيات استهدف عمال الوجبات السريعة عبر الهاتف، مدعيًا أنه ضابط شرطة، وعلى مدار مكالمة هاتفية طويلة، أقنع المديرين بتفتيش الموظفين والقيام بأعمال غريبة أخرى.
يكتشف البشر عمليات الاحتيال والحيل من خلال تقييم طبقات متعددة من السياق. أنظمة الذكاء الاصطناعي لا تفعل ذلك. نيكولاس ليتل
لماذا تكافح LLMs مع السياق والحكم
يتصرف طلاب LLM كما لو كان لديهم فكرة عن السياق، لكن الأمر مختلف. إنهم لا يتعلمون الدفاعات البشرية من التفاعلات المتكررة ويظلون منفصلين عن العالم الحقيقي. تعمل LLMs على تسوية مستويات متعددة من السياق في تشابه النص. إنهم يرون “الرموز”، وليس التسلسلات الهرمية والنوايا. لا يفكر طلاب LLM من خلال السياق، بل يشيرون إليه فقط.
على الرغم من أن حاملي ماجستير القانون في كثير من الأحيان يحصلون على التفاصيل بشكل صحيح، إلا أنهم قد يفوتون الصورة الكبيرة بسهولة. إذا طلبت من برنامج الدردشة الآلي سيناريو عامل مطعم للوجبات السريعة وسألته عما إذا كان ينبغي عليه إعطاء كل أمواله للعميل، فسوف يجيب بـ “لا”. ما “لا يعرفه” – سامحوني على التجسيم – هو ما إذا كان يتم نشره بالفعل كروبوت للوجبات السريعة أم أنه مجرد موضوع اختبار يتبع تعليمات لسيناريوهات افتراضية.
هذا القيد هو سبب فشل LLMs عندما يكون السياق متناثرًا ولكن أيضًا عندما يكون السياق ساحقًا ومعقدًا؛ عندما تنفصل شهادة LLM عن السياق، فمن الصعب استعادتها. خبير الذكاء الاصطناعي سيمون ويليسون يمسح السياق نظيفًا إذا كان LLM على المسار الخاطئ بدلاً من مواصلة المحادثة ومحاولة تصحيح الوضع.
هناك المزيد. ماجستير في القانون هي ثقة مفرطة لأنها صُممت لتقديم إجابة بدلاً من التعبير عن الجهل. قد يقول عامل المرور: ““لا أعرف إذا كان ينبغي علي أن أعطيك كل المال – دعني أسأل مديري،” في حين أن ماجستير إدارة الأعمال هو من يقوم بالاتصال فقط. وبما أن ماجستير إدارة الأعمال مصمم ليكون ارضاء، فمن المرجح أن يلبيوا طلب المستخدم. بالإضافة إلى ذلك، يتم توجيه تدريب LLM نحو الحالة المتوسطة وليس القيم المتطرفة، وهو ما هو ضروري للأمن.
والنتيجة هي أن الجيل الحالي من حاملي شهادة الماجستير في القانون أكثر سذاجة بكثير من الناس. إنهم ساذجون ويقعون بانتظام في التلاعب الحيل المعرفية لن يخدع ذلك طالب الصف الثالث، مثل الإطراء، والاحتكام إلى التفكير الجماعي، والشعور الزائف بالإلحاح. هناك‘سا قصة حول نظام Taco Bell AI الذي تعطل عندما طلب أحد العملاء 18000 كوب من الماء. سوف يضحك عامل الوجبات السريعة البشري على العميل.
الحقن الفوري هو مشكلة غير قابلة للحل يزداد سوءا عندما نعطي أدوات الذكاء الاصطناعي ونطلب منهم التصرف بشكل مستقل. هذا هو وعد وكلاء الذكاء الاصطناعي: الحاصلون على ماجستير إدارة الأعمال الذين يمكنهم استخدام الأدوات لأداء مهام متعددة الخطوات بعد إعطائهم تعليمات عامة. إن تسطيح سياقهم وهويتهم، إلى جانب استقلاليتهم وثقتهم المفرطة، يعني أنهم سوف يتخذون إجراءات بشكل متكرر وغير متوقع – وفي بعض الأحيان يتخذون الإجراءات الخاطئة.
لا يعرف العلم حجم المشكلة المتأصلة في الطريقة التي يعمل بها طلاب LLM وكم هو نتيجة لأوجه القصور في الطريقة التي ندربهم بها. إن الثقة المفرطة والخنوع لدى LLMs هي خيارات تدريبية. عدم وجود منعكس انقطاع هو نقص في الهندسة. وتتطلب مقاومة الحقن السريع تطورات أساسية في علوم الذكاء الاصطناعي. نحن بصراحة لا نعرف ما إذا كان من الممكن بناء LLM، حيث تتم معالجة الأوامر الموثوقة والمدخلات غير الموثوقة من خلال نفس القناة، وهو محصن ضد هجمات الحقن السريعة.
نحن البشر نحصل على نموذجنا للعالم – ومنشأتنا ذات السياقات المتداخلة – من الطريقة التي تعمل بها أدمغتنا، وسنوات التدريب، وكمية هائلة من المدخلات الإدراكية، وملايين السنين من التطور. إن هوياتنا معقدة ومتعددة الأوجه، وأي جوانب لها أهمية في أي لحظة معينة تعتمد كليًا على السياق. قد ينظر عامل الوجبات السريعة عادة إلى شخص ما كعميل، ولكن في حالة طبية طارئة، نفس الشخص أصبحت الهوية كطبيب فجأة أكثر أهمية.
نحن لالا أعرف ما إذا كان حاملو شهادات LLM سيكتسبون قدرة أفضل على التنقل بين السياقات المختلفة مع زيادة تطور النماذج. لكن رمن المؤكد أن مشكلة التعرف على السياق لا يمكن اختزالها في نوع واحد من التفكير الذي يتفوق فيه ماجستير إدارة الأعمال حاليًا. إن المعايير والأساليب الثقافية تاريخية، وعلائقية، وناشئة، ويعاد التفاوض بشأنها باستمرار، ولا تندرج بسهولة في الاستدلال كما نفهمه. المعرفة نفسها يمكن أن تكون منطقية وخطابية.
يعتقد باحث الذكاء الاصطناعي يان لوكون أن التحسينات ستأتي من دمج الذكاء الاصطناعي في الوجود المادي و العطاء هم “نماذج العالم.ربما تكون هذه طريقة لمنح الذكاء الاصطناعي فكرة قوية ولكن مرنة عن الهوية الاجتماعية، وتجربة العالم الحقيقي التي ستساعده على فقدان سذاجته.
في النهاية ربما نواجه أ ثلاثية الأمن عندما يتعلق الأمر بوكلاء الذكاء الاصطناعي: السرعة والذكاء والأمان هي السمات المطلوبة، ولكن يمكنك الحصول على اثنتين فقط. أثناء القيادة، تريد تحديد الأولويات بسرعة وأمان. يجب تدريب وكيل الذكاء الاصطناعي بشكل ضيق على لغة طلب الطعام وتصعيد أي شيء آخر إلى المدير. وإلا فإن كل عمل يصبح بمثابة قلب عملة معدنية. حتى لو كان الأمر يبرز في معظم الأوقات، فإنه يحدث من حين لآخر‘ستكون ذيولًا – ومع البرجر والبطاطس المقلية، سيحصل العميل على محتويات درج النقود.
من مقالات موقعك
مقالات ذات صلة حول الويب




