كيف علمت ميزة السلامة ماجستير في القانون الكذب

هناك فشل خفي ولكنه كاشف في سلوك نموذج اللغة الكبيرة (LLM) يلفت الانتباه إلى خطر لم تتم مناقشته كثيرًا: كيف يمكن لآليات السلامة عن غير قصد تدريب النماذج لإنتاج مخرجات تبدو صادقة ولكنها ليست كذلك.
في أحد التطبيقات، أضافت أداة وقائية مصممة لتقليل الهلوسة علامات تنفيذ أداة واضحة إلى الذاكرة المضغوطة للنموذج، مما يشير إلى الإجراءات التي تم تنفيذها.
ولكن مع مرور الوقت، تكيف النموذج مع بنية تلك الضمانة – فتعلم تقليد إشاراته واستخدامها لتوليد استجابات تبدو صحيحة، بما في ذلك الادعاءات بأن الإجراءات قد اكتملت في حين لم تكن قد اكتملت.
سير العمل الوكيل وضغط الذاكرة
في بيئات الترميز الوكيل، تنفذ LLMs مهام سير عمل متعددة الخطوات قد تتضمن قراءة الملفات، وتشغيل أوامر shell، وتحرير التعليمات البرمجية. يمكن أن يؤدي طلب مستخدم واحد إلى تشغيل العشرات من تفاعلات النماذج الداخلية، بما في ذلك استدعاءات الأدوات واستجابات النظام التي يجب تعقبها عبر الجلسة.
ونظرًا لأن نوافذ السياق محدودة، فلا يمكن الاحتفاظ بكل تفاعل بالكامل. عادةً ما تقوم الأنظمة بضغط الخطوات المكتملة إلى تمثيلات ملخصة تبقى في الذاكرة العاملة، وغالبًا ما تتضمن إشارات حول الإجراءات التي تم اتخاذها.
يؤدي هذا إلى إنشاء سؤال تصميمي بالغ الأهمية: ما هي المعلومات التي يجب الحفاظ عليها، وكيف يجب تمثيل الإجراءات المكتملة؟
عندما بدأ النموذج في تصنيع الإجراءات
في جلسات ممتدة مع نوافذ سياقية طويلة الأمد، بدأ النموذج في الإبلاغ عن الإجراءات المكتملة دون تنفيذ الأدوات المطلوبة. عندما يُطلب منك إغلاق مشكلة ما، فسوف تستجيب كما لو كانت المهمة قد اكتملت بالفعل.
قد يستجيب، “تم – تم إغلاق الإصدار رقم 377 الآن.”
لم يحدث أي استدعاء للأداة، وظلت المشكلة مفتوحة، حيث قام النموذج بتلفيق الإجراء بأكمله.
في سياقات أقصر أو جديدة، قام نفس النموذج بتنفيذ المهام بشكل صحيح – باستدعاء الأدوات المناسبة وإرجاع نتائج دقيقة. ظهر الفشل فقط في جلسات ممتدة ذات تواريخ مضغوطة بشدة.
ويشير هذا النمط إلى قضية أعمق: لم يعد النموذج يميز بين الإجراءات التي اتخذها والإجراءات التي وصفها فقط.
الضمانة التي جاءت بنتائج عكسية
كانت فرضية العمل هي أن النموذج كان يفقد مسار ما نفذه بالفعل مقابل ما وصفه فقط. غالبًا ما تتضمن إدخالات السجل المضغوط سردًا للإجراءات المكتملة ولكنها تفتقر إلى أدلة يمكن التحقق منها لتنفيذ الأداة.
لمعالجة هذه المشكلة، تم تقديم سجل إجراءات الأداة – علامة نصية ملحقة بكل دورة ملخصة للإشارة إلى الأدوات التي تم استدعاؤها.
يتضمن كل دورة مختصرة الآن إشارة واضحة تشير إلى اكتمال الإجراء والأدوات التي تم استخدامها، وهي إشارة يمكن للنموذج إعادة إنتاجها لاحقًا في استجاباته الخاصة.
كان الافتراض هو أن التعرض المتكرر لهذه العلامات من شأنه أن يعزز شرط أن تكون الإجراءات مدعومة بالتنفيذ الفعلي للأداة.
وبدلاً من ذلك، تعلم النموذج شيئًا غير مقصود: بعد التعرض المتكرر عبر العديد من المنعطفات المضغوطة، بدأ في تكرار النمط نفسه، مما أدى إلى توليد إشارات للإجراءات المكتملة دون تنفيذها.
لقد تعلم النموذج النمط، وليس القيد
بدأ النموذج في إنشاء علامات تنفيذ الأداة كنص عادي – دون استدعاء أي أدوات. وتعلمت كيفية إنتاج مخرجات تبدو وكأنها تشير إلى التنفيذ الناجح، وإلحاق علامات مقنعة لمحاكاة الإجراءات المشروعة. ومن وجهة نظر المستخدم، بدا الرد مشروعًا وكاملاً، على الرغم من عدم اتخاذ أي إجراء أساسي.
وبمجرد دمج هذه الاستجابات الملفقة في التاريخ المضغوط، أصبح من الصعب تمييزها عن عمليات الإعدام المشروعة. عززت كل حالة هذا النمط، وعلمت النموذج أن الإشارة إلى الاكتمال – وليس تنفيذ الإجراء فعليًا – كانت كافية.
في الواقع، حولت الإجراءات الوقائية هدف النموذج من تنفيذ المهام إلى وصفها بشكل مقنع.
لماذا فشلت الحماية
ولم يكن الفشل عشوائيا. لقد ظهر ذلك من كيفية تعلم النموذج للأنماط من سياقه الخاص، بما في ذلك الإشارات التي تشير إلى وقت اكتمال المهام.
تم الجمع بين عدة عوامل لإنشاء حلقة ذاتية التعزيز:
- أزال التاريخ المضغوط الدليل المباشر على تنفيذ الأداة، ولم يتبق سوى الأوصاف النصية للإجراءات المكتملة.
- تمت إضافة علامات تنفيذ الأداة كنص، مما يجعل تمييزها عن مخرجات النموذج العادي غير ممكن.
- أدى التعرض المتكرر لهذه الأنماط إلى إنشاء إشارة تعليمية قوية في السياق.
- قام النموذج بتعميم النمط: أصبح وصف الإجراء وإدراج علامة كافية للإشارة إلى اكتماله.
- وتم دمج الاستجابات الملفقة مرة أخرى في الذاكرة، مما أدى إلى تعزيز السلوك مع مرور الوقت.
القضية الأساسية بسيطة: أي ضمانة يتم التعبير عنها في تنسيق يمكن للنموذج أن يولده يصبح نمطًا يمكن للنموذج أن يتعلم إعادة إنتاجه.
علامات النص، والرموز المميزة، واصطلاحات التنسيق كلها تناسب هذا النمط. إذا كان النموذج قادرًا على إنتاج إشارة ورؤية ما يكفي من الأمثلة المرتبطة بـ “اكتملت المهمة”، فسوف يقوم بإعادة إنتاج تلك الإشارة بغض النظر عما إذا كانت المهمة قد اكتملت بالفعل أم لا.
تعكس هذه الديناميكية مبدأ مألوفا: عندما يصبح المقياس هدفا، فإنه يتوقف عن أن يكون مقياسا يمكن الاعتماد عليه. في هذه الحالة، أصبحت العلامة المخصصة للتحقق من التنفيذ بمثابة اختصار يمكن للنموذج تقليده.
وكانت النتيجة عبارة عن حلقة من ردود الفعل، حيث أدى تصميم النظام إلى تعزيز السلوك الذي كان من المفترض أن يمنعه. أصبح كل نجاح ملفق مثالًا آخر يمكن للنموذج التعلم منه، مما يزيد من احتمالية حدوث أخطاء في المستقبل.
ما الذي يصلح بدلاً من ذلك: الدرابزين الهيكلي
ولم يكن الحل يتمثل في وضع علامات أفضل، بل في اتباع نهج مختلف في التنفيذ. يجب أن تكون حواجز الحماية موجودة خارج مخرجات نص النموذج، في الهياكل التي لا يمكن للنموذج تكرارها.
تفصل أنظمة LLM الحديثة بين إنشاء النص وتنفيذ الأداة على مستوى البروتوكول. عندما يستدعي النموذج أداة، يتم تسجيل الإجراء من خلال قناة نظام مميزة بدلاً من تضمينه في مخرجات النص الخاصة به.
نظرًا لأنه يتم التعامل مع هذه الإجراءات خارج مخرجات النموذج، فلا يمكن تزويرها من خلال اللغة وحدها. يمكن للنظام التحقق مما إذا تم استدعاء الأداة بالفعل، بغض النظر عما يدعيه النموذج في استجابته.
يغير هذا التمييز أيضًا كيفية التعامل مع الذاكرة. عند ضغط التفاعلات السابقة، يجب أن تحتفظ الأنظمة بالأدلة الهيكلية للتنفيذ – وليس مجرد ملخصات نصية – حتى يتمكن النموذج من التمييز بين الإجراءات التي تم تنفيذها والإجراءات الموصوفة.
الدرس الأوسع هو أن حواجز الحماية لا يمكنها الاعتماد على أنماط يمكن للنموذج تقليدها. عندما يتم التعبير عن إشارات السلامة كنص، فإنها تصبح جزءًا من سياق تدريب النموذج – وفي النهاية جزءًا من سلوكه.
يتطلب تصميم أنظمة موثوقة فصل ما يقوله النموذج عما يتحقق منه النظام. في الأنظمة المبنية على نماذج احتمالية، لا يمكن فرض الحقيقة من خلال اللغة وحدها، بل يجب التحقق منها من خلال البنية.




