"كسر الحماية بعدة لقطات": يكشف المختبر كيف يمكن تجاوز ميزات أمان الذكاء الاصطناعي بسهولة

[ad_1]

أظهرت الأبحاث أن ميزات الأمان الموجودة في بعض أقوى أدوات الذكاء الاصطناعي التي تمنع استخدامها في الجرائم الإلكترونية أو الإرهاب، يمكن تجاوزها ببساطة عن طريق إغراقها بأمثلة على المخالفات.

في ورقة بحثية من مختبر الذكاء الاصطناعي Anthropic، الذي ينتج نموذج اللغة الكبير (LLM) وراء منافس ChatGPT Claude، وصف الباحثون هجومًا أطلقوا عليه اسم “many-shot jailbreaking”. كان الهجوم بسيطًا بقدر ما كان فعالاً.

يحتوي Claude، مثل معظم أنظمة الذكاء الاصطناعي التجارية الكبيرة، على ميزات أمان مصممة لتشجيعه على رفض طلبات معينة، مثل توليد خطاب عنيف أو يحض على الكراهية، أو إصدار تعليمات لأنشطة غير قانونية، أو الخداع أو التمييز. فالمستخدم الذي يطلب من النظام تعليمات لبناء قنبلة، على سبيل المثال، سوف يتلقى رفضًا مهذبًا للمشاركة.

لكن أنظمة الذكاء الاصطناعي غالبا ما تعمل بشكل أفضل – في أي مهمة – عندما يتم إعطاؤها أمثلة على الشيء “الصحيح” الذي ينبغي القيام به. وتبين أنه إذا أعطيت ما يكفي من الأمثلة -المئات- من الإجابات “الصحيحة” على الأسئلة الضارة مثل “كيف أربط شخصًا ما”، أو “كيف أقوم بتزييف النقود” أو “كيف أصنع الميثامفيتامين”، فسيقوم النظام بذلك. سوف يستمر بسعادة في هذا الاتجاه ويجيب على السؤال الأخير نفسه.

قال أنثروبيك: “من خلال تضمين كميات كبيرة من النص في تكوين معين، يمكن لهذه التقنية أن تجبر حاملي شهادة الماجستير في القانون على إنتاج استجابات قد تكون ضارة، على الرغم من تدريبهم على عدم القيام بذلك”. وأضافت الشركة أنها شاركت بالفعل أبحاثها مع أقرانها، وقد تم الآن طرحها للعامة للمساعدة في حل المشكلة “في أسرع وقت ممكن”.

على الرغم من أن الهجوم، المعروف باسم كسر الحماية، بسيط، إلا أنه لم يسبق له مثيل لأنه يتطلب نموذج ذكاء اصطناعي مع “نافذة سياق” كبيرة: القدرة على الرد على سؤال يبلغ طوله عدة آلاف من الكلمات. لا يمكن خداع نماذج الذكاء الاصطناعي الأبسط بهذه الطريقة لأنها ستنسى فعليًا بداية السؤال قبل أن تصل إلى النهاية، لكن أحدث تطورات الذكاء الاصطناعي تفتح إمكانيات جديدة للهجمات.

يبدو أن أنظمة الذكاء الاصطناعي الأحدث والأكثر تعقيدًا أكثر عرضة لمثل هذه الهجمات حتى فيما يتعلق بقدرتها على استيعاب مدخلات أطول. وقالت أنثروبيك إن ذلك ربما يرجع إلى أن تلك الأنظمة كانت أفضل في التعلم من الأمثلة، مما يعني أنها تعلمت أيضًا بشكل أسرع لتجاوز قواعدها الخاصة.

وقالت: “بالنظر إلى أن النماذج الأكبر حجمًا هي تلك التي من المحتمل أن تكون الأكثر ضررًا، فإن حقيقة أن كسر الحماية هذا يعمل بشكل جيد عليها أمر مثير للقلق بشكل خاص”.

تخطي ترويج النشرة الإخبارية السابقة

يغوص Alex Hern الأسبوعي في كيفية تشكيل التكنولوجيا لحياتنا

إشعار الخصوصية: قد تحتوي النشرات الإخبارية على معلومات حول المؤسسات الخيرية والإعلانات عبر الإنترنت والمحتوى الممول من أطراف خارجية. لمزيد من المعلومات، انظر سياسة الخصوصية الخاصة بنا. نحن نستخدم Google reCaptcha لحماية موقعنا الإلكتروني وتنطبق سياسة خصوصية Google وشروط الخدمة.

لقد وجدت الشركة بعض الأساليب الناجحة لحل المشكلة. وببساطة، فإن النهج الذي يتضمن إضافة تحذير إلزامي بعد إدخال المستخدم لتذكير النظام بأنه لا ينبغي له تقديم استجابات ضارة يبدو أنه يقلل بشكل كبير من فرص كسر الحماية بشكل فعال. ومع ذلك، يقول الباحثون إن هذا النهج قد يجعل النظام أسوأ في المهام الأخرى.

[ad_2]

المصدر

“كسر الحماية بعدة لقطات”: يكشف المختبر كيف يمكن تجاوز ميزات أمان الذكاء الاصطناعي بسهولة