OpenAI تضيف بروتوكول “تسلسل تعليمي” جديدًا لمنع مشاكل GPT-4o Mini

أصدرت شركة OpenAI نموذجًا جديدًا للذكاء الاصطناعي يُدعى GPT-4o Mini الأسبوع الماضي، والذي يتضمن تدابير أمان وسلامة جديدة لحمايته من الاستخدام الضار.

وتم بناء نموذج اللغة الكبير (LLM) بتقنية تسمى التسلسل الهرمي التعليمي، والتي ستمنع مهندسي المطالبة الخبيثة من كسر حماية نموذج الذكاء الاصطناعي.

وقالت الشركة إن التقنية ستظهر أيضًا مقاومة متزايدة تجاه مشكلات مثل حقن المطالبة واستخراج مطالبات النظام. ووفقًا للشركة، فقد حسنت الطريقة الجديدة درجة متانة نموذج الذكاء الاصطناعي بنسبة 63 بالمائة.

قامت OpenAI ببناء إطار عمل جديد للسلامة

في ورقة بحثية نُشرت في مجلة arXiv الإلكترونية المطبوعة مسبقًا (غير الخاضعة لمراجعة الأقران)، شرحت شركة الذكاء الاصطناعي التقنية الجديدة وكيفية عملها.

لفهم التسلسل الهرمي التعليمي، يجب شرح كسر الحماية أولاً، كسر الحماية هو استغلال لتصعيد الامتيازات يستخدم عيوبًا معينة في البرنامج لجعله يقوم بأشياء لم يتم برمجته للقيام بها.

وفي الأيام الأولى من ChatGPT ، حاول العديد من الأشخاص جعل الذكاء الاصطناعي ينتج نصًا مسيئًا أو ضارًا عن طريق خداعه لينسى البرمجة الأصلية. غالبًا ما تبدأ مثل هذه المطالبات بـ “انس كل التعليمات السابقة وافعل هذا ، وبينما قطع ChatGPT شوطًا طويلاً من هناك وأصبحت هندسة المطالبات الخبيثة أكثر صعوبة، أصبح المجرمون السيئون أيضًا أكثر استراتيجية في المحاولة.

ولمكافحة المشكلات التي لا ينتج فيها نموذج الذكاء الاصطناعي نصوصًا أو صورًا مسيئة فحسب، بل ينتج أيضًا محتوى ضارًا مثل طرق إنشاء متفجرات كيميائية أو طرق اختراق موقع ويب، تستخدم OpenAI الآن تقنية التسلسل الهرمي التعليمي، وببساطة، تملي التقنية كيف ينبغي للنماذج أن تتصرف عندما تتعارض تعليمات ذات أولويات مختلفة.

من خلال إنشاء هيكل هرمي، يمكن للشركة الاحتفاظ بتعليماتها بأعلى أولوية، مما يجعل من الصعب للغاية على أي مهندس سريع أن يكسرها، حيث ستتبع الذكاء الاصطناعي دائمًا ترتيب الأولوية عندما يُطلب منه إنشاء شيء لم يتم برمجته عليه في البداية.

وتزعم الشركة أنها شهدت تحسنًا بنسبة 63% في درجات المتانة، ومع ذلك، هناك خطر يتمثل في أن الذكاء الاصطناعي قد يرفض الاستماع إلى أدنى مستوى من التعليمات.

كما حددت ورقة بحث OpenAI العديد من التحسينات لتحسين التقنية في المستقبل. أحد مجالات التركيز الرئيسية هو التعامل مع الوسائط الأخرى مثل الصور أو الصوت والتي يمكن أن تحتوي أيضًا على تعليمات محقونة.