يمكن لنظام الأمان الجديد من Microsoft اكتشاف الهلوسة في تطبيقات الذكاء الاصطناعي لعملائها
تقول سارة بيرد، مديرة المنتجات المسؤولة عن الذكاء الاصطناعي في مايكروسوفت: الحافة في مقابلة، صمم فريقها العديد من ميزات الأمان الجديدة التي سيكون من السهل استخدامها لعملاء Azure الذين لا يقومون بتعيين مجموعات من أعضاء الفريق الأحمر لاختبار خدمات الذكاء الاصطناعي التي قاموا بإنشائها. تقول Microsoft إن هذه الأدوات التي تعمل بنظام LLM يمكنها اكتشاف نقاط الضعف المحتملة، ومراقبة الهلوسة “المقبولة ولكنها غير مدعومة”، وحظر المطالبات الضارة في الوقت الفعلي لعملاء Azure AI الذين يعملون مع أي نموذج مستضاف على النظام الأساسي.
“نحن نعلم أن العملاء لا يتمتعون جميعًا بخبرة عميقة في هجمات الحقن السريع أو المحتوى الذي يحض على الكراهية، لذلك يقوم نظام التقييم بإنشاء المطالبات اللازمة لمحاكاة هذه الأنواع من الهجمات. وتقول: “يمكن للعملاء بعد ذلك الحصول على النتيجة ورؤية النتائج”.
ثلاث ميزات: Prompt Shields، التي تحظر عمليات الحقن الفوري أو المطالبات الضارة من المستندات الخارجية التي ترشد العارضات إلى مخالفة تدريبهن؛ كشف التأريض، الذي يكتشف الهلوسة ويمنعها؛ وتقييمات السلامة، التي تقيم نقاط الضعف في النموذج، متاحة الآن للمعاينة على Azure AI. ستتوفر قريبًا ميزتان أخريان لتوجيه النماذج نحو مخرجات آمنة ومطالبات التتبع للإبلاغ عن المستخدمين الذين قد يتسببون في مشاكل.
سواء كان المستخدم يكتب مطالبة أو إذا كان النموذج يعالج بيانات جهة خارجية، فسيقوم نظام المراقبة بتقييمها لمعرفة ما إذا كانت تؤدي إلى تشغيل أي كلمات محظورة أو تحتوي على مطالبات مخفية قبل أن تقرر إرسالها إلى النموذج للإجابة. بعد ذلك، يقوم النظام بعد ذلك بفحص استجابة النموذج والتحقق مما إذا كان النموذج قد أهلوس بمعلومات غير موجودة في المستند أو المطالبة.
في حالة صور Google Gemini، كان للمرشحات المصممة لتقليل التحيز تأثيرات غير مقصودة، وهو مجال تقول Microsoft إن أدوات Azure AI الخاصة بها ستسمح بمزيد من التحكم المخصص. تعترف بيرد بوجود مخاوف من أن مايكروسوفت والشركات الأخرى قد تقرر ما هو مناسب أو غير مناسب لنماذج الذكاء الاصطناعي، لذلك أضاف فريقها طريقة لعملاء Azure لتبديل تصفية خطاب الكراهية أو العنف الذي يراه النموذج ويحظره.
في المستقبل، يمكن لمستخدمي Azure أيضًا الحصول على تقرير بالمستخدمين الذين يحاولون تشغيل مخرجات غير آمنة. يقول بيرد إن هذا يسمح لمسؤولي النظام بمعرفة المستخدمين الذين يشكلون فريقهم الخاص من أعضاء الفريق الأحمر وأيهم يمكن أن يكونوا أشخاصًا لديهم نوايا ضارة أكثر.
يقول بيرد إن ميزات الأمان “مرتبطة” على الفور بـ GPT-4 والنماذج الشائعة الأخرى مثل Llama 2. ومع ذلك، نظرًا لأن حديقة نماذج Azure تحتوي على العديد من نماذج الذكاء الاصطناعي، فقد يضطر مستخدمو الأنظمة مفتوحة المصدر الأصغر حجمًا والأقل استخدامًا إلى تحديد الأمان يدويًا ميزات للنماذج.