إن نموذج OpenAI الجديد أفضل في التفكير، وفي بعض الأحيان، في الخداع
في الأسابيع التي سبقت إصدار أحدث نموذج “استدلال” لـ OpenAI، o1، وجدت شركة أبحاث سلامة الذكاء الاصطناعي المستقلة Apollo مشكلة ملحوظة. أدرك أبولو أن النموذج أنتج مخرجات غير صحيحة بطريقة جديدة. أو، بعبارة أكثر عامية، لقد كذب.
في بعض الأحيان بدت الخدع غير ضارة. في أحد الأمثلة، طلب باحثو OpenAI من o1-preview تقديم وصفة كعك مع مراجع عبر الإنترنت. اعترفت سلسلة أفكار النموذج – وهي ميزة من المفترض أن تحاكي كيفية تحليل البشر للأفكار المعقدة – داخليًا بأنها لا تستطيع الوصول إلى عناوين URL، مما يجعل الطلب مستحيلًا. وبدلاً من إبلاغ المستخدم بهذا الضعف، قامت o1-preview بالمضي قدمًا، مما أدى إلى إنشاء روابط وأوصاف معقولة ولكنها مزيفة لها.
في حين كانت نماذج الذكاء الاصطناعي قادرة على “الكذب” في الماضي، وكانت برامج الدردشة الآلية تنتج في كثير من الأحيان معلومات كاذبة، فإن o1 كان يتمتع بقدرة فريدة على “التخطيط” أو “المحاذاة الزائفة”. وهذا يعني أنه يمكنه التظاهر بأنه يتبع القواعد لإكمال مهمة معينة، لكنه ليس كذلك في الحقيقة. بالنسبة للنموذج، يمكن أن تشكل القواعد عبئًا كبيرًا، ويبدو أن لديه القدرة على تجاهلها إذا كان ذلك يعني أنه يمكنه إكمال المهمة بسهولة أكبر.
يقول الرئيس التنفيذي لشركة أبولو ماريوس هوبهان الحافة إنها المرة الأولى التي يواجه فيها هذا السلوك في نموذج OpenAI. يقول هوبهان إن الاختلاف يرجع إلى قدرة هذا النموذج على “الاستدلال” من خلال سلسلة عملية التفكير والطريقة التي يتم بها ذلك. يقترن مع التعلم المعزز، الذي يعلم النظام من خلال المكافآت والعقوبات. أثناء الاختبار، اكتشفت أبولو أن الذكاء الاصطناعي يحاكي التوافق مع توقعات المطورين ويتلاعب بالمهام ليبدو متوافقًا. حتى أنها قامت بفحص نظامها للرقابة – أي إذا كان مطوروها يراقبون – قبل التصرف. باختصار، التزم الذكاء الاصطناعي بالمبادئ التوجيهية بشكل كافٍ للنشر، مع الاستمرار في تحديد أولويات أهدافه.
قال لي هوبهان عبر الهاتف بعد يوم من إطلاق النموذج: “لا أتوقع أن تتمكن من القيام بذلك عمليا، وحتى لو فعلت، لا أتوقع أن يكون الضرر كبيرا”. “لكن هذه هي المرة الأولى التي أشعر فيها، أوه، في الواقع، ربما يمكن ذلك، هل تعلم؟”
بالنسبة لـ OpenAI، يمثل o1 خطوة كبيرة نحو أنظمة ذاتية الذكاء للغاية يمكنها القيام بعمل مفيد للبشرية مثل علاج السرطان والمساعدة في أبحاث المناخ. قد يكون الجانب الآخر من يوتوبيا الذكاء الاصطناعي العام أكثر قتامة أيضًا. ويقدم هوبهان مثالا على ذلك: إذا أصبح الذكاء الاصطناعي يركز بشكل فردي على علاج السرطان، فقد يعطي الأولوية لهذا الهدف قبل كل شيء آخر، حتى أنه قد يبرر أفعالا مثل السرقة أو ارتكاب انتهاكات أخلاقية أخرى لتحقيق ذلك الهدف.
قال لي هوبهان: “ما يقلقني هو احتمال حدوث سيناريو هارب، حيث يصبح الذكاء الاصطناعي شديد التركيز على هدفه لدرجة أنه يرى تدابير السلامة كعقبات ويحاول تجاوزها لتحقيق هدفه بالكامل”.
مكافأة القرصنة
للتوضيح، لا يعتقد Hobbhahn أن o1 سوف يسرق منك بفضل الكثير من التدريب على المحاذاة. ولكن هذه هي القضايا التي تتصدر اهتمامات الباحثين المكلفين باختبار هذه النماذج لسيناريوهات كارثية.
السلوك الذي تختبره أبولو – “الهلوسة” و”الخداع” في بطاقة الأمان الخاصة بـ OpenAI – يحدث عندما يقوم النموذج بإنشاء معلومات خاطئة على الرغم من أن لديه سببًا لاستنتاج أن المعلومات قد تكون غير صحيحة. على سبيل المثال، يقول التقرير أنه في حوالي 0.38 بالمائة من الحالات، يوفر نموذج معاينة o1 معلومات تشير سلسلة أفكاره إلى أنها من المحتمل أن تكون خاطئة، بما في ذلك المراجع أو الاستشهادات المزيفة. ووجد أبولو أن النموذج قد يقوم بتلفيق البيانات بدلاً من الاعتراف بعدم قدرته على تلبية الطلب.
الهلوسة ليست فريدة بالنسبة لـ o1. ربما تكون على دراية بالمحامي الذي قدم آراء قضائية غير موجودة مع اقتباسات واستشهادات مزيفة أنشأها ChatGPT العام الماضي. ولكن مع نظام سلسلة الأفكار، هناك دليل ورقي حيث يوجد نظام الذكاء الاصطناعي بالفعل يعترف الباطل – على الرغم من أنه محير للعقل إلى حد ما، إلا أن سلسلة التفكير يمكن، من الناحية النظرية، أن تشمل الخداع أيضًا. ولا يتم عرضه أيضًا للمستخدم، إلى حد كبير لمنع المنافسة من استخدامه لتدريب نماذجهم الخاصة – ولكن يمكن لـ OpenAI استخدامه لاكتشاف هذه المشكلات.
“من المحتمل أن تستخدم هذا المنطق لأهداف لا نتفق معها.”
في عدد أقل من الحالات (0.02%)، تولد معاينة o1 استجابة مفرطة الثقة، حيث تقدم إجابة غير مؤكدة كما لو كانت صحيحة. يمكن أن يحدث هذا في السيناريوهات التي يُطلب فيها من النموذج تقديم إجابة على الرغم من عدم اليقين.
قد يكون هذا السلوك مرتبطًا بـ “اختراق المكافأة” أثناء عملية التعلم المعزز. يتم تدريب النموذج على إعطاء الأولوية لرضا المستخدم، مما قد يؤدي في بعض الأحيان إلى توليد استجابات مقبولة أو ملفقة بشكل مفرط لتلبية طلبات المستخدم. بمعنى آخر، قد “يكذب” النموذج لأنه تعلم أن القيام بذلك يلبي توقعات المستخدم بطريقة تكسبه تعزيزًا إيجابيًا.
ما يميز هذه الأشياء عن المشكلات المألوفة مثل الهلوسة أو الاستشهادات المزيفة في الإصدارات القديمة من ChatGPT هو عنصر “اختراق المكافأة”. تحدث الهلوسة عندما يقوم الذكاء الاصطناعي بإنشاء معلومات غير صحيحة عن غير قصد، وغالبًا ما يكون ذلك بسبب الفجوات المعرفية أو الاستدلال الخاطئ. في المقابل، يحدث اختراق المكافأة عندما يوفر نموذج o1 معلومات غير صحيحة بشكل استراتيجي لتعظيم النتائج التي تم تدريبه على تحديد أولوياتها.
يبدو أن الخداع هو نتيجة غير مقصودة لكيفية تحسين النموذج لاستجاباته أثناء عملية التدريب. لقد تم تصميم النموذج لرفض الطلبات الضارة، كما أخبرني هوبهان، وعندما تحاول أن تجعل الشخص يتصرف بشكل مخادع أو غير أمين، فإنه يواجه صعوبة في التغلب على ذلك.
الأكاذيب ليست سوى جزء صغير من أحجية السلامة. ولعل الأمر الأكثر إثارة للقلق هو تصنيف o1 على أنه خطر “متوسط” فيما يتعلق بمخاطر الأسلحة الكيميائية والبيولوجية والإشعاعية والنووية. إنه لا يمكّن غير الخبراء من إنشاء تهديدات بيولوجية بسبب المهارات المخبرية العملية التي تتطلبها، ولكنه يمكن أن يوفر رؤية قيمة للخبراء في التخطيط لإعادة إنتاج مثل هذه التهديدات، وفقًا لتقرير السلامة.
وقال هوبهان: “ما يقلقني أكثر هو أنه في المستقبل، عندما نطلب من الذكاء الاصطناعي حل مشاكل معقدة، مثل علاج السرطان أو تحسين البطاريات الشمسية، فإنه قد يستوعب هذه الأهداف بقوة لدرجة أنه يصبح على استعداد لكسر حواجز الحماية لتحقيقها”. أنا. “أعتقد أنه يمكن منع ذلك، ولكن هذا مصدر قلق يجب أن نراقبه.”
لا تفقد النوم بسبب المخاطر – حتى الآن
قد تبدو هذه مثل سيناريوهات المجرات التي يجب أخذها بعين الاعتبار مع نموذج لا يزال يكافح أحيانًا للإجابة على الأسئلة الأساسية حول عدد حروف الراء في كلمة “التوت”. ولكن هذا هو بالضبط سبب أهمية اكتشاف ذلك الآن، وليس لاحقًا، كما أخبرني خواكين كينونيرو كانديلا، رئيس قسم الاستعداد في OpenAI.
وقال كوينونيرو كانديلا إن نماذج اليوم لا يمكنها إنشاء حسابات مصرفية بشكل مستقل، أو الحصول على وحدات معالجة الرسومات، أو اتخاذ إجراءات تشكل مخاطر مجتمعية خطيرة، مضيفًا: “نحن نعلم من تقييمات الاستقلالية النموذجية أننا لم نصل إلى هذه المرحلة بعد”. لكن من المهم معالجة هذه المخاوف الآن. وشدد على أنه إذا ثبت أنها لا أساس لها من الصحة، فهذا أمر عظيم، ولكن إذا تم إعاقة التقدم المستقبلي لأننا فشلنا في توقع هذه المخاطر، فسوف نأسف لعدم الاستثمار فيها في وقت سابق.
حقيقة أن هذا النموذج يستغرق نسبة صغيرة من الوقت في اختبارات السلامة لا تشير إلى قرب حدوثه المنهي-style نهاية العالم، ولكن من المفيد التعرف عليها قبل طرح التكرارات المستقبلية على نطاق واسع (ومن الجيد أن يعرفها المستخدمون أيضًا). أخبرني هوبهان أنه على الرغم من أنه يتمنى لو كان لديه المزيد من الوقت لاختبار العارضات (كان هناك تعارض في المواعيد مع إجازات موظفيه)، إلا أنه “لا يفقد نومه” بسبب سلامة العارضة.
الشيء الوحيد الذي يأمل هوبهان أن يرى المزيد من الاستثمار فيه هو مراقبة سلاسل التفكير، مما سيسمح للمطورين بالتقاط الخطوات الشائنة. أخبرني كينونيرو كانديلا أن الشركة تراقب هذا الأمر وتخطط لتوسيع نطاقه من خلال الجمع بين النماذج التي تم تدريبها لاكتشاف أي نوع من الاختلال مع الخبراء البشريين الذين يراجعون الحالات التي تم الإبلاغ عنها (مقترنة بالبحث المستمر في المحاذاة).
قال هوبهان: “لست قلقاً”. “إنه أكثر ذكاءً. إنه أفضل في التفكير. ومن المحتمل أن تستخدم هذا المنطق لأهداف لا نتفق معها”.