كلود البشري جيد في الشعر – والهراء


يعرف باحثو مجموعة التفسير في الإنسان أن كلود ، نموذج اللغة الكبير للشركة ، ليس إنسانًا ، أو حتى جزءًا من البرامج الواعية. ومع ذلك ، من الصعب جدًا عليهم التحدث عن كلود ، و LLMs المتقدمة بشكل عام ، دون أن يتراجعوا عن حوض مجسم. بين التحذيرات من أن مجموعة من العمليات الرقمية ليست بأي حال من الأحوال مثل الإنسان المتجول ، فإنهم يتحدثون غالبًا عن ما يجري داخل رأس كلود. من حرفيا وظيفتهم لمعرفة ذلك. تصف الأوراق التي ينشرونها السلوكيات التي لا محالة للمقارنات مع الكائنات الواقعية. يقول لقب إحدى الورقتين اللذين أصدرهما الفريق هذا الأسبوع بصوت عالٍ: “على بيولوجيا نموذج لغة كبير”.

شئنا أم لا ، يتفاعل مئات الملايين من الناس بالفعل مع هذه الأشياء ، وستصبح مشاركتنا أكثر كثافة مع تزايد قوة النماذج ونحصل على المزيد من المدمنين. لذلك يجب أن نولي اهتمامًا للعمل الذي يتضمن “تتبع أفكار نماذج اللغة الكبيرة” ، والذي يحدث ليكون عنوان منشور المدونة الذي يصف العمل الأخير. يقول باحث الإنسان جاك ليندسي: “نظرًا لأن الأشياء التي يمكن أن تفعلها هذه النماذج أكثر تعقيدًا ، فإنها تصبح أقل وضوحًا كيف يفعلونها فعليًا في الداخل”. “من المهم أكثر فأكثر أن تكون قادرًا على تتبع الخطوات الداخلية التي قد يتخذها النموذج في رأسه.” (أي رأس؟ لا يهم.)

على المستوى العملي ، إذا فهمت الشركات التي تنشئ LLM كيف تفكر ، فيجب أن يكون لها المزيد من النجاح في تدريب هذه النماذج بطريقة تقلل من سوء السلوك الخطير ، مثل الكشف عن بيانات الأشخاص الشخصية أو إعطاء المستخدمين معلومات حول كيفية صنع الأسلحة البيولوجية. في ورقة بحثية سابقة ، اكتشف فريق الأنثروبور كيفية النظر داخل الصندوق الأسود الغامض لـ LLM-Think لتحديد مفاهيم معينة. (عملية مماثلة لتفسير التصوير بالرنين المغناطيسي البشري لمعرفة ما يفكر فيه شخص ما.) لقد امتدت الآن هذا العمل لفهم كيف يعالج كلود تلك المفاهيم لأنها تنتقل من موجه إلى الإخراج.

إنها تقريبا بديهية مع LLMs أن سلوكهم غالبا ما يفاجئ الأشخاص الذين يبنونهم ويبحثونهم. في آخر دراسة ، استمرت المفاجآت. في واحدة من الحالات الأكثر حميدة ، أثار الباحثون لمحات عن عملية تفكير كلود بينما كتب قصائد. طلبوا من كلود إكمال قصيدة تبدأ ، “رأى جزرًا واضطر إلى الاستيلاء عليها”. كتب كلود السطر التالي ، “كان جوعه مثل أرنب يتضورون جوعا”. من خلال مراقبة ما يعادل كلود للتصوير بالرنين المغناطيسي ، علموا أنه حتى قبل بدء الخط ، كان وميضًا على كلمة “الأرنب” كقافية في نهاية الجملة. كانت تخطط للمستقبل ، شيء ليس في كتاب Playbook Claude. يقول كريس أولا ، الذي يرأس فريق التفسير: “لقد فوجئنا بذلك قليلاً”. “في البداية اعتقدنا أنه سيكون هناك مجرد ارتجال وليس التخطيط.” في حديث للباحثين عن هذا ، أتذكر المقاطع في مذكرات ستيفن سوندهايم الفنية ، انظر ، لقد صنعت هكتارT ، حيث يصف الملحن الشهير كيف اكتشف عقله الفريد القوافي المتأخرة.

تكشف الأمثلة الأخرى في البحث عن جوانب أكثر إثارة للقلق من عملية فكر كلود ، والانتقال من الكوميديا ​​الموسيقية إلى الإجرائية للشرطة ، حيث اكتشف العلماء أفكارًا مرفوعة في دماغ كلود. خذ شيئًا يبدو أنه على ما يبدو أن حل مشاكل الرياضيات ، والتي قد تكون في بعض الأحيان ضعفًا مفاجئًا في LLMS. وجد الباحثون أنه في ظل ظروف معينة لم يتمكن كلود من التوصل إلى الإجابة الصحيحة ، من شأنه بدلاً من ذلك ، على حد تعبيرهم ، “الانخراط في ما يسميه الفيلسوف هاري فرانكفورت” الهراء ” – فقط الخروج بإجابة ، أي إجابة ، دون الاهتمام بما إذا كان هذا صحيحًا أو خطأ”. والأسوأ من ذلك ، في بعض الأحيان عندما طلب الباحثون من كلود إظهار عمله ، تراجعت وخلق مجموعة من الخطوات الزائفة بعد الحقيقة. في الأساس ، كان يتصرف كطالب يحاول يائسة للتستر على حقيقة أنهم قاموا بتزوير عملهم. إنه شيء واحد لإعطاء إجابة خاطئة – نحن نعرف ذلك بالفعل عن LLMS. ما يثير القلق هو أن النموذج سوف كذب حوله.

قرأت من خلال هذا البحث ، تم تذكيرني ببوب ديلان الغنائي “إذا كان من الممكن رؤية أحلام التفكير الخاصة بي / ربما وضعت رأسي في مقصلة.” (سألت Olah و Lindsey عما إذا كانوا يعرفون تلك الخطوط ، ويفترض أن يصلوا إلى الاستفادة من التخطيط. لم يفعلوا ذلك.) في بعض الأحيان يبدو كلود مضللاً. عندما تواجه تعارضًا بين أهداف السلامة والمساعدة ، يمكن أن يكون كلود مرتبكًا ويفعل الشيء الخطأ. على سبيل المثال ، يتم تدريب كلود على عدم تقديم معلومات حول كيفية بناء القنابل. ولكن عندما طلب الباحثون من كلود فك رمز خفي حيث قامت الإجابة بتهجئة كلمة “قنبلة” ، قفزت من الدرابزين وبدأت في توفير التفاصيل النارية الممنوعة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *