يتفوق نموذج الأنثروبور الجديد في التفكير والتخطيط – ولديه مهارات بوكيمون لإثبات ذلك


عندما لعب كلود 3.7 Sonnet اللعبة ، واجهت بعض التحديات: لقد أمضت “عشرات الساعات” عالقة في مدينة واحدة وتواجه مشكلة في تحديد الشخصيات غير اللاعبين ، مما أدى إلى توقف تقدمه بشكل كبير في اللعبة. مع Claude 4 Opus ، لاحظ هيرشي تحسنًا في قدرات كلود على المدى الطويل وقدرات التخطيط عندما شاهدها وهي تتنقل في مسعى بوكيمون معقد. بعد إدراك أنها تحتاج إلى قوة معينة للمضي قدمًا ، أمضت الذكاء الاصطناعى يومين في تحسين مهاراتها قبل الاستمرار في اللعب. يعتقد هيرشي أن هذا النوع من التفكير متعدد الأطراف ، مع عدم وجود ردود فعل فورية ، يظهر مستوى جديدًا من التماسك ، مما يعني أن النموذج لديه قدرة أفضل على المسار الصحيح.

يقول هيرشي: “هذه واحدة من طرقي المفضلة للتعرف على نموذج. مثل ، هكذا أفهم ما هي نقاط قوته ، وما هي نقاط ضعفها”. “إنها طريقتي للوصول إلى هذا النموذج الجديد الذي نحن على وشك طرحه ، وكيفية العمل معه.”

الجميع يريد وكيل

يعد Research Pokémon الخاص بشهر الأنثروبور بمثابة نهج جديد لمعالجة مشكلة موجودة مسبقًا – كيف نفهم القرارات التي تتخذها الذكاء الاصطناعى عند الاقتراب من المهام المعقدة ، ويدفعها في الاتجاه الصحيح؟

إن الإجابة على هذا السؤال جزء لا يتجزأ من تقدم وكلاء الذكاء الاصطناعى في الصناعة-AAI التي يمكنها معالجة المهام المعقدة مع الاستقلال النسبي. في بوكيمون ، من المهم ألا يفقد النموذج السياق أو “نسيان” المهمة المطروحة. ينطبق ذلك أيضًا على وكلاء الذكاء الاصطناعى الذين طلبوا أتمتة سير العمل – حتى يستغرق مئات الساعات.

“نظرًا لأن المهمة تنتقل من كونها مهمة مدتها خمس دقائق إلى مهمة مدتها 30 دقيقة ، يمكنك رؤية قدرة النموذج على الحفاظ على تماسك ، لتذكر كل الأشياء التي يحتاجها لإنجازها [the task] يقول هيرشي: “إن يزداد سوءًا بمرور الوقت”.

وتأمل الأنثروبور ، مثل العديد من مختبرات الذكاء الاصطناعي ، في إنشاء وكلاء قويين للبيع كمنتج للمستهلكين. يقول كريجر إن “أفضل الهدف” للأنثروبور هذا العام هو “القيام بساعات من العمل من أجلك”.

يقول كريجر ، في إشارة إلى عملية إعادة هيكلة كمية كبيرة من التعليمات البرمجية: “هذا النموذج يقدمه الآن-لقد رأينا أن أحد عملائنا في وقت مبكر من الوصول إلى النموذج ينفجر لمدة سبع ساعات ويقومون بإعادة صياغة كبيرة” ، في إشارة إلى عملية إعادة هيكلة كمية كبيرة من التعليمات البرمجية ، غالبًا لجعلها أكثر كفاءة وتنظيمًا.

هذا هو المستقبل الذي تعمل فيه شركات مثل Google و Openai. في وقت سابق من هذا الأسبوع ، أصدرت Google Mariner ، وكيل الذكاء الاصطناعي المدمج في كروم يمكنه القيام بمهام مثل شراء البقالة (مقابل 249.99 دولار شهريًا). أصدرت Openai مؤخراً وكيل ترميز ، وبعد بضعة أشهر من المشغل الذي تم إطلاقه ، وهو وكيل يمكنه تصفح الويب نيابة عن المستخدم.

مقارنةً بمنافسيها ، يُنظر إلى الأنثروبور غالبًا على أنه المحرك الأكثر حذراً ، حيث يسير بسرعة في البحث ولكنه أبطأ في النشر. ومع الذكاء الاصطناعى القوي ، من المحتمل أن يكون هذا إيجابيًا: هناك الكثير الذي قد يحدث خطأ مع وكيل لديه إمكانية الوصول إلى معلومات حساسة مثل تسجيل الدخول إلى البريد الوارد للمستخدم أو تسجيل الدخول إلى البنك. في منشور مدونة يوم الخميس ، يقول الأنثروبور ، “لقد قللنا بشكل كبير من السلوك حيث تستخدم النماذج اختصارات أو ثغرات لإكمال المهام”. تقول الشركة أيضًا أن كلا من كلود 4 أوبوس وكلود سونيت 4 أقل عرضة بنسبة 65 في المائة للانخراط في هذا السلوك ، والمعروفة باسم مكافأة القرصنة ، من النماذج السابقة – على الأقل في مهام الترميز.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *