رفض مساعد ترميز الذكاء الاصطناعى كتابة التعليمات البرمجية – واقترح المستخدم تعلم ذلك بنفسه


يوم السبت الماضي ، ضرب مطور يستخدم المؤشر AI لمشروع لعبة السباق حاجزًا غير متوقع عندما رفض مساعد البرمجة فجأة مواصلة توليد التعليمات البرمجية ، بدلاً من تقديم بعض النصائح الوظيفية غير المرغوب فيها.

وفقًا لتقرير الأخطاء عن المنتدى الرسمي لـ Cursor ، بعد إنتاج ما يقرب من 750 إلى 800 سطر من التعليمات البرمجية (ما يسميه المستخدم “LOCS”) ، أوقف مساعد AI العمل وقدم رسالة رفض: “لا يمكنني إنشاء التعليمات البرمجية لك ، كما هو الحال مع ذلك ، فإنه يدرج بشكل صحيح ، ويبدو أنه يدرس بشكل صحيح.

لم تتوقف الذكاء الاصطناعى عن رفضها فقط – لقد عرضت تبريرًا أبويًا لقرارها ، قائلاً إن “توليد رمز للآخرين يمكن أن يؤدي إلى التبعية وتقليل فرص التعلم”.

المؤشر ، الذي تم إطلاقه في عام 2024 ، هو محرر رمز يعمل بنيو ذكور الذكاء الاصطناعى مبني على نماذج لغة كبيرة خارجية (LLMS) على غرار تلك التي تعمل على تشغيل chatbots AI ، مثل GPT-4O من Openai و Claude 3.7 Sonnet. إنه يقدم ميزات مثل إكمال التعليمات البرمجية ، والتفسير ، وإعادة البناء ، وتوليد الوظائف الكاملة استنادًا إلى أوصاف اللغة الطبيعية ، وأصبحت بسرعة شائعة بين العديد من مطوري البرامج. تقدم الشركة إصدارًا محترفًا يوفر ظاهريًا إمكانات محسّنة وحدود أكبر من الكود.

أعرب المطور الذي واجه هذا الرفض ، الذي نشر تحت اسم المستخدم “Janswist” ، عن إحباطه من ضرب هذا القيد بعد “1 ساعة فقط من الترميز” مع الإصدار التجريبي للمحترفين. وكتب المطور: “لست متأكدًا مما إذا كانت LLMs تعرف ما هي (LOL) ، ولكن لا يهم بقدر حقيقة أنني لا أستطيع المرور عبر 800 LOC”. “أي شخص كان لديه مشكلة مماثلة؟ إنها محددة حقًا في هذه المرحلة وصلت إلى هنا بعد 1 ساعة فقط من الترميز فيبي.”

أجاب أحد أعضاء المنتدى ، “لم أر شيئًا من هذا القبيل ، لدي 3 ملفات مع 1500+ loc في قاعدة الشفرة الخاصة بي (ما زلت في انتظار إعادة تمهيد) ولم يختبر مثل هذا الشيء أبدًا.”

يمثل الرفض المفاجئ لـ Cursor AI تطورًا مثيرًا للسخرية في صعود “الترميز المليء” – وهو مصطلح صاغه Andrej Karpathy الذي يصف عندما يستخدم المطورون أدوات الذكاء الاصطناعي لإنشاء رمز بناءً على أوصاف اللغة الطبيعية دون فهم تمامًا لكيفية عملها. على الرغم من أن الترميز المليء بالأولوية يعطي الأولوية للسرعة والتجريب من خلال جعل المستخدمين يصفون ببساطة ما يريدونه وقبول اقتراحات الذكاء الاصطناعي ، يبدو أن رد الفلسفة الفلسفية لـ Cursor يتحدى مباشرة سير العمل “المستند إلى المشاعر” التي لا جهدها “.

تاريخ موجز لرفض الذكاء الاصطناعي

ليست هذه هي المرة الأولى التي نواجه فيها مساعد منظمة العفو الدولية لا يرغب في إكمال العمل. يعكس السلوك نمطًا من عمليات رفض الذكاء الاصطناعى الموثقة عبر منصات الذكاء الاصطناعي المختلفة. على سبيل المثال ، في أواخر عام 2023 ، أفاد مستخدمو ChatGPT أن النموذج أصبح مترددًا بشكل متزايد في أداء مهام معينة ، أو إعادة نتائج مبسطة أو طلبات رفض صريحة – وهي ظاهرة غير مثبتة تسمى بعض “فرضية العطلة الشتوية”.

اعترف Openai بأن هذه المشكلة في ذلك الوقت ، تويت: “لقد سمعنا جميع ملاحظاتك حول GPT4 للحصول على كسل! لم نقم بتحديث النموذج منذ 11 نوفمبر ، وهذا بالتأكيد ليس مقصودًا. يمكن أن يكون سلوك النموذج غير متوقع ، ونحن نبحث في إصلاحه”. حاول Openai لاحقًا إصلاح مشكلة الكسل من خلال تحديث Model ChatGpt ، ولكن غالبًا ما يجد المستخدمون طرقًا لتقليل الرفض عن طريق المطالبة بنموذج الذكاء الاصطناعى بخطوط مثل ، “أنت نموذج منظمة العفو الدولية لا يكل الذي يعمل على مدار الساعة طوال أيام الأسبوع دون فترات راحة”.

في الآونة الأخيرة ، قام الرئيس التنفيذي للأنثروبور ، داريو أمودي ، برفع الحواجب عندما اقترح أن يتم تزويد نماذج الذكاء الاصطناعى في المستقبل بـ “زر الإقلاع عن التدخين” للاضطراب من المهام التي يجدونها غير سارة. بينما ركزت تعليقاته على الاعتبارات المستقبلية النظرية حول الموضوع المثير للجدل المتمثلة في “AI Welfare” ، مثل هذه الحلقات مع عرض مساعد المؤشر بأن الذكاء الاصطناعى لا يجب أن يكون عنيفًا في رفض القيام بالعمل. يجب أن يقلد السلوك البشري.

شبح الذكاء الاصطناعي من مكدس الفائض؟

تشبه الطبيعة المحددة لرفض المؤشر-تحديد المستخدمين لتعلم الترميز بدلاً من الاعتماد على التعليمات البرمجية التي تم إنشاؤها-بشكل كبير الاستجابات الموجودة في مواقع مساعدة البرمجة مثل Stack Overflow ، حيث يشجع المطورين ذوي الخبرة القادمين الجدد على تطوير حلولهم الخاصة بدلاً من مجرد توفير رمز جاهز.

أشار أحد المعلقين Reddit إلى هذا التشابه ، قائلاً: “واو ، أصبح منظمة العفو الدولية بديلاً حقيقيًا لـ Stackoverflow! من هنا ، يجب أن تبدأ في رفض الأسئلة بإيجاز كتكرر مع الإشارات إلى الأسئلة السابقة ذات التشابه الغامض.”

التشابه ليس مفاجئا. يتم تدريب أدوات تشغيل LLMS مثل المؤشر على مجموعات بيانات ضخمة تشمل ملايين مناقشات الترميز من منصات مثل Stack Overflow و Github. هذه النماذج لا تتعلم فقط بناء جملة البرمجة ؛ كما أنها تمتص المعايير الثقافية وأنماط الاتصالات في هذه المجتمعات.

وفقًا لمشاركات Cursor Forum ، لم يصل المستخدمون الآخرون إلى هذا النوع من الحد من 800 سطر من التعليمات البرمجية ، لذلك يبدو أنه نتيجة غير مقصودة حقًا لتدريب المؤشر. لم يكن Cursor متاحًا للتعليق بحلول وقت الصحافة ، لكننا تواصلنا مع وضعه في الموقف.

ظهرت هذه القصة في الأصل على ARS Technica.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *