القدرات الناشئة للنماذج اللغوية الكبيرة هي سراب

النسخة الأصلية ل هذه القصة ظهرت في مجلة كوانتا.

قبل عامين، في مشروع يسمى معيار Beyond the Imitation Game، أو BIG-bench، قام 450 باحثًا بتجميع قائمة من 204 مهمة مصممة لاختبار قدرات نماذج اللغات الكبيرة، التي تدعم برامج الدردشة مثل ChatGPT. في معظم المهام، تحسن الأداء بشكل متوقع وسلس مع توسيع نطاق النماذج – كلما كان النموذج أكبر، أصبح أفضل. لكن مع المهام الأخرى، لم تكن القفزة في القدرة سلسة. وظل الأداء قريباً من الصفر لفترة من الوقت، ثم قفز الأداء. وجدت دراسات أخرى قفزات مماثلة في القدرة.

وصف المؤلفون هذا بأنه سلوك “اختراقي”. وقد شبهه باحثون آخرون بمرحلة انتقالية في الفيزياء، كما هو الحال عندما يتجمد الماء السائل ويتحول إلى جليد. وفي بحث نُشر في أغسطس 2022، أشار الباحثون إلى أن هذه السلوكيات ليست مفاجئة فحسب، بل لا يمكن التنبؤ بها، وأنها يجب أن ترشد المحادثات المتطورة حول سلامة الذكاء الاصطناعي وإمكاناته ومخاطره. لقد أطلقوا على القدرات اسم “الناشئة”، وهي كلمة تصف السلوكيات الجماعية التي تظهر فقط عندما يصل النظام إلى مستوى عالٍ من التعقيد.

لكن الأمور قد لا تكون بهذه البساطة. تفترض ورقة بحثية جديدة أجراها ثلاثة من الباحثين في جامعة ستانفورد أن الظهور المفاجئ لهذه القدرات هو مجرد نتيجة للطريقة التي يقيس بها الباحثون أداء ماجستير إدارة الأعمال. ويجادلون بأن القدرات ليست غير متوقعة ولا مفاجئة. قال سانمي كويجو، عالم الكمبيوتر في جامعة ستانفورد والمؤلف الرئيسي للدراسة: “إن التحول يمكن التنبؤ به بشكل أكبر بكثير مما يمنحه الناس الفضل فيه”. “إن الادعاءات القوية بالنشوء لها علاقة بالطريقة التي نختارها للقياس بقدر ما تتعلق بما تفعله النماذج.”

نحن الآن فقط نرى وندرس هذا السلوك بسبب الحجم الكبير الذي أصبحت عليه هذه النماذج. تتدرب نماذج اللغات الكبيرة من خلال تحليل مجموعات هائلة من البيانات النصية – كلمات من مصادر عبر الإنترنت بما في ذلك الكتب وعمليات البحث على الويب ويكيبيديا – وإيجاد الروابط بين الكلمات التي غالبًا ما تظهر معًا. يتم قياس الحجم من حيث المعلمات، وهو ما يشبه تقريبًا جميع الطرق التي يمكن من خلالها ربط الكلمات. كلما زاد عدد المعلمات، زاد عدد الاتصالات التي يمكن أن يجدها LLM. يحتوي GPT-2 على 1.5 مليار معلمة، بينما يستخدم GPT-3.5، LLM الذي يشغل ChatGPT، 350 مليارًا. يقال إن GPT-4، الذي ظهر لأول مرة في مارس 2023 ويشكل الآن أساسًا لبرنامج Microsoft Copilot، يستخدم 1.75 تريليون دولار.

وقد أدى هذا النمو السريع إلى طفرة مذهلة في الأداء والفعالية، ولا يجادل أحد في أن حاملي ماجستير القانون الكبار بما يكفي يمكنهم إكمال المهام التي لا تستطيع النماذج الأصغر القيام بها، بما في ذلك المهام التي لم يتم تدريبهم عليها. يدرك الثلاثي في جامعة ستانفورد، الذين اعتبروا الصعود “سرابًا”، أن حاملي شهادة الماجستير في القانون يصبحون أكثر فعالية مع توسعهم؛ في الواقع، فإن التعقيد الإضافي للنماذج الأكبر حجمًا من شأنه أن يجعل من الممكن التحسن في حل المشكلات الأكثر صعوبة وتنوعًا. لكنهم يجادلون بأن ما إذا كان هذا التحسن يبدو سلسًا ويمكن التنبؤ به أو متعرجًا وحادًا، فهو ينتج عن اختيار المقياس – أو حتى ندرة أمثلة الاختبار – وليس من الأعمال الداخلية للنموذج.