شركة OpenAI تعلن عن نموذج “يفكر” من خلال المشكلات، ويطلق عليه “النموذج الجديد”

حققت شركة OpenAI آخر إنجاز كبير في مجال الذكاء الاصطناعي من خلال زيادة حجم نماذجها إلى أبعاد مذهلة، عندما قدمت GPT-4 العام الماضي. أعلنت الشركة اليوم عن تقدم جديد يشير إلى تحول في النهج – وهو نموذج يمكنه “التفكير” بشكل منطقي في العديد من المشكلات الصعبة وهو أكثر ذكاءً بشكل ملحوظ من الذكاء الاصطناعي الحالي دون توسيع نطاقه بشكل كبير.

يمكن للنموذج الجديد، الذي يطلق عليه اسم OpenAI-o1، أن يحل المشكلات التي تعيق نماذج الذكاء الاصطناعي الحالية، بما في ذلك أقوى نموذج موجود في OpenAI، وهو GPT-4o. بدلاً من استدعاء إجابة في خطوة واحدة، كما يفعل النموذج اللغوي الكبير عادةً، فإنه يفكر في المشكلة، ويفكر بشكل فعال بصوت عالٍ كما يفعل الشخص، قبل الوصول إلى النتيجة الصحيحة.

“هذا هو ما نعتبره النموذج الجديد في هذه النماذج،” تقول ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، لمجلة WIRED. “إنه أفضل بكثير في التعامل مع مهام التفكير المعقدة للغاية.”

وتقول الشركة إن النموذج الجديد يحمل الاسم الرمزي Strawberry داخل OpenAI، وهو ليس خليفة لـ GPT-4o بل هو مكمل له.

يقول موراتي إن شركة OpenAI تعمل حاليًا على بناء نموذجها الرئيسي التالي، GPT-5، والذي سيكون أكبر بكثير من سابقه. ولكن في حين أن الشركة لا تزال تعتقد أن هذا النطاق سيساعد في انتزاع قدرات جديدة من الذكاء الاصطناعي، فمن المرجح أن يشمل GPT-5 أيضًا تقنية الاستدلال التي تم تقديمها اليوم. يقول موراتي: “هناك نموذجان”. “نموذج التوسع وهذا النموذج الجديد. نتوقع أن نجمعهم معًا”.

عادةً ما يستحضر طلاب ماجستير إدارة الأعمال إجاباتهم من شبكات عصبية ضخمة تغذي كميات هائلة من بيانات التدريب. يمكنهم إظهار قدرات لغوية ومنطقية رائعة، لكنهم يواجهون تقليديًا مشاكل بسيطة بشكل مدهش مثل أسئلة الرياضيات البدائية التي تتضمن الاستدلال.

يقول موراتي إن OpenAI-o1 يستخدم التعلم المعزز، والذي يتضمن إعطاء نموذج ردود فعل إيجابية عندما يحصل على إجابات صحيحة وردود فعل سلبية عندما لا يحصل على إجابات صحيحة، من أجل تحسين عملية الاستدلال. وتقول: “إن النموذج يشحذ تفكيره ويضبط الاستراتيجيات التي يستخدمها للوصول إلى الإجابة”. لقد مكّن التعلم المعزز أجهزة الكمبيوتر من ممارسة الألعاب بمهارات خارقة والقيام بمهام مفيدة مثل تصميم شرائح الكمبيوتر. تعد هذه التقنية أيضًا عنصرًا رئيسيًا لتحويل LLM إلى برنامج دردشة مفيد وحسن التصرف.

قام مارك تشين، نائب رئيس الأبحاث في OpenAI، بعرض النموذج الجديد لمجلة WIRED، حيث استخدمه لحل العديد من المشكلات التي لم يتمكن نموذجه السابق، GPT-4o، من حلها. تضمنت هذه الأسئلة سؤالًا كيميائيًا متقدمًا واللغز الرياضي التالي المذهل: “عمر الأميرة هو عمر الأمير عندما يكون عمر الأميرة ضعف عمر الأمير عندما يكون عمر الأميرة نصف عمرها الحالي. ما هو عمر الأمير والأميرة؟ ” (الإجابة الصحيحة هي أن الأمير 30 والأميرة 40).

“ال [new] يقول تشين: “إن النموذج هو تعلم التفكير بنفسه، بدلاً من محاولة تقليد الطريقة التي يفكر بها البشر”، كما يفعل طلاب ماجستير القانون التقليديون.

تقول OpenAI إن نموذجها الجديد يؤدي أداءً أفضل بشكل ملحوظ في عدد من مجموعات المشكلات، بما في ذلك تلك التي تركز على البرمجة والرياضيات والفيزياء والبيولوجيا والكيمياء. وفي اختبار الرياضيات الدعوي الأمريكي (AIME)، وهو اختبار لطلاب الرياضيات، حل GPT-4o في المتوسط 12% من المسائل بينما حل o1 بنسبة 83%، وفقًا للشركة.