تطلق OpenAI نموذجًا منطقيًا جديدًا لـ o1
تطلق OpenAI نموذجًا جديدًا يسمى o1، وهو الأول في سلسلة مخطط لها من نماذج “الاستدلال” التي تم تدريبها للإجابة على أسئلة أكثر تعقيدًا، بشكل أسرع من قدرة الإنسان. يتم إصداره جنبًا إلى جنب مع o1-mini، وهو إصدار أصغر وأرخص. ونعم، إذا كنت غارقًا في شائعات الذكاء الاصطناعي: فهذا في الواقع نموذج الفراولة الذي تم الترويج له للغاية.
بالنسبة لشركة OpenAI، يمثل o1 خطوة نحو هدفها الأوسع المتمثل في الذكاء الاصطناعي الشبيه بالإنسان. ومن الناحية العملية، فهو يقوم بعمل أفضل في كتابة التعليمات البرمجية وحل المشكلات متعددة الخطوات مقارنة بالنماذج السابقة. ولكنه أيضًا أكثر تكلفة وأبطأ في الاستخدام من GPT-4o. تطلق OpenAI على هذا الإصدار من o1 اسم “معاينة” للتأكيد على مدى حداثته.
يمكن لمستخدمي ChatGPT Plus وTeam الوصول إلى كل من o1-preview وo1-mini بدءًا من اليوم، بينما سيتمكن مستخدمو Enterprise وEdu من الوصول مطلع الأسبوع المقبل. تقول OpenAI إنها تخطط لتوفير وصول o1-mini لجميع مستخدمي ChatGPT المجانيين ولكنها لم تحدد تاريخ الإصدار بعد. وصول المطور إلى o1 هو حقًا مكلفة: في واجهة برمجة التطبيقات، تبلغ تكلفة معاينة o1 15 دولارًا لكل مليون رمز إدخال، أو أجزاء من النص التي تم تحليلها بواسطة النموذج، و60 دولارًا لكل مليون رمز إخراج. للمقارنة، تبلغ تكلفة GPT-4o 5 دولارات لكل مليون رمز إدخال و15 دولارًا لكل مليون رمز إخراج.
يختلف التدريب وراء o1 اختلافًا جوهريًا عن سابقاته، كما أخبرني جيري توريك، رئيس الأبحاث في OpenAI، على الرغم من أن الشركة غامضة بشأن التفاصيل الدقيقة. ويقول إن o1 “تم تدريبه باستخدام خوارزمية تحسين جديدة تمامًا ومجموعة بيانات تدريب جديدة مصممة خصيصًا له.”
قامت OpenAI بتدريس نماذج GPT السابقة لتقليد الأنماط من بيانات التدريب الخاصة بها. باستخدام o1، تم تدريب النموذج على حل المشكلات بنفسه باستخدام تقنية تُعرف باسم التعلم المعزز، والتي تعلم النظام من خلال المكافآت والعقوبات. ثم يستخدم “سلسلة فكرية” لمعالجة الاستفسارات، على غرار الطريقة التي يعالج بها البشر المشكلات من خلال حلها خطوة بخطوة.
ونتيجة لمنهجية التدريب الجديدة هذه، تقول OpenAI أن النموذج يجب أن يكون أكثر دقة. يقول توريك: “لقد لاحظنا أن هذا النموذج يعاني من الهلوسة بشكل أقل”. لكن المشكلة لا تزال قائمة. “لا يمكننا أن نقول أننا حللنا الهلوسة.”
الشيء الرئيسي الذي يميز هذا النموذج الجديد عن GPT-4o هو قدرته على معالجة المشكلات المعقدة، مثل البرمجة والرياضيات، بشكل أفضل بكثير من سابقاته مع شرح أسبابه أيضًا، وفقًا لـ OpenAI.
قال لي بوب ماكجرو، كبير مسؤولي الأبحاث في OpenAI: “النموذج أفضل مني بالتأكيد في حل اختبار AP في الرياضيات، وكنت طالبًا ثانويًا في الرياضيات في الكلية”. ويقول إن OpenAI اختبرت أيضًا o1 مقابل اختبار تأهيلي لأولمبياد الرياضيات الدولي، وفي حين أن GPT-4o لم يحل بشكل صحيح سوى 13 بالمائة فقط من المشكلات، فقد حصل o1 على 83 بالمائة.
“لا يمكننا القول أننا حللنا الهلوسة”
في مسابقات البرمجة عبر الإنترنت المعروفة باسم مسابقات Codeforces، وصل هذا النموذج الجديد إلى النسبة المئوية 89 من المشاركين، وتدعي OpenAI أن التحديث التالي لهذا النموذج سيؤدي “على نحو مماثل لطلاب الدكتوراه في المهام القياسية الصعبة في الفيزياء والكيمياء وعلم الأحياء”.
وفي الوقت نفسه، فإن o1 ليس بنفس قدرة GPT-4o في الكثير من المجالات. إنها لا تفعل ذلك جيدًا فيما يتعلق بالمعرفة الواقعية حول العالم. كما أنه ليس لديه القدرة على تصفح الويب أو معالجة الملفات والصور. ومع ذلك، تعتقد الشركة أنها تمثل فئة جديدة تمامًا من القدرات. تم تسميته o1 للإشارة إلى “إعادة ضبط العداد مرة أخرى إلى 1.”
يقول ماكجرو: “سأكون صادقًا: أعتقد أننا سيئون في التسمية تقليديًا”. “لذلك آمل أن تكون هذه هي الخطوة الأولى لأسماء أحدث وأكثر عقلانية تنقل ما نقوم به إلى بقية العالم بشكل أفضل.”
لم أتمكن من عرض o1 بنفسي، لكن ماكجرو وتوريك أظهرا ذلك لي عبر مكالمة فيديو هذا الأسبوع. وطلبوا منه حل هذا اللغز:
“عمر الأميرة هو عمر الأمير عندما يكون عمر الأميرة ضعف عمر الأمير عندما يكون عمر الأميرة نصف عمرها الحالي. ما هو عمر الأمير والأميرة؟ تقديم كافة الحلول لهذا السؤال.
قام النموذج بالتخزين المؤقت لمدة 30 ثانية ثم قدم إجابة صحيحة. لقد صمم OpenAI الواجهة لإظهار خطوات التفكير كما يفكر النموذج. ما يلفت النظر بالنسبة لي ليس أنه أظهر عمله – يستطيع GPT-4o القيام بذلك إذا طُلب منه ذلك – ولكن كيف بدا وكأنه يحاكي الفكر البشري بشكل متعمد. إن عبارات مثل “أشعر بالفضول حيال ذلك” و”أنا أفكر جيدًا” و”حسنًا، دعني أرى” تخلق وهمًا في التفكير خطوة بخطوة.
لكن هذا النموذج لا يفكر، وهو بالتأكيد ليس بشريًا. فلماذا تصميمها لتبدو كما هي؟
لا تؤمن شركة OpenAI بمساواة التفكير النموذجي للذكاء الاصطناعي مع التفكير البشري، وفقًا لتوريك. لكن الواجهة تهدف إلى إظهار كيف يقضي النموذج وقتًا أطول في المعالجة والتعمق في حل المشكلات، كما يقول. “هناك طرق تبدو فيها أكثر إنسانية من النماذج السابقة.”
يقول ماكجرو: “أعتقد أنك سترى أن هناك الكثير من الطرق التي تشعر فيها بالغرابة نوعًا ما، ولكن هناك أيضًا طرقًا تشعر فيها بالإنسانية بشكل مدهش”. يتم منح النموذج وقتًا محدودًا لمعالجة الاستعلامات، لذلك قد يقول شيئًا مثل، “أوه، الوقت ينفد، اسمح لي بالوصول إلى إجابة بسرعة.” في وقت مبكر، خلال سلسلة أفكاره، قد يبدو أيضًا وكأنه يقوم بالعصف الذهني ويقول شيئًا مثل، “يمكنني أن أفعل هذا أو ذاك، ماذا علي أن أفعل؟”
البناء تجاه الوكلاء
نماذج اللغات الكبيرة ليست ذكية تمامًا كما هي موجودة اليوم. إنهم في الأساس يتنبأون فقط بتسلسل الكلمات ليحصلوا على إجابة بناءً على الأنماط المستفادة من كميات هائلة من البيانات. لنأخذ على سبيل المثال ChatGPT، الذي يميل إلى الادعاء خطأً بأن كلمة “فراولة” تحتوي على حرفين R فقط لأنها لا تقسم الكلمة بشكل صحيح. على أية حال، فإن نموذج o1 الجديد قد نجح في تصحيح هذا الاستعلام.
وبينما تتطلع شركة OpenAI إلى جمع المزيد من التمويل بتقييم مذهل قدره 150 مليار دولار، فإن زخمها يعتمد على المزيد من الإنجازات البحثية. تقدم الشركة قدرات التفكير المنطقي إلى LLMs لأنها ترى مستقبلًا مع أنظمة مستقلة، أو وكلاء، قادرين على اتخاذ القرارات واتخاذ الإجراءات نيابة عنك.
بالنسبة للباحثين في مجال الذكاء الاصطناعي، يعد فهم الاستدلال خطوة تالية مهمة نحو مستوى الذكاء البشري. والفكرة هي أنه إذا كان النموذج قادرًا على أكثر من مجرد التعرف على الأنماط، فيمكنه فتح تحقيق اختراقات في مجالات مثل الطب والهندسة. في الوقت الحالي، على الرغم من أن قدرات o1 الاستدلالية بطيئة نسبيًا، وليست مثل الوكيل، ومكلفة بالنسبة للمطورين لاستخدامها.
يقول ماكجرو: “لقد أمضينا عدة أشهر في العمل على الاستدلال لأننا نعتقد أن هذا هو الإنجاز الحاسم بالفعل”. “في الأساس، هذه طريقة جديدة للنماذج لكي تكون قادرة على حل المشكلات الصعبة حقًا التي يتطلبها التقدم نحو مستويات الذكاء الشبيهة بالإنسان.”