أطلقت Openai أخيرًا GPT-5. إليك كل ما تحتاج إلى معرفته


يدعي منشور مدونة Openai أن GPT-5 يفوق نماذجه السابقة على العديد من معايير الترميز ، بما في ذلك SWE-BENCED التحقق (سجل 74.9 في المائة) ، SWE-Lancer (GPT-5-THEALLE سجلت 55 في المائة) ، ومسارّة Polyglot (سجل 88 في المائة) ، والتي تختبر قدرة النموذج على إصلاح الحوض الكامل.

خلال الإحاطة الصحفية يوم الأربعاء ، دفع Yann Dubois لما بعد التدريب Openai GPT-5 إلى “إنشاء تطبيق ويب جميل وتفاعل للغاية لشريكي ، متحدث باللغة الإنجليزية ، لتعلم الفرنسية”. لقد كلف الذكاء الاصطناعي لتضمين ميزات مثل التقدم اليومي ، ومجموعة متنوعة من الأنشطة مثل البطاقات التعليمية والمسابقات ، وأشار إلى أنه يريد أن ينتهي التطبيق في “موضوع جذاب للغاية”. بعد دقيقة أو نحو ذلك ، ظهر التطبيق الذي تم إنشاؤه بواسطة الذكاء الاصطناعى. على الرغم من أنه كان مجرد عرض واحد على القضبان ، إلا أن النتيجة كانت موقعًا أنيقًا قدم بالضبط ما طلبه Dubois.

تقول ميشيل بوكراس ، وهي زمام المبادرة بعد التدريب: “إنه متعاون ترميز رائع ، كما أنه يتفوق على المهام الوكلاء”. “ينفذ سلاسل طويلة ومكالمات الأدوات بفعالية [which means it better understands when and how to use functions like web browsers or external APIs]، يتبع تعليمات مفصلة ، ويوفر تفسيرات مقدمة لأفعالها. “

يقول Openai أيضًا في منشور المدونة أن GPT-5 هو “أفضل نموذج لدينا حتى الآن للأسئلة المتعلقة بالصحة”. في ثلاث معايير LLM المتعلقة بالصحة Openai-HealthBench ، و HealthBench ، وتوافق صحة HealthBench-تنص بطاقة النظام (وهي وثيقة تصف القدرات الفنية للمنتج وغيرها من نتائج البحوث) على أن GPT-5-the-the-the the the the the the the the the the the the the the the the models “harmen heargin hearman heargen yberal”. سجلت نسخة التفكير من GPT-5 25.5 في المئة على HealthBench الصعب ، ارتفاعا من 31.6 في المئة من O3. يتم التحقق من صحة هذه الدرجات من قبل اثنين أو أكثر من الأطباء ، وفقا لبطاقة النظام.

يزعم أن النموذج يزعم أيضًا أنه يلموس أقل ، وفقًا لـ Pokrass ، وهي قضية مشتركة لمنظمة العفو الدولية حيث توفر معلومات خاطئة. يضيف أبحاث السلامة من Openai أليكس بيوتيل أنه “انخفض بشكل كبير معدلات الخداع في GPT-5.”

تقول بطاقة النظام: “لقد اتخذنا خطوات لتقليل ميل GPT-5-Thinking إلى خداع أو خداع أو اختراق ، على الرغم من أن تخفيفاتنا ليست مثالية والمزيد من البحث”. “على وجه الخصوص ، قمنا بتدريب النموذج على الفشل برشاقة عند طرحه مع المهام التي لا يمكن حلها.”

تقول بطاقة نظام الشركة أنه بعد اختبار نماذج GPT-5 دون الوصول إلى تصفح الويب ، وجد الباحثون معدل الهلوسة (الذي عرفوه بأنه “النسبة المئوية للمطالبات الواقعية التي تحتوي على أخطاء بسيطة أو رئيسية”) بنسبة 26 في المائة من نموذج GPT-4O. GPT-5-Thinking لديه معدل الهلوسة بنسبة 65 في المئة مقارنة مع O3.

بالنسبة للمطالبات التي يمكن أن تكون مزدوجة الاستخدام (قد تكون ضارة أو حميدة) ، يقول Beutel إن GPT-5 يستخدم “إكمال آمن” ، مما يطالب النموذج “بإعطاء إجابة مفيدة قدر الإمكان ، ولكن ضمن قيود البقاء آمنة”. قام Openai بأكثر من 5000 ساعة من الفريق الأحمر ، وفقًا لـ Beutel ، واختبار المنظمات الخارجية للتأكد من أن النظام قوي.

يقول Openai إنه يضم الآن ما يقرب من 700 مليون مستخدم نشط أسبوعيًا لـ ChatGPT ، و 5 ملايين مستخدمين يدفعون الدفع ، و 4 ملايين مطور يستخدمون واجهة برمجة التطبيقات.

يقول رئيس Chatgpt Nick Turley: “إن المشاعر في هذا النموذج جيدة حقًا ، وأعتقد أن الناس سيشعرون بذلك حقًا”. “خاصة الأشخاص العاديين الذين لم يقضوا وقتهم في التفكير في النماذج.”

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *