يقول Meta إن Llama 3 يتفوق على معظم النماذج الأخرى، بما في ذلك Gemini

تتميز Llama 3 حاليًا بوزنين للنموذج، مع معلمات 8B و70B. (الحرف B مخصص للمليارات ويمثل مدى تعقيد النموذج ومقدار التدريب الذي يفهمه.) وهو يقدم فقط استجابات نصية حتى الآن، لكن ميتا يقول إن هذه “قفزة كبيرة” مقارنة بالإصدار السابق. أظهر اللاما 3 تنوعًا أكبر في الإجابة على المطالبات، وكان لديه عدد أقل من حالات الرفض الكاذب عندما رفض الرد على الأسئلة، وكان بإمكانه التفكير بشكل أفضل. يقول Meta أيضًا أن Llama 3 يفهم المزيد من التعليمات ويكتب تعليمات برمجية أفضل من ذي قبل.

في هذا المنصب، تدعي Meta أن كلا الحجمين من Llama 3 يتفوقان على النماذج ذات الحجم المماثل مثل Gemma وGemini من Google، وMistral 7B، وAnthropic’s Claude 3 في بعض اختبارات القياس. في معيار MMLU، الذي يقيس المعرفة العامة عادةً، كان أداء Llama 3 8B أفضل بكثير من كل من Gemma 7B وMistral 7B، في حين تفوق Llama 3 70B قليلاً على Gemini Pro 1.5.

(ربما من الجدير بالملاحظة أن منشور Meta المكون من 2700 كلمة لم يذكر GPT-4، النموذج الرئيسي لـ OpenAI.)

تجدر الإشارة أيضًا إلى أن اختبارات الذكاء الاصطناعي المعيارية لنماذج الاختبار، على الرغم من أنها مفيدة في فهم مدى قوتها، إلا أنها غير كاملة. تم العثور على مجموعات البيانات المستخدمة لقياس النماذج لتكون جزءًا من تدريب النموذج، مما يعني أن النموذج يعرف بالفعل إجابات الأسئلة التي سيطرحها عليه المقيِّمون.

يُظهر الاختبار المعياري أن كلا حجمي Llama 3 يتفوقان على نماذج اللغة ذات الحجم المماثل.

لقطة الشاشة: إميليا ديفيد / ذا فيرج

يقول ميتا كما وضع المقيمون البشريون علامة Llama 3 أعلى من النماذج الأخرى، بما في ذلك OpenAI’s GPT-3.5. تقول Meta إنها أنشأت مجموعة بيانات جديدة للمقيمين البشريين لمحاكاة سيناريوهات العالم الحقيقي حيث يمكن استخدام Llama 3. تضمنت مجموعة البيانات هذه حالات استخدام مثل طلب النصيحة والتلخيص والكتابة الإبداعية. وتقول الشركة إن الفريق الذي عمل على النموذج لم يتمكن من الوصول إلى بيانات التقييم الجديدة هذه، ولم يؤثر ذلك على أداء النموذج.

“تحتوي مجموعة التقييم هذه على 1800 مطالبة تغطي 12 حالة استخدام رئيسية: طلب النصيحة، والعصف الذهني، والتصنيف، والإجابة على الأسئلة المغلقة، والبرمجة، والكتابة الإبداعية، والاستخراج، وتسكين الشخصية/الشخصية، والإجابة على الأسئلة المفتوحة، والاستدلال، وإعادة الكتابة، والتلخيص، “يقول ميتا في منشور مدونته.

يقول ميتا إن أداء Llama 3 كان أفضل من معظم النماذج في التقييمات البشرية.

لقطة الشاشة: إميليا ديفيد / ذا فيرج

من المتوقع أن يحصل Llama 3 على أحجام نماذج أكبر (والتي يمكنها فهم سلاسل أطول من التعليمات والبيانات) وأن يكون قادرًا على تقديم استجابات متعددة الوسائط مثل “إنشاء صورة” أو “نسخ ملف صوتي”. تقول ميتا إن هذه الإصدارات الأكبر حجمًا، والتي تزيد عن 400 مليار معلمة ويمكنها بشكل مثالي تعلم أنماط أكثر تعقيدًا من الإصدارات الأصغر من النموذج، يتم تدريبها حاليًا، لكن اختبار الأداء الأولي يظهر أن هذه النماذج يمكنها الإجابة على العديد من الأسئلة التي تطرحها المقارنة المعيارية.

ومع ذلك، لم تصدر Meta معاينة لهذه النماذج الأكبر حجمًا، ولم تقارنها بالنماذج الكبيرة الأخرى مثل GPT-4.