الكشف عن DeepSeek نموذج ذكاء اصطناعى يتفوق على منتجات Meta وOpenAI
أحدث إصدار شركة ناشئة صينية DeepSeek لنموذج لغة كبير جديد (LLM) ضجة في صناعة الذكاء الاصطناعي العالمية، حيث أظهرت اختبارات المقارنة أنه تفوق على نماذج منافسة من أمثال Meta Platforms و OpenAI منشئ ChatGPT.
وقالت الشركة التي يقع مقرها في هانغتشو في منشور على WeChat إن نموذجها الذي يحمل نفس الاسم، DeepSeek V3، يأتي مع 671 مليار معلمة ويتم تدريبه في حوالي شهرين بتكلفة 5.58 مليون دولار أمريكي، باستخدام موارد حوسبة أقل بكثير من النماذج التي طورتها شركات التكنولوجيا الأكبر.
يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT، في الذكاء الاصطناعي، يعد العدد الكبير من المعلمات محوريًا في تمكين LLM من التكيف مع أنماط البيانات الأكثر تعقيدًا وإجراء تنبؤات دقيقة.
وردًا على التقرير الفني للشركة الناشئة الصينية حول نموذج الذكاء الاصطناعي الجديد، قال عالم الكمبيوتر أندريه كارباثي – أحد أعضاء الفريق المؤسسين في OpenAI – في منشور على منصة التواصل الاجتماعي X: “تجعل DeepSeek الأمر يبدو سهلاً … من خلال إصدار أوزان مفتوحة لبرنامج ماجستير في القانون من الدرجة الأولى تم تدريبه بميزانية ضئيلة”.
تشير الأوزان المفتوحة إلى إصدار المعلمات المدربة مسبقًا أو الأوزان فقط لنموذج الذكاء الاصطناعي، مما يسمح لجهة خارجية باستخدام النموذج للاستدلال والضبط الدقيق فقط، ولا يتم توفير رمز تدريب النموذج ومجموعة البيانات الأصلية وتفاصيل البنية ومنهجية التدريب.
يتم عرض أيقونات روبوت الدردشة DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكي. الصورة: Shutterstock alt=يتم عرض أيقونات روبوت الدردشة DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكي.
يُظهِر تطوير DeepSeek لـ LLM قوي – بجزء بسيط من رأس المال الذي تستثمره الشركات الأكبر مثل Meta و OpenAI عادةً – مدى تقدم شركات الذكاء الاصطناعي الصينية، على الرغم من العقوبات الأمريكية التي منعت وصولها إلى أشباه الموصلات المتقدمة المستخدمة في نماذج التدريب.
بالاستفادة من البنية الجديدة المصممة لتحقيق تدريب فعال من حيث التكلفة، احتاجت DeepSeek إلى 2.78 مليون ساعة GPU فقط – وهو إجمالي الوقت الذي تستخدمه وحدة معالجة الرسومات لتدريب LLM – لنموذج V3 الخاص بها، واستخدمت عملية تدريب الشركة الناشئة وحدات معالجة الرسوميات H800 المصممة خصيصًا للصين من Nvidia.
وكانت هذه العملية أقل بكثير من 30.8 مليون ساعة GPU التي احتاجتها Meta، الشركة الأم لفيسبوك، لتدريب نموذج Llama 3.1 على شرائح H100 الأكثر تقدمًا من Nvidia، والتي لا يُسمح بتصديرها إلى الصين.
كتب كارباثي في منشوره على X: “يبدو أن DeepSeek V3 هو نموذج أقوى حيث يبلغ 2.8 مليون ساعة GPU فقط”.
أظهر التقرير الفني الذي نشرته شركة DeepSeek عن V3 أن برنامجها LLM تفوق على برنامج Meta’s Llama 3.1 وبرنامج Qwen 2.5 التابع لمجموعة Alibaba القابضة في سلسلة من الاختبارات المعيارية لتقييم قدرات نظام الذكاء الاصطناعي من فهم النصوص وتوليدها، ومعرفة الخبراء في المجال، والترميز وحل المشكلات الرياضية، وتمتلك شركة Alibaba صحيفة South China Morning Post.
وتم فصل DeepSeek في يوليو من العام الماضي بواسطة High-Flyer Quant، التي تستخدم الذكاء الاصطناعي لتشغيل أحد أكبر صناديق التحوط الكمية في البر الرئيسي للصين.
وأنفقت شركة High-Flyer 200 مليون يوان (27.4 مليون دولار أمريكي) لتطوير مجموعة الذكاء الاصطناعي Fire Flyer I بين عامي 2019 و2020، ثم أنفقت مليار يوان إضافي لبناء Fire-Flyer II، وفقًا لموقع الشركة على الإنترنت.
في إعلان في أبريل الماضي، قالت شركة High-Flyer إن هدف تطوير DeepSeek هو إنشاء “ذكاء اصطناعي يفيد البشرية جمعاء”، وأطلقت DeepSeek في وقت سابق سلسلة من نماذج الذكاء الاصطناعي، والتي يستخدمها المطورون لبناء تطبيقات الطرف الثالث، بالإضافة إلى روبوت الدردشة الخاص بها.