مايكروسوفت تقدم نموذج اللغة الصغيرة Phi-3-vision لتحليل الصور إلى الأجهزة المحمولة




تعمل مايكروسوفت على توسيع عائلة Phi-3 من نماذج اللغات الصغيرة من خلال تقديم Phi-3-vision، على عكس أشقائه، لا يركز Phi-3-vision على النص فحسب، بل إنه نموذج متعدد الوسائط يمكنه تحليل الصور وفهمها أيضًا.


يعد النموذج رائعًا للتعرف على الكائنات في الصور، وتم تصميم هذا النموذج الذي يضم 4.2 مليار معلمة للأجهزة المحمولة ويتفوق في مهام التفكير البصري العامة، حيث يمكن للمستخدمين طرح أسئلة على Phi-3-vision حول الصور أو المخططات، وسوف يقدم إجابات ثاقبة، على الرغم من أنها ليست أداة لتوليد الصور مثل DALL-E أو Stable Diffusion، إلا أن Phi-3-vision تتفوق في تحليل الصور واستيعابها.


يأتي وصول Phi-3-vision في أعقاب Phi-3-mini، أصغر عضو في عائلة Phi-3 بـ 3.8 مليار معلمة، كما تتضمن العائلة الكاملة  Phi-3-mini، وPhi-3-vision، وPhi-3-small (7 مليار معلمة)، وPhi-3-medium (14 مليار معلمة).


يعكس هذا التركيز على النماذج الأصغر اتجاهًا متزايدًا في تطوير الذكاء الاصطناعي، حيث تتطلب النماذج الأصغر حجمًا طاقة معالجة وذاكرة أقل، مما يجعلها مثالية للأجهزة المحمولة والبيئات الأخرى ذات الموارد المحدودة.


وقد شهدت مايكروسوفت بالفعل نجاحاً في هذا النهج، حيث تفيد التقارير بأن نموذج Orca-Math الخاص بها يتفوق على المنافسين الأكبر في حل المسائل الرياضية.


ويتوفر Phi-3-vision حاليًا للمعاينة، بينما يمكن الوصول إلى بقية عائلة Phi-3 (الصغيرة والصغيرة والمتوسطة) من خلال مكتبة نماذج Azure.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *