VASA-1.. نموذج للذكاء الاصطناعى يحول الصورة إلى فيديو بطريقة واقعية

طرحت شركة مايكروسوفت نموذجًا جديدًا للذكاء الاصطناعي (AI) يمكنه إنشاء مقاطع فيديو واقعية للغاية لوجوه بشرية تتحدث، ويمكن لنموذج تحويل الصورة إلى الفيديو المدعم بالذكاء الاصطناعي، والذي يطلق عليه اسم VASA-1، إنشاء مقاطع فيديو من صورة واحدة فقط ومقطع صوتي للكلام.

وتقول الشركة إن مقاطع الفيديو التي تم إنشاؤها ستحتوي على حركات الشفاه المتزامنة لتتناسب مع الصوت بالإضافة إلى تعبيرات الوجه وحركة الرأس لجعلها تبدو طبيعية، والجدير بالذكر أن عملاق التكنولوجيا لا ينوي إطلاق منتج أو واجهة برمجة تطبيقات بنموذج VASA-1 ويدعي أنه سيتم استخدامه لإنشاء شخصيات افتراضية واقعية.

وفي منشور على صفحة الأبحاث الخاصة بها، قامت Microsoft بتفصيل طريقة عمل نموذج الذكاء الاصطناعي قيد التطوير الخاص بها وسلطت الضوء على قدراته.

وتدعي الشركة أن طراز VASA-1 يمكنه إنشاء مقاطع فيديو بدقة 512 × 512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية، ويقال أيضًا أن نموذج الذكاء الاصطناعي يدعم إنشاء الفيديو عبر الإنترنت مع زمن وصول ضئيل لبدء التشغيل.

فى حين أن أكبر إنجاز لـ VASA-1 هو تقديم ما يصل إلى دقيقة واحدة من مقاطع الفيديو (وفقًا للعروض التوضيحية) بجودة عالية مع صورة ثابتة واحدة، فقد سلطت الشركة الضوء أيضًا على قدرتها على إنشاء حركات الشفاه التي تطابق الملف الصوتي و تعابير الوجه لتتماشى معها.

ويوفر نموذج إنشاء الفيديو بتقنية الذكاء الاصطناعي أيضًا تحكمًا دقيقًا للمستخدم للتحكم في جوانب مختلفة من الفيديو مثل اتجاه نظرة العين الرئيسية ومسافة الرأس وإزاحة المشاعر والمزيد.

ويمكن أن تساعد عناصر التحكم في الإسناد هذه على المظهر غير المتشابك ووضعية الرأس ثلاثية الأبعاد وديناميكيات الوجه في تعديل الإخراج بشكل وثيق وفقًا لتوجيهات المستخدم.

علاوة على ذلك، كان نموذج الذكاء الاصطناعي أيضًا قادرًا على إنشاء مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام غير الإنجليزي، ويشير باحثو مايكروسوفت إلى أن القدرة على هذه الوظائف لم تكن موجودة في بياناتها، مما يشير إلى قدرتها على التعلم الذاتي.