يجعل Lumiere من Google فيديو الذكاء الاصطناعي أقرب إلى الواقع من غير الواقعي


يستخدم نموذج الذكاء الاصطناعي الجديد لجيل الفيديو من Google Lumiere نموذج نشر جديد يسمى Space-Time-U-Net، أو STUNet، الذي يحدد مكان وجود الأشياء في مقطع فيديو (الفضاء) وكيف تتحرك وتتغير (الزمن) في نفس الوقت. آرس تكنيكا تشير هذه الطريقة إلى أن هذه الطريقة تتيح لـ Lumiere إنشاء الفيديو في عملية واحدة بدلاً من تجميع إطارات ثابتة أصغر معًا.

يبدأ Lumiere بإنشاء إطار أساسي من الموجه. بعد ذلك، يستخدم إطار عمل STUNet للبدء في تقريب المكان الذي ستتحرك فيه الكائنات داخل هذا الإطار لإنشاء المزيد من الإطارات التي تتدفق إلى بعضها البعض، مما يخلق مظهر الحركة السلسة. يقوم Lumiere أيضًا بإنشاء 80 إطارًا مقارنة بـ 25 إطارًا من Stable Video Diffusion.

من المسلم به أنني مراسل نصي أكثر مني شخص فيديو، لكن ما نشرته جوجل من أخبار، إلى جانب ورقة علمية مطبوعة مسبقًا، يوضح أن أدوات إنشاء الفيديو وتحريره باستخدام الذكاء الاصطناعي قد انتقلت من الوادي الغريب إلى شبه الواقعي في عدد قليل فقط سنين. كما أنه يؤسس لتقنية Google في المساحة التي يشغلها بالفعل المنافسون مثل Runway أو Stable Video Diffusion أو Meta’s Emu. أطلقت Runway، إحدى أولى منصات تحويل النص إلى فيديو ذات الانتشار الواسع، Runway Gen-2 في مارس من العام الماضي وبدأت في تقديم مقاطع فيديو أكثر واقعية. تواجه مقاطع فيديو المدرج أيضًا صعوبة في تصوير الحركة.

كان Google لطيفًا بما يكفي لوضع المقاطع والمطالبات على موقع Lumiere، مما سمح لي بوضع نفس المطالبات عبر Runway للمقارنة. وهنا النتائج:

نعم، بعض المقاطع المقدمة بها لمسة صناعية، خاصة إذا نظرت عن كثب إلى نسيج الجلد أو إذا كان المشهد أكثر جوًا. لكن انظر إلى تلك السلحفاة! إنها تتحرك مثل السلحفاة في الماء! يبدو وكأنه سلحفاة حقيقية! لقد أرسلت فيديو مقدمة Lumiere إلى صديق يعمل كمحرر فيديو محترف. في حين أشارت إلى أنه “يمكنك أن تقول بوضوح أن هذا ليس حقيقيًا تمامًا”، فقد اعتقدت أنه من المثير للإعجاب أنه إذا لم أخبرها أنه ذكاء اصطناعي، فإنها ستعتقد أنه CGI. (قالت أيضًا: “سوف يأخذ ذلك وظيفتي، أليس كذلك؟”)

تقوم نماذج أخرى بتجميع مقاطع الفيديو معًا من الإطارات الرئيسية التي تم إنشاؤها حيث حدثت الحركة بالفعل (فكر في الرسومات الموجودة في كتاب ورقي)، بينما تتيح STUNet لـ Lumiere التركيز على الحركة نفسها بناءً على المكان الذي يجب أن يكون فيه المحتوى الذي تم إنشاؤه في وقت معين من الفيديو.

لم تكن جوجل لاعبًا كبيرًا في فئة تحويل النص إلى فيديو، ولكنها أصدرت ببطء نماذج ذكاء اصطناعي أكثر تقدمًا واتجهت نحو التركيز على الوسائط المتعددة. نموذج اللغة الكبير Gemini الخاص به سيجلب في النهاية توليد الصور إلى Bard. Lumiere ليس متاحًا للاختبار بعد، ولكنه يُظهر قدرة Google على تطوير منصة فيديو تعمل بالذكاء الاصطناعي يمكن مقارنتها – ويمكن القول إنها أفضل قليلاً – من مولدات فيديو الذكاء الاصطناعي المتاحة بشكل عام مثل Runway وPika. وللتذكير فقط، كان هذا هو المكان الذي كانت فيه Google مع فيديو الذكاء الاصطناعي قبل عامين.

مقطع Google Imagen من عام 2022
الصورة: جوجل

بالإضافة إلى إنشاء تحويل النص إلى فيديو، سيسمح Lumiere أيضًا بإنشاء تحويل من صورة إلى فيديو، وإنشاء منمق، مما يتيح للمستخدمين إنشاء مقاطع فيديو بأسلوب معين، ورسومات سينمائية تعمل على تحريك جزء فقط من الفيديو، والرسم لإخفاء منطقة ما الفيديو لتغيير اللون أو النمط.

ومع ذلك، أشارت دراسة جوجل لوميير إلى أن “هناك خطر إساءة الاستخدام لإنشاء محتوى مزيف أو ضار باستخدام التكنولوجيا الخاصة بنا، ونعتقد أنه من الضروري تطوير وتطبيق أدوات للكشف عن التحيزات وحالات الاستخدام الضار لضمان تجربة آمنة وعادلة”. يستخدم.” ولم يشرح مؤلفو الورقة كيف يمكن تحقيق ذلك.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *