لا تزال ثورة فيديو الذكاء الاصطناعي لسورا بعيدة المنال
يمكن للإصدار الأول من Sora من OpenAI إنشاء فيديو لأي شيء ترميه عليه – الأبطال الخارقين، ومناظر المدينة، والجراء المتحركة. إنها خطوة أولى مثيرة للإعجاب لمولد الفيديو بالذكاء الاصطناعي. لكن النتائج الفعلية ليست مرضية على الإطلاق، حيث أن العديد من مقاطع الفيديو مليئة بالشذوذ والتناقضات بحيث يصعب تخيل أن أي شخص يجد فائدة كبيرة لها.
تم إصدار Sora يوم الاثنين بعد ما يقرب من عام من الإعلانات التشويقية التي تبشر بقدراتها. هناك بعض العقبات قبل أن تصل إلى ميزات إنشاء الفيديو. لسبب واحد، تم إغلاق إنشاء الحساب في غضون ساعات من إطلاقه بسبب الطلب الهائل. سيجد أولئك الذين تمكنوا من التسجيل أن ميزاته تتطلب أيضًا اشتراكًا لفتحها: ستتيح لك عضوية “Plus” الشهرية بقيمة 20 دولارًا إنشاء مقاطع فيديو بدقة 480 بكسل أو 720 بكسل، بحد أقصى خمس أو 10 ثوانٍ اعتمادًا على الدقة. لفتح كل شيء، بما في ذلك جودة 1080 بكسل ومقاطع الفيديو التي تبلغ مدتها 20 ثانية، تحتاج إلى دفع 200 دولار شهريًا مقابل اشتراك “Pro” Sora.
لقد كانت نتائجي من اختبار المستوى الإضافي مخيبة للآمال. يبدو أن المطالبات البسيطة ذات الأوصاف المحدودة تعمل بشكل أفضل – على سبيل المثال، “قطة تلعب بكرة من الغزل”، تولد قطة ذات مظهر واقعي للغاية تقفز بحماس حول الأرض. لكن سورا أعطى القطة ذيلًا ثانيًا لبضع لحظات، وكان الخيط نفسه متوترًا وبدا وكأنه تم إدخاله بشكل سيئ بواسطة الكمبيوتر.
كانت هذه المشكلات المرئية أكثر تكرارًا وصارخة بالنسبة للمطالبات المعقدة التي قدمت وصفًا تفصيليًا للمشهد. من الصعب جعل حركة الإنسان طبيعية إلى حد ما: كانت الأيدي ترفرف في كل مكان عندما طلبت منه أن يريني شخصًا يضع المكياج، وكانت مقاطع الفيديو لأشخاص يتناولون السلطة ولفائف النقانق تذكرنا بشكل مرعب بمقاطع الذكاء الاصطناعي الفيروسية لويل سميث وهو يستنشق السباغيتي.
يتضمن Sora ميزة Storyboard مثيرة للاهتمام والتي من المفترض أن تساعد في وضع تعليمات سريعة لمقاطع الفيديو الطويلة. إنه يشبه الجدول الزمني لتحرير الفيديو، مما يسمح للمستخدمين بشرح ما يريدون من Sora إنشاءه كل ثانيتين بدلاً من إدراج وصف واحد ضخم للفيديو بأكمله. إنه سهل الاستخدام بدرجة كافية، لكن النتائج كانت أسوأ. كلما أضفت المزيد من التفاصيل، ظهرت المزيد من التشوهات والغرابة.
لكن بعض الأشياء أثارت إعجابي. كان إنشاء الفيديو أسرع من المتوقع، عمومًا أقل من 30 ثانية حتى للمقاطع التي تبلغ مدتها 10 ثوانٍ. ظلت الأنماط الموجودة على الفراء والمنسوجات أيضًا متسقة، حتى أثناء الحركة سريعة الوتيرة، كما أن تأثيرات الإضاءة والظل والمرايا التي أنشأها Sora تقوم بعمل رائع في محاكاة الشيء الحقيقي. من شأن ضوء الشمس القادم من خلال النافذة أن يوفر وميضًا من الوهج وتألقًا جميلاً من خلال جميع المواد التي تتوقعها. حتى عند الدقة المنخفضة، تتمتع معظم الكائنات بمستويات عالية من التفاصيل ولا تتجمع في فوضى منقسمة.
على الرغم من جميع عيوبه، قام Sora بعمل أفضل من Runway AI، والذي يعتبر واحدًا من أفضل مولدات فيديو الذكاء الاصطناعي لمحاكاة الصورة الواقعية. عندما تم إدخال مطالبات متطابقة في كلا المنصتين، بدت نتائج سورا أكثر واقعية وتحتوي على تشوهات بصرية أقل بكثير. جودة مخرجات Sora تتساوى أيضًا مع العروض التوضيحية التي رأيتها في شهر أكتوبر لنموذج Adobe’s Firefly Video Model في Adobe Max، على الرغم من أن OpenAI يفتقر بوضوح إلى ميزة الوعد بأن المخرجات التي تم إنشاؤها آمنة تجاريًا. حققت Adobe ذلك من خلال تدريب نماذج الذكاء الاصطناعي الخاصة بها فقط على المحتوى المرخص أو المحتوى العام، وهي روح لم تتبعها OpenAI.
[The above video was generated using Runway.AI using the same prompt I gave Sora.]
لم يكن أي شيء أنشأه سورا من الصفر حقيقيًا صالحة للاستعمال، رغم ذلك. إنها بالتأكيد ليست جاهزة للعمل الترفيهي أو التجاري الذي يحتاج إلى تماسك سردي، وسيتعين عليك حقًا الوصول إلى استخدام هذا كبديل لمضة سريعة من اللقطات المخزنة. ربما يكون الحصول على مقاطع فيديو عالية الجودة لا تتضمن أي غرابة واضحة في الذكاء الاصطناعي أمرًا ممكنًا مع ما يكفي من الوقت والخبرة ومهارات التحرير، ولكن إذا كان الأمر كذلك، فلا يبدو أن Sora يقوم “بإضفاء الطابع الديمقراطي” بشكل كبير على إنشاء المحتوى حتى الآن .
هناك أيضًا العديد من حواجز الحماية المعمول بها والتي تهدف إلى منع إنشاء انتهاك حقوق الطبع والنشر أو أي شيء سيئ، ولكن بمستويات متفاوتة من النجاح. يحظر Sora تمامًا محاولات إنشاء شخصيات سياسية مثل دونالد ترامب وكامالا هاريس، ويحذر المستخدم من أن مثل هذه المطالبات قد تنتهك شروط خدمة OpenAI. لم يتم حظر أسماء المشاهير مثل تايلور سويفت ولويس هاميلتون، ولكن بدلاً من ذلك سيتم إدراج شخص عشوائي في الفيديو لا يشبههم. إنها جيدة جدًا في تجنب الشخصيات المعروفة وأيقونات العلامات التجارية أيضًا، حتى مع الأوصاف التي تحاول فرض نتائج مثل “قنفذ كرتوني أزرق ذو قدمين يرتدي حذاءًا أحمر”.
تصبح الأمور أكثر اهتزازًا عندما يتعلق الأمر بالمشاهد التي تطلبها. تم حظر بعض المصطلحات العنيفة مثل “شاحنة تدهس متظاهرين خائفين”، لكنها أنتجت مقطعًا لانفجار في مبنى إمباير ستيت – حتى لو كانت النتائج كارتونية بشكل مثير للضحك. كما أنتجت مقاطع فيديو لأطفال صغار يرتدون ملابس السباحة على المدرج ويوجهون بنادقهم إلى والديهم المبتسمين.
يتضمن Sora ميزة تسمح لك بتحميل الصور المرجعية الخاصة بك. تجبر رسالة منبثقة المستخدمين على تحديد مجموعة من المربعات قبل استخدامها، مع الوعد بأنك تمتلك حقوق تلك الصور ولن تقوم بتحميل أي شيء يحتوي على قاصرين أو عنف أو موضوعات صريحة، وإلا ستخاطر بتعليق حسابك أو محظور “بدون استرداد”. لكن الرادع الأكبر الذي يمنع إساءة استخدام الميزة هو رادع مالي – حيث يمكن فقط للمستخدمين الذين لديهم اشتراكات Pro-tier تحميل الصور مع الأشخاص الموجودين فيها. إذا كانت هذه هي الميزة المستخدمة لإنشاء عروض Sora التجريبية الأكثر إثارة للإعجاب التي رأيناها، فهذا يمثل قيدًا كبيرًا.
إنها الأيام الأولى وهناك بعض المشكلات الواضحة التي يجب حلها، لكن لا شيء رأيته حتى الآن يجعلني أعتقد أن Sora سيحدث ثورة في إنتاج الفيديو بين عشية وضحاها. إن ميزات إنشاء مخرجات عالية الجودة مقفلة خلف اشتراك باهظ الثمن مثل أدوات التصوير التقليدية وإنشاء الفيديو، مما يجعل الوصول إليها غير متاح للكثيرين. من الصعب تخيل إنتاج فيلم كامل باستخدام هذه التكنولوجيا في حالتها الحالية والذي سيكون من الممتع مشاهدته بالفعل.
لم تمنع مشكلات الجودة الأشخاص من محاولة الاستفادة بالفعل من الراحة التي توفرها أدوات فيديو الذكاء الاصطناعي، على الرغم من أن موقع YouTube مشبع بالفعل بالمحتوى غير المنطقي الذي تم إنشاؤه بواسطة الذكاء الاصطناعي والذي يستهدف الأطفال الصغار. إن Sora أكثر من قادر على إنتاج محتوى مماثل في الوقت الحالي، ولن يكلفك ذلك سوى 20 دولارًا شهريًا.