Sora من OpenAI يحول مطالبات الذكاء الاصطناعي إلى مقاطع فيديو واقعية

نحن نعلم بالفعل أن روبوتات الدردشة الخاصة بـ OpenAI يمكنها اجتياز اختبار المحاماة دون الالتحاق بكلية الحقوق. الآن، في الوقت المناسب تمامًا لجوائز الأوسكار، يأمل تطبيق OpenAI الجديد المسمى Sora في إتقان السينما دون الذهاب إلى مدرسة السينما. في الوقت الحالي، سيتم عرض منتج Sora البحثي على عدد قليل من المبدعين المختارين وعدد من خبراء الأمن الذين سيشكلون فريقًا أحمرًا له بحثًا عن ثغرات أمنية. تخطط OpenAI لإتاحتها لجميع المؤلفين الراغبين في التأليف في تاريخ غير محدد، لكنها قررت معاينتها مسبقًا.

وقد كشفت شركات أخرى، من عمالقة مثل Google إلى الشركات الناشئة مثل Runway، بالفعل عن مشاريع الذكاء الاصطناعي لتحويل النص إلى فيديو. لكن OpenAI تقول إن Sora يتميز بواقعيته المذهلة في التصوير – وهو أمر لم أره في منافسيه – وقدرته على إنتاج مقاطع أطول من المقتطفات القصيرة التي تنتجها النماذج الأخرى عادةً، والتي تصل إلى دقيقة واحدة. لم يذكر الباحثون الذين تحدثت إليهم المدة التي يستغرقها عرض كل هذا الفيديو، ولكن عندما ضغطوا عليهم، وصفوه بأنه يشبه “الخروج لتناول البوريتو” أكثر من “أخذ بضعة أيام إجازة”. إذا كان من الممكن تصديق الأمثلة المختارة بعناية، فإن الجهد المبذول يستحق ذلك.

لم يسمح لي OpenAI بإدخال المطالبات الخاصة بي، لكنه شارك في أربع حالات من قوة سورا. (لم يقترب أي منها من الحد الأقصى المزعوم للدقيقة الواحدة؛ وكانت أطولها 17 ثانية). وجاءت الرسالة الأولى من مطالبة مفصلة بدت وكأنها إعداد كاتب سيناريو مهووس: “مدينة طوكيو الثلجية الجميلة تعج بالحركة. تتحرك الكاميرا عبر شارع المدينة الصاخب، لتتبع العديد من الأشخاص وهم يستمتعون بالطقس الثلجي الجميل ويتسوقون في الأكشاك القريبة. بتلات الساكورا الرائعة تتطاير عبر الريح مع رقاقات الثلج.”

فيديو تم إنشاؤه بواسطة الذكاء الاصطناعي باستخدام Sora من OpenAI.

بإذن من OpenAI

والنتيجة هي رؤية مقنعة لما هو طوكيو بشكل لا لبس فيه، في تلك اللحظة السحرية عندما تتعايش رقاقات الثلج وأزهار الكرز. الكاميرا الافتراضية، كما لو كانت مثبتة على طائرة بدون طيار، تتبع زوجين أثناء تجولهما ببطء في أحد الشوارع. أحد المارة يرتدي كمامة. تسير السيارات على طول طريق على ضفاف النهر على يسارهم، ويدخل المتسوقون إلى اليمين ويخرجون من صف من المتاجر الصغيرة.

انها ليست مثالية. فقط عندما تشاهد المقطع عدة مرات، ستدرك أن الشخصيات الرئيسية – زوجان يتجولان على الرصيف المغطى بالثلوج – كانا سيواجهان معضلة لو استمرت الكاميرا الافتراضية في العمل. يبدو الرصيف الذي يشغلونه وكأنه طريق مسدود. كان عليهم أن يجتازوا حاجز حماية صغيرًا إلى ممر موازٍ غريب على يمينهم. وعلى الرغم من هذا الخلل الطفيف، فإن مثال طوكيو يشكل تمريناً مذهلاً في بناء العالم. في المستقبل، سيناقش مصممو الإنتاج ما إذا كان هذا متعاونًا قويًا أم قاتلًا للوظيفة. أيضًا، الأشخاص الموجودون في هذا الفيديو – الذين تم إنشاؤهم بالكامل بواسطة شبكة عصبية رقمية – لا يتم عرضهم عن قرب، ولا يقومون بأي تعبير عاطفي. لكن فريق سورا يقول إنه في حالات أخرى كان لديهم ممثلين مزيفين يظهرون مشاعر حقيقية.

المقاطع الأخرى مثيرة للإعجاب أيضًا، لا سيما تلك التي تطلب “مشهدًا متحركًا لوحش قصير رقيق راكع بجوار شمعة حمراء”، بالإضافة إلى بعض التوجيهات التفصيلية للمسرح (“عيون واسعة وفم مفتوح”) ووصف للأجواء المرغوبة لـ مقطع. ينتج سورا مخلوقًا شبيهًا بأفلام بيكسار يبدو أنه يحتوي على حمض نووي من فوربي، وجريملين، وسولي. شركة الوحوش. أتذكر عندما صدر هذا الفيلم الأخير، أوضحت بيكسار مدى صعوبة إنشاء نسيج شديد التعقيد لفراء الوحش أثناء تحرك المخلوق. لقد استغرق الأمر أشهرًا من سحرة بيكسار لإنجاز الأمر بشكل صحيح. آلة تحويل النص إلى فيديو الجديدة من OpenAI… فعلت ذلك للتو.

يقول تيم بروكس، عالم الأبحاث في المشروع، عن هذا الإنجاز: “إنها تتعلم عن الهندسة ثلاثية الأبعاد والاتساق”. “لم نقم بتضمين ذلك، بل ظهر بالكامل من خلال رؤية الكثير من البيانات.”

مقطع فيديو تم إنشاؤه بواسطة الذكاء الاصطناعي تم إنشاؤه باستخدام “مشهد الرسوم المتحركة الموجه” الذي يعرض لقطة مقربة لوحش رقيق قصير راكع بجانب شمعة حمراء تذوب. أسلوب الفن ثلاثي الأبعاد وواقعي، مع التركيز على الإضاءة والملمس. مزاج اللوحة هو العجب والفضول، حيث يحدق الوحش في اللهب بعيون واسعة وفم مفتوح. تنقل وضعه وتعبيره إحساسًا بالبراءة والمرح، كما لو كان يستكشف العالم من حوله لأول مرة. إن استخدام الألوان الدافئة والإضاءة الدرامية يعزز الجو المريح للصورة.

بإذن من OpenAI

في حين أن المشاهد مثيرة للإعجاب بالتأكيد، فإن أكثر قدرات سورا إثارة للدهشة هي تلك التي لم يتم تدريبه عليها. مدعومًا بنسخة من نموذج الانتشار الذي يستخدمه مولد الصور Dalle-3 التابع لشركة OpenAI بالإضافة إلى محرك GPT-4 القائم على المحولات، لا يقوم Sora بإنتاج مقاطع فيديو تلبي متطلبات المطالبات فحسب، بل يفعل ذلك بطريقة ما يُظهر فهمًا ناشئًا للقواعد السينمائية.

وهذا يترجم إلى ميل لسرد القصص. في مقطع فيديو آخر تم إنشاؤه بناءً على مطالبة “بعالم مصنوع من الورق بشكل رائع للشعاب المرجانية، مليء بالأسماك الملونة والمخلوقات البحرية”. ويشير بيل بيبلز، وهو باحث آخر في المشروع، إلى أن سورا ابتكر قصة مؤثرة من خلال زوايا الكاميرا والتوقيت. ويقول: “توجد في الواقع تغييرات متعددة في اللقطات، لم يتم تجميعها معًا، ولكن يتم إنشاؤها بواسطة النموذج دفعة واحدة”. “لم نطلب منها أن تفعل ذلك، بل فعلت ذلك تلقائيًا.”

تم إنشاء مقطع فيديو بواسطة الذكاء الاصطناعي مع المطالبة “بعالم مصنوع من الورق بشكل رائع للشعاب المرجانية، مليء بالأسماك الملونة والمخلوقات البحرية”.بإذن من OpenAI

في مثال آخر لم أشاهده، طُلب من سورا القيام بجولة في حديقة الحيوان. يقول بيبلز: “بدأ الأمر باسم حديقة الحيوان على لافتة كبيرة، ثم تم تخفيضه تدريجيًا، ثم تم إجراء عدد من التغييرات في اللقطات لإظهار الحيوانات المختلفة التي تعيش في حديقة الحيوان. لقد فعلت ذلك بطريقة لطيفة وممتعة”. بطريقة سينمائية لم يتم توجيهها صراحة للقيام بها.

إحدى الميزات في Sora التي لم يعرضها فريق OpenAI، وربما لن يتم إصدارها لفترة طويلة، هي القدرة على إنشاء مقاطع فيديو من صورة واحدة أو سلسلة من الإطارات. يقول بروكس: “ستكون هذه طريقة رائعة أخرى لتحسين قدرات سرد القصص”. “يمكنك رسم ما يدور في ذهنك بالضبط ثم تحريكه إلى الحياة.” تدرك OpenAI أن هذه الميزة لديها أيضًا القدرة على إنتاج معلومات مزيفة ومعلومات مضللة. ويضيف بيبلز: “سنكون حذرين للغاية بشأن جميع الآثار المترتبة على السلامة في هذا الأمر”.