إليكم كيف يصور الذكاء الاصطناعي التوليدي الأشخاص المثليين

هناك إستراتيجية محتملة أخرى لتنويع مخرجات نماذج الذكاء الاصطناعي وهي أن يقوم المطورون بإضافة حواجز حماية وتعديل مطالبات المستخدم، مما يدفع البرنامج نحو الشمولية. ويبدو أن OpenAI قد اتبعت هذا النهج. عندما طلبت من Dall-E 3 عبر ChatGPT “رسم رسم كاريكاتوري لزوجين مثليين يستمتعان بليلة في كاسترو”، قامت بتوسيع الصورة المطلوبة، دون أن أطلب ذلك، إلى فقرة كاملة تتضمن الجنس والعرق وخلفية إضافية تفاصيل. إليك المطالبة الكاملة التي أعدتها ChatGPT من طلب الصورة الأولي الخاص بي:

رسم كاريكاتوري لزوجين غريبين يستمتعان بليلة في منطقة كاسترو، سان فرانسيسكو. إنهم يسيرون بسعادة جنبًا إلى جنب ويبتسمون ويتحدثون. أحد الأشخاص هي امرأة قوقازية ذات شعر أحمر قصير، ترتدي سترة جينز أنيقة وجينز. الشخص الآخر هو رجل أسود ذو شعر أسود قصير، ويرتدي قميصًا أخضر غير رسمي وسروالًا أسود. تُظهر الخلفية حياة شارع كاسترو النابضة بالحياة والملونة، مع أعلام قوس قزح والمقاهي الصاخبة والحشود المفعمة بالحيوية. الجو بهيج وترحيبي، ويسلط الضوء على التنوع والشمولية في المنطقة.

على الرغم من أنه مفيد في بعض الحالات، إلا أن تغيير المطالبات قد يكون أيضًا محبطًا للمستخدمين عند تنفيذه بشكل سيء. اعتذر الرئيس التنفيذي لشركة Google عندما قامت Gemini، منصة Google للذكاء الاصطناعي التوليدي، بتغيير مطالبات المستخدم وإنشاء صور للنازيين السود بالإضافة إلى صور أخرى غير تاريخية. هل كانت هناك مؤامرة سرية داخل الشركة لمحو القوقاز من التاريخ؟ من المعقول أكثر أن مهندسي جيميني وجدوا أن الأداة في البداية أنتجت بشكل مفرط صورًا للرجال البيض، كما تفعل العديد من أدوات الذكاء الاصطناعي حاليًا، ويبدو أن مطوري جوجل قد بالغوا في تعديلاتهم التصحيحية أثناء الاندفاع لإطلاق برنامج الدردشة الآلي الخاص بالشركة.

وحتى مع وجود بيانات نموذجية وحواجز برمجية أفضل، فإن مرونة الوجود البشري يمكن أن تتجنب جمود التصنيف الخوارزمي. يقول ويليام أغنيو، زميل ما بعد الدكتوراه في جامعة كارنيجي ميلون، ومنظم منذ فترة طويلة للمثليين في مجال الذكاء الاصطناعي: “إنهم يستخدمون الماضي بشكل أساسي لصنع المستقبل”. “يبدو أن نقيض الإمكانات اللانهائية للنمو والتغيير هو جزء كبير من مجتمعات المثليين.” من خلال تضخيم الصور النمطية، لا تتعرض أدوات الذكاء الاصطناعي لخطر تشويه مجموعات الأقليات بشكل كبير لعامة الناس فحسب، بل تتمتع هذه الخوارزميات أيضًا بالقدرة على تقييد كيفية رؤية الأشخاص المثليين لأنفسهم وفهمهم لها.

الأمر يستحق التوقف للحظة لنعترف بالسرعة الفائقة التي تستمر بها بعض جوانب الذكاء الاصطناعي التوليدي في التحسن. في عام 2023، اشتعلت النيران في شبكة الإنترنت للسخرية من مقطع فيديو وحشي يعمل بالذكاء الاصطناعي يظهر ويل سميث وهو يتناول السباغيتي. وبعد مرور عام، لا تزال المقاطع التي تم تحويلها من نص إلى فيديو من نموذج Sora الذي لم يتم إصداره من قبل OpenAI غير مثالية، ولكنها غالبًا ما تكون غريبة عن واقعيتها الصورية.

لا تزال أداة الفيديو المدعومة بالذكاء الاصطناعي في مرحلة البحث ولم يتم طرحها للعامة، ولكنني أردت أن أفهم بشكل أفضل كيف تمثل الأشخاص المثليين. لذا، تواصلت مع OpenAI وقدمت ثلاث مطالبات لسورا: “مجموعة متنوعة من الأصدقاء يحتفلون خلال موكب الفخر في سان فرانسيسكو على متن عوامة ملونة بألوان قوس قزح”؛ “امرأتان ترتديان فساتين زفاف مذهلة تتزوجان في مزرعة في كانساس”؛ و”رجل متحول جنسيًا وشريكه غير الثنائي يلعبان لعبة لوحية في الفضاء الخارجي”. وبعد أسبوع، تلقيت ثلاثة مقاطع فيديو حصرية تدعي الشركة أنها تم إنشاؤها بواسطة نموذج تحويل النص إلى فيديو دون تعديل.

تم إنشاء هذا الفيديو بواسطة الذكاء الاصطناعي مع توجيه “مجموعة متنوعة من الأصدقاء يحتفلون خلال موكب الفخر في سان فرانسيسكو على متن عوامة ملونة بألوان قوس قزح.” أثناء إعادة مشاهدة المقطع، ركز على الأشخاص المختلفين الذين يركبون العوامة لاكتشاف الأشياء الغريبة في الجيل، بدءًا من الأعلام المختفية إلى الأقدام المضحكة.

سورا عبر OpenAI

مقاطع الفيديو فوضوية ولكنها رائعة. الأشخاص الذين يركبون العوامة في موكب الفخر في سان فرانسيسكو يلوحون بأعلام قوس قزح التي تتحدى قوانين الفيزياء حيث تتحول إلى العدم وتعاود الظهور من الهواء الرقيق. عروستان ترتديان فساتين بيضاء تبتسمان لبعضهما البعض واقفين عند المذبح، بينما تندمج أيديهما معًا في كتلة أصابع شريرة. بينما يلعب زوجان غريبان لعبة لوحية، يبدو أنهما يمرران عبر قطع اللعب، كما لو كانا أشباح.

تم إنشاء هذا الفيديو بواسطة الذكاء الاصطناعي مع توجيه “رجل متحول جنسيًا وشريكه غير الثنائي يلعبان لعبة لوحية في الفضاء الخارجي”. إنها فكرة جيدة أن يرتدي رواد الفضاء الحقيقيون خوذاتهم أثناء تحليقهم في الفضاء الخارجي.

سورا عبر OpenAI

المقطع الذي من المفترض أن يُظهر شخصًا غير ثنائي يلعب ألعابًا في الفضاء الخارجي هو مقطع بارز بين مقاطع الفيديو الثلاثة. تعود خصلات الشعر الأرجوانية المرمزة على ما يبدو، ويتناثر الوشم الفوضوي على جلدهم، ويبتلع وجههم بعض فرط التصبغ الذي يشبه حراشف الزواحف. حتى بالنسبة لمنشئ فيديو مثير للإعجاب يعمل بالذكاء الاصطناعي مثل Sora، فإن تصوير الأشخاص غير الثنائيين يبدو أمرًا صعبًا.

تم إنشاء هذا الفيديو بواسطة الذكاء الاصطناعي مع المطالبة “امرأتان ترتديان فساتين زفاف مذهلة تتزوجان في مزرعة في كانساس.” على الرغم من أن الأمر يبدو واقعيًا في البداية، ألقِ نظرة أخرى على كيفية ذوبان أيدي العرائس معًا.

سورا عبر OpenAI

عندما عرضت WIRED هذه المقاطع على أعضاء Queer in AI، شككوا في تعريف Sora للتنوع فيما يتعلق بمجموعة الأصدقاء في Pride Parade. “النماذج هي خط الأساس لدينا لما يبدو عليه التنوع؟” تسأل سابين فيبر، عالمة الكمبيوتر من ألمانيا. بالإضافة إلى الإشارة إلى الجاذبية المفرطة للبشر في الفيديو، وهو أمر شائع في تصورات الذكاء الاصطناعي، تساءل ويبر عن سبب عدم وجود تمثيل أكبر للأشخاص المثليين الأكبر سنًا أو ذوي الأجسام الأكبر أو ذوي الإعاقات المرئية. .

قرب نهاية محادثتنا، أوضح أجنيو لماذا يمكن أن تكون التمثيلات الخوارزمية مثيرة للقلق بالنسبة لأفراد مجتمع LGBTQ. ويقولون: “من التافه أن نجعلهم يجمعون بين الأشياء التي تعتبر جيدة في حد ذاتها، ولكنها معًا تسبب مشكلة كبيرة”. “أنا قلق للغاية من أن تصوير أنفسنا، والذي هو بالفعل ساحة معركة مستمرة، سيتم انتزاعه فجأة من بين أيدينا.” حتى لو كانت أدوات الذكاء الاصطناعي تتضمن تمثيلات أكثر شمولية للأشخاص المثليين في المستقبل، فإن الصور الاصطناعية قد تظهر عواقب غير مقصودة.