أدوات الذكاء الاصطناعي تتدرب سرًا على صور حقيقية للأطفال

تم جمع أكثر من 170 صورة وتفاصيل شخصية لأطفال من البرازيل من خلال مجموعة بيانات مفتوحة المصدر دون علمهم أو موافقتهم، واستخدامها لتدريب الذكاء الاصطناعي، حسبما جاء في تقرير جديد صادر عن منظمة هيومن رايتس ووتش يوم الاثنين.

تم استخراج الصور من محتوى تم نشره مؤخرًا في عام 2023 ويعود تاريخه إلى منتصف التسعينيات، وفقًا للتقرير، قبل وقت طويل من توقع أي مستخدم للإنترنت أنه قد يتم استخدام المحتوى الخاص به لتدريب الذكاء الاصطناعي. تدعي هيومن رايتس ووتش أن التفاصيل الشخصية لهؤلاء الأطفال، إلى جانب روابط صورهم، تم تضمينها في LAION-5B، وهي مجموعة بيانات كانت مصدرًا شائعًا لبيانات التدريب للشركات الناشئة في مجال الذكاء الاصطناعي.

“يتم انتهاك خصوصيتهم في المقام الأول عندما يتم حذف صورهم وإدخالها في مجموعات البيانات هذه. تقول هاي جونغ هان، الباحثة في مجال حقوق الطفل والتكنولوجيا في هيومن رايتس ووتش والباحثة التي عثرت على هذه الصور: “يتم تدريب أدوات الذكاء الاصطناعي هذه على هذه البيانات وبالتالي يمكنها إنشاء صور واقعية للأطفال”. “لقد تم تطوير التكنولوجيا بطريقة تجعل أي طفل لديه أي صورة أو مقطع فيديو خاص به عبر الإنترنت أصبح الآن في خطر لأن أي ممثل خبيث يمكن أن يلتقط تلك الصورة، ثم يستخدم هذه الأدوات للتلاعب بها كيفما يريد.”

يعتمد LAION-5B على Common Crawl – وهو مستودع للبيانات تم إنشاؤه عن طريق استخراج الويب وإتاحته للباحثين – وقد تم استخدامه لتدريب العديد من نماذج الذكاء الاصطناعي، بما في ذلك أداة إنشاء الصور Stable Diffusion الخاصة بـ Stability AI. مجموعة البيانات التي أنشأتها منظمة LAION الألمانية غير الربحية، يمكن الوصول إليها بشكل مفتوح وتتضمن الآن أكثر من 5.85 مليار زوج من الصور والتعليقات التوضيحية، وفقًا لموقعها على الإنترنت.

صور الأطفال التي عثر عليها الباحثون جاءت من مدونات الأم وغيرها من المدونات الشخصية أو الخاصة بالأمومة أو الأبوة والأمومة، بالإضافة إلى لقطات من مقاطع فيديو على اليوتيوب ذات عدد مشاهدات صغير، ويبدو أنها تم تحميلها لمشاركتها مع العائلة والأصدقاء.

تقول هاي: “بمجرد النظر إلى سياق المكان الذي تم نشرهم فيه، فقد استمتعوا بالتوقعات وقدرًا من الخصوصية”. “لم يكن من الممكن العثور على معظم هذه الصور عبر الإنترنت من خلال البحث العكسي عن الصور.”

يقول المتحدث باسم LAION، نيت تايلر، إن المنظمة اتخذت إجراءات بالفعل. يقول: “لقد تم حذف LAION-5B ردًا على تقرير جامعة ستانفورد الذي وجد روابط في مجموعة البيانات تشير إلى محتوى غير قانوني على شبكة الإنترنت العامة”، مضيفًا أن المنظمة تعمل حاليًا مع “مؤسسة مراقبة الإنترنت، والمركز الكندي لرعاية الأطفال”. الحماية وستانفورد وهيومن رايتس ووتش لإزالة جميع الإشارات المعروفة إلى المحتوى غير القانوني.

لا تسمح شروط خدمة YouTube بالاستخلاص إلا في ظل ظروف معينة؛ يبدو أن هذه الحالات تتعارض مع تلك السياسات. يقول جاك ماون، المتحدث باسم يوتيوب: “لقد أوضحنا أن الاستخلاص غير المصرح به لمحتوى يوتيوب يعد انتهاكًا لشروط الخدمة الخاصة بنا، ونحن مستمرون في اتخاذ إجراءات ضد هذا النوع من الإساءة”.

وفي ديسمبر/كانون الأول، وجد باحثون في جامعة ستانفورد أن بيانات تدريب الذكاء الاصطناعي التي جمعها LAION-5B تحتوي على مواد تتعلق بالاعتداء الجنسي على الأطفال. إن مشكلة التزييف العميق الواضحة آخذة في الارتفاع حتى بين الطلاب في المدارس الأمريكية، حيث يتم استخدامها للتنمر على زملاء الدراسة، وخاصة الفتيات. تشعر هاي بالقلق من أنه، بالإضافة إلى استخدام صور الأطفال لإنشاء مواد CSAM، يمكن لقاعدة البيانات أن تكشف عن معلومات قد تكون حساسة، مثل المواقع أو البيانات الطبية. في عام 2022، عثرت فنانة مقيمة في الولايات المتحدة على صورتها الخاصة في مجموعة بيانات LAION، وأدركت أنها كانت من سجلاتها الطبية الخاصة.