قام OpenAI بنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4


وفي وقت سابق من هذا الأسبوع، شارع الحائط مجلة ذكرت أن شركات الذكاء الاصطناعي كانت تواجه حائطًا عندما يتعلق الأمر بجمع بيانات تدريب عالية الجودة. اليوم، اوقات نيويورك بالتفصيل بعض الطرق التي تعاملت بها الشركات مع هذا. ومن غير المستغرب أن يتضمن ذلك القيام بأشياء تقع ضمن المنطقة الرمادية الضبابية لقانون حقوق الطبع والنشر للذكاء الاصطناعي.

تبدأ القصة على OpenAI التي، في حاجة ماسة إلى بيانات التدريب، قامت بتطوير نموذج النسخ الصوتي Whisper الخاص بها لتجاوز الحدبة، ونسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4، نموذج اللغة الكبير الأكثر تقدمًا. ذلك بحسب اوقات نيويورك، والتي تشير إلى أن الشركة كانت تعلم أن هذا أمر مشكوك فيه من الناحية القانونية ولكنها اعتقدت أنه استخدام عادل. شارك رئيس OpenAI جريج بروكمان شخصيًا في جمع مقاطع الفيديو التي تم استخدامها مرات يكتب.

وقال المتحدث باسم OpenAI ليندسي هيلد الحافة في رسالة بريد إلكتروني تفيد بأن الشركة تنظم مجموعات بيانات “فريدة” لكل نموذج من نماذجها “لمساعدتهم على فهم العالم” والحفاظ على قدرتها التنافسية البحثية العالمية. وأضاف هيلد أن الشركة تستخدم “العديد من المصادر بما في ذلك البيانات المتاحة للجمهور والشراكات للبيانات غير العامة”، وأنها تتطلع إلى إنشاء بيانات تركيبية خاصة بها.

ال مرات تقول المقالة أن الشركة استنفدت إمدادات البيانات المفيدة في عام 2021، وناقشت نسخ مقاطع فيديو YouTube والبودكاست والكتب الصوتية بعد التنقيب في الموارد الأخرى. بحلول ذلك الوقت، كانت قد دربت نماذجها على البيانات التي تضمنت كود الكمبيوتر من Github، وقواعد بيانات حركات الشطرنج، ومحتوى الواجبات المدرسية من Quizlet.

وقال المتحدث باسم جوجل مات براينت الحافة في رسالة بريد إلكتروني، “شاهدت الشركة تقارير غير مؤكدة” عن نشاط OpenAI، مضيفة أن “كل من ملفات robots.txt وشروط الخدمة الخاصة بنا تحظر النسخ غير المصرح به أو تنزيل محتوى YouTube”، وهو ما يعكس شروط استخدام الشركة. قال الرئيس التنفيذي لموقع YouTube، نيل موهان، أشياء مماثلة حول احتمال استخدام OpenAI لموقع YouTube لتدريب نموذج توليد الفيديو Sora الخاص به هذا الأسبوع. وقال براينت إن جوجل تتخذ “إجراءات فنية وقانونية” لمنع مثل هذا الاستخدام غير المصرح به “عندما يكون لدينا أساس قانوني أو فني واضح للقيام بذلك”.

وجمعت جوجل أيضًا نصوصًا من موقع يوتيوب، وفقًا لـ الأوقات مصادر. وقال براينت إن الشركة قامت بتدريب عارضاتها “على بعض محتويات يوتيوب، وفقا لاتفاقياتنا مع منشئي المحتوى على يوتيوب”.

ال مرات يكتب أن الإدارة القانونية في جوجل طلبت من فريق الخصوصية بالشركة تعديل لغة سياستها لتوسيع ما يمكنها فعله ببيانات المستهلك، مثل أدواتها المكتبية مثل محرر مستندات جوجل. وبحسب ما ورد تم إصدار السياسة الجديدة عمدًا في الأول من يوليو للاستفادة من الإلهاء الناتج عن عطلة نهاية الأسبوع في عيد الاستقلال.

وبالمثل، اصطدم Meta بحدود توفر بيانات التدريب الجيدة، وفي التسجيلات مرات سمعت أن فريق الذكاء الاصطناعي الخاص بها ناقش الاستخدام غير المسموح به للأعمال المحمية بحقوق الطبع والنشر أثناء العمل على اللحاق بـ OpenAI. يبدو أن الشركة، بعد الاطلاع على “الكتب والمقالات والقصائد والمقالات الإخبارية المتوفرة تقريبًا باللغة الإنجليزية على الإنترنت”، فكرت في اتخاذ خطوات مثل دفع ثمن تراخيص الكتب أو حتى شراء ناشر كبير بشكل مباشر. ويبدو أيضًا أنها كانت محدودة في الطرق التي يمكنها من خلالها استخدام بيانات المستهلك من خلال التغييرات التي تركز على الخصوصية والتي قامت بها في أعقاب فضيحة كامبريدج أناليتيكا.

تتصارع Google وOpenAI وعالم تدريب الذكاء الاصطناعي الأوسع مع بيانات التدريب سريعة التبخر لنماذجهم، والتي تتحسن كلما استوعبت المزيد من البيانات. ال مجلة كتب هذا الأسبوع أن الشركات قد تتفوق على المحتوى الجديد بحلول عام 2028.

الحلول الممكنة لتلك المشكلة التي ذكرها مجلة تتضمن يوم الاثنين نماذج تدريب على البيانات “الاصطناعية” التي تم إنشاؤها بواسطة نماذجهم الخاصة أو ما يسمى “تعلم المناهج الدراسية”، والذي يتضمن تغذية النماذج ببيانات عالية الجودة بطريقة منظمة على أمل أن يتمكنوا من استخدامها لإجراء “اتصالات أكثر ذكاءً بين المفاهيم” باستخدام معلومات أقل بكثير، ولكن لم يتم إثبات أي من النهجين حتى الآن. لكن الخيار الآخر أمام الشركات هو استخدام كل ما يمكنهم العثور عليه، سواء كان لديهم إذن أم لا، واستنادًا إلى الدعاوى القضائية المتعددة المرفوعة في العام الماضي أو نحو ذلك، فإن هذه الطريقة، دعنا نقول، أكثر من مجرد محفوفة بالمخاطر.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *