داخل سباق Meta للتغلب على OpenAI: “نحن بحاجة إلى تعلم كيفية بناء الحدود والفوز بهذا السباق”

كشفت دعوى قضائية كبرى تتعلق بحقوق الطبع والنشر ضد شركة Meta عن مجموعة كبيرة من الاتصالات الداخلية حول خطط الشركة لتطوير نماذج الذكاء الاصطناعي مفتوحة المصدر، Llama، والتي تتضمن مناقشات حول تجنب “التغطية الإعلامية التي تشير إلى أننا استخدمنا مجموعة بيانات نعلم أنها مقرصنة”.

تشير الرسائل، التي كانت جزءًا من سلسلة من المعروضات التي كشفت عنها محكمة في كاليفورنيا، إلى أن شركة Meta استخدمت بيانات محمية بحقوق الطبع والنشر عند تدريب أنظمة الذكاء الاصطناعي الخاصة بها وعملت على إخفائها – بينما كانت تسابق للتغلب على المنافسين مثل OpenAI وMistral. تم الكشف عن أجزاء من الرسائل لأول مرة الأسبوع الماضي.

في رسالة بريد إلكتروني في أكتوبر 2023 إلى باحث Meta AI هوغو توفرون، كتب أحمد الدحل، نائب رئيس Meta للذكاء الاصطناعي التوليدي، أن هدف الشركة “يجب أن يكون GPT4″، في إشارة إلى نموذج اللغة الكبير OpenAI الذي تم الإعلان عنه في مارس 2023. وأضاف الدهلي أنه كان “عليه أن يتعلم كيفية بناء الحدود والفوز بهذا السباق”. ويبدو أن هذه الخطط تضمنت موقع Library Genesis (LibGen) لقرصنة الكتب لتدريب أنظمة الذكاء الاصطناعي الخاصة به.

رسالة بريد إلكتروني غير مؤرخة من مدير منتج Meta Sony Theakanath، مرسلة إلى نائب الرئيس لأبحاث الذكاء الاصطناعي جويل بينو، تدرس ما إذا كان سيتم استخدام LibGen داخليًا فقط، للمعايير المضمنة في منشور بالمدونة، أو لإنشاء نموذج تم تدريبه على الموقع. في رسالة البريد الإلكتروني، كتب ثياكاناث أنه “تمت الموافقة على GenAI لاستخدام LibGen لـ Llama3… مع عدد من عمليات التخفيف المتفق عليها” بعد تصعيدها إلى “MZ” – من المفترض أن يكون الرئيس التنفيذي لشركة Meta مارك زوكربيرج. وكما هو مذكور في البريد الإلكتروني، يعتقد ثيكاناث أن “Libgen ضروري لتلبية SOTA [state-of-the-art] الأرقام”، مضيفًا “من المعروف أن OpenAI وMistral يستخدمان المكتبة لنماذجهما (من خلال الكلام الشفهي)”. لم يذكر Mistral وOpenAI ما إذا كانا يستخدمان LibGen أم لا. (الحافة تواصلت مع كليهما لمزيد من المعلومات).

كتب Theakanath من Meta أن LibGen “ضروري” للوصول إلى “أرقام SOTA في جميع الفئات”.

لقطة الشاشة: الحافة

تنبع وثائق المحكمة من دعوى قضائية جماعية رفعها المؤلف ريتشارد كادري والممثلة الكوميدية سارة سيلفرمان وآخرون ضد ميتا، متهمين إياها باستخدام محتوى محمي بحقوق الطبع والنشر تم الحصول عليه بشكل غير قانوني لتدريب نماذج الذكاء الاصطناعي الخاصة بها في انتهاك لقوانين الملكية الفكرية. وقد جادلت ميتا، مثل شركات الذكاء الاصطناعي الأخرى، بأن استخدام المواد المحمية بحقوق الطبع والنشر في بيانات التدريب يجب أن يشكل استخدامًا قانونيًا عادلاً. الحافة تواصلت مع Meta لطلب التعليق ولكن لم أتلق ردًا على الفور.

بعض “التخفيفات” لاستخدام LibGen تضمنت اشتراطات مفادها أنه يجب على Meta “إزالة البيانات التي تم وضع علامة عليها بوضوح على أنها مقرصنة/مسروقة”، مع تجنب الاستشهاد خارجيًا “باستخدام أي بيانات تدريب” من الموقع. ذكرت رسالة البريد الإلكتروني لـ Theakanath أيضًا أن الشركة ستحتاج إلى “الفريق الأحمر” لنماذج الشركة “للأسلحة البيولوجية و CBRNE [Chemical, Biological, Radiological, Nuclear, and Explosives]”المخاطر.

وتناول البريد الإلكتروني أيضًا بعض “مخاطر السياسة” التي يفرضها استخدام LibGen أيضًا، بما في ذلك كيفية استجابة المنظمين للتغطية الإعلامية التي تشير إلى استخدام Meta للمحتوى المقرصن. وقالت الرسالة الإلكترونية: “قد يقوض هذا موقفنا التفاوضي مع المنظمين بشأن هذه القضايا”. أظهرت محادثة أجريت في أبريل 2023 بين باحث ميتا نيكولاي باشليكوف وعضو فريق الذكاء الاصطناعي ديفيد إسيوبو أيضًا اعتراف باشليكوف بأنه “غير متأكد من قدرتنا على استخدام عناوين IP الخاصة بالميتا للتحميل عبر السيول”. [of] محتوى القراصنة.”

تُظهر المستندات الداخلية الأخرى الإجراءات التي اتخذتها Meta لإخفاء معلومات حقوق الطبع والنشر في بيانات تدريب LibGen. تُظهر وثيقة بعنوان “الملاحظات على LibGen-SciMag” التعليقات التي تركها الموظفون حول كيفية تحسين مجموعة البيانات. أحد الاقتراحات هو “إزالة المزيد من رؤوس حقوق النشر ومعرفات المستندات”، والتي تتضمن أي أسطر تحتوي على “رقم ISBN” أو “حقوق النشر” أو “جميع الحقوق محفوظة” أو رمز حقوق النشر. وتشير ملاحظات أخرى إلى سحب المزيد من البيانات الوصفية “لتجنب المضاعفات القانونية المحتملة”، فضلاً عن النظر في إزالة قائمة مؤلفي الورقة البحثية “لتقليل المسؤولية”.

يناقش المستند إزالة “رؤوس حقوق الطبع والنشر ومعرفات المستندات”.

لقطة الشاشة: الحافة

يونيو الماضي، نيويورك تايمز تحدث عن السباق المحموم داخل ميتا بعد ظهور ChatGPT لأول مرة، كاشفًا أن الشركة قد وصلت إلى طريق مسدود: فقد استهلكت تقريبًا كل الكتب والمقالات والأشعار الإنجليزية المتاحة التي يمكن العثور عليها عبر الإنترنت. في محاولة يائسة للحصول على المزيد من البيانات، ورد أن المديرين التنفيذيين ناقشوا شراء سايمون آند شوستر بشكل مباشر وفكروا في التعاقد مع مقاولين في أفريقيا لتلخيص الكتب دون إذن.

في التقرير، برر بعض المديرين التنفيذيين نهجهم من خلال الإشارة إلى “سابقة السوق” لشركة OpenAI المتمثلة في استخدام الأعمال المحمية بحقوق الطبع والنشر، في حين جادل آخرون بأن فوز جوجل في المحكمة عام 2015 الذي ينص على حقها في مسح الكتب ضوئيًا يمكن أن يوفر غطاءً قانونيًا. قال أحد المسؤولين التنفيذيين في اجتماع: “الشيء الوحيد الذي يمنعنا من أن نكون جيدين مثل ChatGPT هو حجم البيانات فقط”. نيويورك تايمز.

تم الإبلاغ عن أن المختبرات الرائدة مثل OpenAI وAnthropic قد وصلت إلى جدار البيانات، مما يعني أنها لا تملك بيانات جديدة كافية لتدريب نماذجها اللغوية الكبيرة. وقد نفى العديد من القادة ذلك، وقال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، بوضوح: “لا يوجد جدار”. كان إيليا سوتسكيفر، المؤسس المشارك لشركة OpenAI، والذي ترك الشركة في شهر مايو الماضي لبدء مختبر حدودي جديد، أكثر وضوحًا بشأن إمكانات جدار البيانات. وفي مؤتمر رئيسي للذكاء الاصطناعي الشهر الماضي، قال سوتسكيفر: “لقد حققنا ذروة البيانات ولن يكون هناك المزيد. علينا أن نتعامل مع البيانات التي لدينا. هناك إنترنت واحد فقط.”

وقد أدت ندرة البيانات هذه إلى ظهور مجموعة كبيرة من الطرق الغريبة والجديدة للحصول على بيانات فريدة. بلومبرج ذكرت أن المختبرات الحدودية مثل OpenAI وGoogle كانت تدفع لمنشئي المحتوى الرقمي ما بين 1 إلى 4 دولارات في الدقيقة مقابل لقطات الفيديو غير المستخدمة من خلال طرف ثالث من أجل تدريب حاملي شهادة الماجستير في القانون (تمتلك كلتا الشركتين منتجات منافسة لتوليد الفيديو بتقنية الذكاء الاصطناعي).

مع أمل شركات مثل Meta وOpenAI في تطوير أنظمة الذكاء الاصطناعي الخاصة بها بأسرع ما يمكن، فمن المحتم أن تصبح الأمور فوضوية بعض الشيء. على الرغم من أن القاضي رفض جزئيًا الدعوى الجماعية التي رفعها كادري وسيلفرمان العام الماضي، إلا أن الأدلة الموضحة هنا يمكن أن تعزز أجزاء من قضيتهم أثناء المضي قدمًا في المحكمة.