السباق لحظر روبوتات OpenAI يتباطأ


من السابق لأوانه أن نقول كيف ستنتهي موجة الصفقات بين شركات الذكاء الاصطناعي والناشرين. لقد حققت OpenAI بالفعل فوزًا واضحًا واحدًا، على الرغم من ذلك: لم يتم حظر برامج زحف الويب الخاصة بها من قبل أفضل منافذ الأخبار بالمعدل الذي كانت عليه من قبل.

أثارت طفرة الذكاء الاصطناعي التوليدية اندفاعاً ذهبياً نحو البيانات ــ واندفاعاً لاحقاً لحماية البيانات (بالنسبة لمعظم المواقع الإخبارية، على أي حال)، حيث سعى الناشرون إلى منع برامج زحف الذكاء الاصطناعي ومنع أعمالهم من أن تصبح بيانات تدريب دون موافقة. عندما أطلقت شركة Apple وكيلًا جديدًا للذكاء الاصطناعي هذا الصيف، على سبيل المثال، قام عدد كبير من أهم منافذ الأخبار بسرعة بإلغاء الاشتراك في عملية تجريف الويب الخاصة بشركة Apple باستخدام بروتوكول استبعاد الروبوتات، أو ملف robots.txt، وهو الملف الذي يسمح لمشرفي المواقع بالتحكم في الروبوتات. هناك الكثير من روبوتات الذكاء الاصطناعي الجديدة في المشهد، مما يجعلك تشعر وكأنك تلعب لعبة whack-a-mole لمواكبة ذلك.

يتمتع GTTBot من OpenAI بأكبر قدر من التعرف على الأسماء، كما أنه يتم حظره بشكل متكرر أكثر من المنافسين مثل Google AI. زاد عدد مواقع الوسائط رفيعة المستوى التي تستخدم ملف robots.txt “لعدم السماح” لـGPTBot التابع لـ OpenAI بشكل كبير منذ إطلاقه في أغسطس 2023 حتى ذلك الخريف، ثم ارتفع بشكل مطرد (ولكن بشكل تدريجي) من نوفمبر 2023 إلى أبريل 2024، وفقًا لتحليل شمل 1000 موقع. منافذ إخبارية شهيرة من شركة Originality AI الناشئة للكشف عن الذكاء الاصطناعي ومقرها أونتاريو. في ذروتها، كان الارتفاع يزيد قليلاً عن ثلث المواقع الإلكترونية؛ لقد انخفض الآن إلى ما يقرب من الربع. ضمن مجموعة أصغر من أبرز منافذ الأخبار، لا يزال معدل الكتلة أعلى من 50 بالمائة، لكنه أقل من الارتفاعات التي بلغتها في وقت سابق من هذا العام والتي بلغت 90 بالمائة تقريبًا.

لكن في مايو الماضي، بعد أن أعلنت شركة Dotdash Meredith عن صفقة ترخيص مع OpenAI، انخفض هذا العدد بشكل ملحوظ. ثم تراجعت مرة أخرى في نهاية شهر مايو عندما أعلنت شركة Vox عن ترتيباتها الخاصة، ومرة ​​أخرى في شهر أغسطس من هذا العام عندما أبرمت شركة Condé Nast، الشركة الأم لـ WIRED، صفقة. يبدو أن الاتجاه نحو زيادة الحجب قد انتهى، على الأقل في الوقت الحالي.

هذه الانخفاضات منطقية بشكل واضح. عندما تدخل الشركات في شراكات وتمنح الإذن باستخدام بياناتها، فلن يتم تحفيزها لتحصينها، لذلك سيترتب على ذلك أنها ستقوم بتحديث ملفات robots.txt الخاصة بها للسماح بالزحف؛ عقد صفقات كافية ومن المؤكد تقريبًا أن النسبة الإجمالية للمواقع التي تحظر برامج الزحف ستنخفض. قامت بعض المنافذ بإلغاء حظر برامج الزحف الخاصة بـ OpenAI في نفس اليوم الذي أعلنت فيه عن الصفقة، مثل The Atlantic. واستغرق البعض الآخر بضعة أيام إلى بضعة أسابيع، مثل Vox، التي أعلنت عن شراكتها في نهاية شهر مايو ولكنها قامت برفع الحظر عن GTBot على ممتلكاتها في نهاية شهر يونيو.

إن ملف Robots.txt ليس ملزمًا قانونيًا، ولكنه يعمل منذ فترة طويلة كمعيار يحكم سلوك زاحف الويب. في أغلب فترات وجود الإنترنت، كان الأشخاص الذين يديرون صفحات الويب يتوقعون من بعضهم البعض الالتزام بالملف. عندما وجد تحقيق أجرته WIRED في وقت سابق من هذا الصيف أن شركة Perplexity الناشئة للذكاء الاصطناعي كانت على الأرجح تختار تجاهل أوامر robots.txt، أطلق قسم السحابة في أمازون تحقيقًا حول ما إذا كانت Perplexity قد انتهكت قواعدها. ليس من الجيد تجاهل ملف robots.txt، وهو ما يفسر على الأرجح سبب إعلان العديد من شركات الذكاء الاصطناعي البارزة – بما في ذلك OpenAI – بوضوح أنها تستخدمه لتحديد ما يجب الزحف إليه. يعتقد جون جيلهام، الرئيس التنفيذي لشركة Originality AI، أن هذا يضيف إلحاحًا إضافيًا إلى مساعي OpenAI للتوصل إلى اتفاقيات. يقول غيلهام: “من الواضح أن شركة OpenAI تنظر إلى الحظر باعتباره تهديدًا لطموحاتها المستقبلية”.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *