مؤرخ غارق في الوثائق المصدرية يلجأ إلى الذكاء الاصطناعي


مثل ملايين الأشخاص الآخرين، كان أول شيء فعله مارك همفريز مع ChatGPT عندما تم إصداره في أواخر عام 2022 هو مطالبته بأداء حيل صالون، مثل كتابة الشعر بأسلوب بوب ديلان – والذي، على الرغم من أنه مثير للإعجاب للغاية، لم يبدو مفيدًا بشكل خاص بالنسبة له، مؤرخ يدرس تجارة الفراء في القرن الثامن عشر. لكن همفريز، البالغ من العمر 43 عامًا، وهو أستاذ في جامعة ويلفريد لوريير في واترلو بكندا، كان مهتمًا منذ فترة طويلة بتطبيق الذكاء الاصطناعي في عمله. لقد كان يستخدم بالفعل أداة متخصصة للتعرف على النص مصممة لنسخ النصوص والخطوط القديمة، على الرغم من أنها ارتكبت أخطاء متكررة استغرق تصحيحها وقتًا. ولفضوله، قام بلصق تفسير الأداة المشوه لرسالة فرنسية مكتوبة بخط اليد في ChatGPT. قام الذكاء الاصطناعي بتصحيح النص، وإصلاح جميع حروف F التي تمت قراءتها بشكل خاطئ على أنها حرف S وحتى إضافة علامات النطق المفقودة. ثم طلب همفريز من ChatGPT ترجمته إلى الإنجليزية. لقد فعلت ذلك أيضًا. ربما كان يعتقد أن هذا الشيء سيكون مفيدًا بعد كل شيء.

بالنسبة إلى همفريز، كانت أدوات الذكاء الاصطناعي تحمل وعدًا محيرًا. على مدار العقد الماضي، تم مسح ملايين الوثائق في الأرشيفات والمكتبات ضوئيًا وتحويلها رقميًا – وقد شارك همفريز في أحد هذه الجهود بنفسه – ولكن نظرًا لأن التنوع الكبير في تنسيقاتها وخطوطها ومفرداتها جعلها غير قابلة للاختراق من خلال البحث الآلي، فقد تطلب العمل معها كميات هائلة من البحوث اليدوية. في مشروع سابق، قام همفريز بتجميع السير الذاتية لعدة مئات من جنود الحرب العالمية الأولى المصابين بالصدمة من السجلات الطبية المتنوعة، ومذكرات الحرب، والصحف، وملفات الموظفين، وغيرها من الأشياء الزائلة. لقد استغرق الأمر سنوات وفريقًا من مساعدي الأبحاث لقراءة المواد الخاصة بكل فرد ووضع علامات عليها وإسنادها الترافقي. ورأى أنه إذا كانت نماذج اللغة الجديدة قوية كما تبدو، فقد يكون من الممكن ببساطة تحميل كل هذه المواد ومطالبة النموذج باستخراج جميع المستندات المتعلقة بكل جندي تم تشخيص إصابته بصدمة قذيفة.

قال همفريز: “هذا عمل مدى الحياة، أو على الأقل عقد من الزمن”. “ويمكنك أن تتخيل توسيع نطاق ذلك. يمكنك الحصول على الذكاء الاصطناعي لمعرفة ما إذا كان جندي قد أصيب في التاريخ X، وما كان يحدث لتلك الوحدة في التاريخ X، ثم الوصول إلى معلومات حول أعضاء تلك الوحدة، كمؤرخين، لن يكون لديك الوقت الكافي لمعرفة ذلك. قال: “مطاردة على أساس فردي”. “قد يفتح طرقًا جديدة لفهم الماضي.”

قد تكون إدارة قواعد البيانات المحسنة بعيدة كل البعد عن الذكاء الفائق الذي يغزو العالم كما توقعه البعض، ولكنها من سمات الطريقة التي تقوم بها نماذج اللغة بتصفية العالم الحقيقي. من القانون إلى البرمجة إلى الصحافة، يحاول المحترفون معرفة ما إذا كان سيتم دمج هذه التكنولوجيا الواعدة والمحفوفة بالمخاطر والغريبة جدًا في عملهم وكيفية ذلك. بالنسبة للمؤرخين، فإن التكنولوجيا القادرة على تجميع أرشيفات كاملة والتي لديها أيضًا ميل لتلفيق الحقائق هي تقنية جذابة بقدر ما هي مرعبة، والمجال، مثل العديد من المجالات الأخرى، بدأ للتو في التعامل مع الآثار المترتبة على مثل هذه التكنولوجيا التي يحتمل أن تكون قوية ولكنها زلقة. أداة.

بدا أن الذكاء الاصطناعي كان موجودًا في كل مكان خلال الاجتماع السنوي رقم 137 للجمعية التاريخية الأمريكية الشهر الماضي، وفقًا لسيندي إرموس، أستاذ التاريخ المساعد في جامعة تكساس في سان أنطونيو. وترأست إحدى اللجان العديدة حول هذا الموضوع. وصفت إرموس علاقتها والعديد من زملائها بالذكاء الاصطناعي بأنها علاقة “الأطفال الفضوليين”، وتساءلت بإثارة وحذر عن جوانب عملهم التي ستتغير وكيف ستتغير. وقالت: “إنها ستحدث تحولاً في كل جزء من البحث التاريخي، من التجميع إلى التنظيم إلى الكتابة وبالطبع التدريس”. لقد أعجبت بشكل خاص بالعرض الذي قدمته كاثرين ماكدونو، المحاضرة في جامعة لانكستر، لبرنامج التعلم الآلي القادر على البحث في الخرائط التاريخية، والذي تم تدريبه في البداية على مسوحات الذخائر في بريطانيا في القرن التاسع عشر.

“سوف يُحدِث تحولًا في كل جزء من البحث التاريخي، من الجمع إلى التنظيم إلى الكتابة وبالطبع التدريس.”

وقال إرموس: “لقد بحثت عن كلمة “مطعم”، واستخرجت كلمة “مطعم” في العديد من الخرائط التاريخية على مر السنين”. “بالنسبة لغير المؤرخين، قد لا يبدو هذا أمرًا كبيرًا، لكننا لم نتمكن من القيام بذلك من قبل، وهو الآن في متناول أيدينا.”

وكانت لورين تيلتون، أستاذة الفنون الليبرالية والعلوم الإنسانية الرقمية في جامعة ريتشموند، من بين الحضور الآخرين، التي كانت تعمل في مجال التعلم الآلي لأكثر من عقد من الزمان، وعملت مؤخرًا مع مكتبة الكونجرس لتطبيق رؤية الكمبيوتر على مجموعات المؤسسة الهائلة من الصور ذات العلامات البسيطة. والأفلام. جميع الأرشيفات متحيزة – فيما يتعلق بالمادة التي يتم حفظها في البداية وفي كيفية تنظيمها. وقالت إن وعد الذكاء الاصطناعي هو أنه يمكنه فتح الأرشيفات على نطاق واسع وجعلها قابلة للبحث عن أشياء لم يكن أمناء المحفوظات في الماضي يقدرونها بما يكفي لتصنيفها.

وقالت: “إن المواد الأكثر وصفًا في الأرشيف هي عادةً نوع الأصوات التي سمعناها من قبل – السياسيون المشهورون، والمؤلفون المشهورون”. “لكننا نعلم أن هناك العديد من القصص لأشخاص من مجتمعات الأقليات، والمجتمعات الملونة، ومجتمعات LGBTQ التي كان من الصعب سردها، ليس لأن الناس لم يرغبوا في ذلك، ولكن بسبب التحديات المتمثلة في كيفية البحث في الأرشيف”.

ومع ذلك، فإن أنظمة الذكاء الاصطناعي لها تحيزاتها الخاصة. لديهم ميل موثق جيدًا لعكس التحيزات المتعلقة بالجنس، والعنصر، وغيرها من التحيزات في بيانات تدريبهم – والحقيقة، كما أشارت إيرموس، عندما طلبت من GPT-4 إنشاء صورة لأستاذ التاريخ، جذبت شخصًا مسنًا رجل أبيض مع وجود بقع على مرفقيه على سترته – لكنهم يظهرون أيضًا تحيزًا يسميه تيلتون “الحاضرية”. ونظرًا لأن الغالبية العظمى من بيانات التدريب مستمدة من الإنترنت المعاصر، فإن النماذج تعكس وجهة نظر عالمية معاصرة. واجهت تيلتون هذه الظاهرة عندما وجدت أن أنظمة التعرف على الصور تجد صعوبة في فهم الصور القديمة، على سبيل المثال، تصنيف الآلات الكاتبة على أنها أجهزة كمبيوتر وثقل الورق على أنها فئرانها. كانت هذه أنظمة التعرف على الصور، لكن النماذج اللغوية لديها مشكلة مماثلة.

أعجب همفريز بـ ChatGPT، وقام بالتسجيل في OpenAI API وشرع في العمل كمساعد أبحاث في مجال الذكاء الاصطناعي. كان يحاول تعقب تجار الفراء في القرن الثامن عشر من خلال مجموعة كبيرة من الرسائل، والمجلات، وشهادات الزواج، والوثائق القانونية، وسجلات الأبرشية، والعقود التي لا يظهرون فيها إلا بشكل عابر. كان هدفه هو تصميم نظام يمكنه أتمتة العملية.

كان أحد التحديات الأولى التي واجهها هو أن تجار الفراء في القرن الثامن عشر لا يبدون كما يفترض نموذج اللغة

كان أحد التحديات الأولى التي واجهها هو أن تجار الفراء في القرن الثامن عشر لا يبدون كما يفترض نموذج اللغة. اطلب من GPT-4 أن يكتب عينة من الإدخال، كما فعلت أنا، وسوف ينتج تأملات مطولة حول الوحدة السامية في البرية، قائلًا أشياء مثل، “هذا الصباح، انفتحت السماء برذاذ مستمر، يخفي الغابة في عباءة”. “حجاب الضباب والحزن”، و”برونو، الذي واجه كل الصعوبات برواقية حطاب متمرس، يرقد الآن ساكنًا تحت مأوى خيمتنا المؤقتة، وهي شهادة صامتة على هشاشة الحياة في هذه الأراضي الجامحة”.

في حين أن تاجر الفراء الفعلي سيكون أكثر إيجازًا بكثير. على سبيل المثال، “الطقس الجيد. هذا الصباح تم دفن الشاب الذي مات بالأمس وتم تطويق قبره بالأوتاد. 9 ذهب الرجال لجمع الصمغ الذي أحضروا به إلى 3 زوارق الصمغ، وكان الآخرون يعملون كما فعلوا بالأمس، كما كتب أحدهم في عام 1806، في إشارة إلى جمع عصارة الأشجار لإغلاق طبقات زوارق اللحاء الخاصة بهم.

قال همفريز: “المشكلة هي أن نموذج اللغة لن يتمكن من التقاط تسجيل كهذا، لأنه لا يحتوي على نوع الكتابة التأملية التي تم تدريبه على رؤيتها على أنها تمثل حدثًا كهذا”. ومن خلال تدريبه على منشورات ومقالات المدونات المعاصرة، فإنه يتوقع أن تتبع وفاة أحد الأصدقاء ذكريات عاطفية طويلة، وليس جردًا للإمدادات النسغية.

من خلال ضبط النموذج على مئات الأمثلة من نثر تجار الفراء، تمكن همفريز من سحب إدخالات دفتر اليومية ردًا على الأسئلة، ولكن ليس دائمًا تلك ذات الصلة. لا تزال المفردات القديمة تطرح مشكلة – كلمات مثل فارانج، وهو مصطلح فرنسي يشير إلى ضلع الزورق الذي نادرًا ما يظهر في بيانات تدريب النموذج، هذا إن ظهر على الإطلاق.

وبعد الكثير من التجارب والخطأ، انتهى به الأمر إلى إنشاء خط تجميع للذكاء الاصطناعي يستخدم نماذج متعددة لفرز المستندات، والبحث فيها عن الكلمات الرئيسية والمعاني، وتجميع الإجابات على الاستفسارات. لقد استغرق الأمر الكثير من الوقت والكثير من الترقيع، لكن GPT ساعدته في تعليمه لغة بايثون التي كان يحتاجها. أطلق على النظام اسم HistoryPearl، على اسم قطته الذكية.

لقد اختبر نظامه في مواجهة الحالات الصعبة، مثل التاجر النرويجي فرديناند وينتزل، الذي كتب عن نفسه بضمير الغائب واستخدم حسًا غريبًا من الفكاهة، على سبيل المثال، الكتابة عن ولادة ابنه من خلال التكهن بأبوته والتعبير عن الذات. استنكارًا للنكات حول طوله – “لقد أنجبت فتاة FW طفلًا بأمان. – أكاد أصدق أنه ابنه، إذ يبدو أن ملامحه تشبهه بعض الشيء، ويبدو أن قصر ساقيه هو الذي يحدد هذا الرأي بما لا يدع مجالاً للشك. هذا النوع من الكتابة أحبط النماذج السابقة، لكن HistoryPearl يمكن أن يسحبها ردًا على سؤال تمت صياغته بشكل غامض حول روح الدعابة لدى Wentzel، إلى جانب أمثلة أخرى على ذكاء Wentzel الذي لم يكن همفريز يبحث عنه.

ما زالت الأداة تفتقد بعض الأشياء، لكنها كانت تؤدي أداءً أفضل من متوسط ​​طلاب الدراسات العليا الذين عادة ما يستأجرهم همفريز للقيام بهذا النوع من العمل. وأسرع. وأرخص بكثير. في تشرين الثاني (نوفمبر) الماضي، بعد أن خفضت شركة OpenAI أسعار مكالمات واجهة برمجة التطبيقات (API)، قام ببعض الحسابات التقريبية. ما سيدفع لطالب الدراسات العليا حوالي 16000 دولار للقيام به على مدار فصل الصيف بأكمله، يمكن أن يفعله GPT-4 بحوالي 70 دولارًا في حوالي ساعة.

“إنهم ما زالوا يتحدثون عن التكنولوجيا كما لو كانت شيئًا نظريًا دون الفهم الكامل بأنها تشكل تهديدًا وجوديًا حقيقيًا للغاية لسبب وجودنا بأكمله كمعلمين عليا.”

وقال: “كانت تلك هي اللحظة التي أدركت فيها: حسنًا، بدأ هذا في تغيير كل شيء”. كباحث، كان الأمر مثيرًا. كمدرس، كان الأمر مخيفًا. قد يكون تنظيم سجلات تجارة الفراء تطبيقًا متخصصًا، ولكن عددًا كبيرًا من وظائف ذوي الياقات البيضاء يتكون من مهام إدارة معلومات مماثلة. كان من المفترض أن يتعلم طلابه أنواع مهارات البحث والتفكير التي من شأنها أن تسمح لهم بالنجاح في هذه الأنواع من الوظائف فقط. وفي نوفمبر، نشر رسالة إخبارية يناشد فيها أقرانه في الأوساط الأكاديمية أن يأخذوا التطور السريع للذكاء الاصطناعي على محمل الجد. وكتب: “لقد بدأ الذكاء الاصطناعي ببساطة يفوق خيال الكثير من الناس”. “إنهم ما زالوا يتحدثون عن التكنولوجيا كما لو كانت شيئًا نظريًا دون الفهم الكامل بأنها تشكل تهديدًا وجوديًا حقيقيًا للغاية لسبب وجودنا بأكمله كمعلمين عليا.”

ولكن في الوقت نفسه، كان سعيداً لأن ترقيعه أدى إلى ما أسماه “إثبات المفهوم”: موثوق بالقدر الكافي ليكون مفيداً، وإن لم يكن كافياً بعد للثقة الكاملة. قدم همفريز وشريكته البحثية، المؤرخة ليان ليدي، منحة لتوسيع نطاق أبحاثهما لتشمل جميع الرحالة البالغ عددهم 30 ألفًا في قاعدة بياناتهم. وبطريقة ما، وجد أن العمل المطلوب لتطوير نظام توفير العمالة هذا مريح. جاءت أكبر التحسينات في النموذج من خلال تزويده بالبيانات الصحيحة، وهو أمر لم يتمكن من القيام به إلا بسبب خبرته في المادة. في الآونة الأخيرة، كان يعتقد أنه قد يكون هناك بالفعل طلب أكبر على خبراء المجال الذين يتمتعون بهذا النوع من مهارات البحث والتقييم النقدي التي تدرسها العلوم الإنسانية. سيقوم هذا العام بتدريس برنامج الذكاء الاصطناعي التطبيقي الذي صممه، والذي يديره كلية الآداب.

“في بعض النواحي، هذا هو النبيذ القديم في زجاجات جديدة، أليس كذلك؟” هو قال. وأشار إلى أنه في منتصف القرن العشرين، كان لدى الشركات أرشيفات مؤسسية ضخمة يعمل بها باحثون خبراء، ليس فقط في تخزين وتنظيم المستندات، ولكن في المواد نفسها. “من أجل جعل الكثير من هذه البيانات مفيدة، هناك حاجة إلى أشخاص لديهم القدرة على معرفة كيفية تدريب النماذج، ولكن الأهم من ذلك، الذين يفهمون ما هو المحتوى الجيد وما هو ليس كذلك. وقال: أعتقد أن هذا مطمئن. “سواء كنت أخدع نفسي فقط، فهذا سؤال آخر.”

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *