أداة النسخ الخاصة بـ OpenAI تهلوس. المستشفيات تستخدمه على أي حال

يوم السبت أ كشف تحقيق لوكالة أسوشيتد برس أن أداة النسخ Whisper الخاصة بـ OpenAI تنشئ نصًا ملفقًا في الإعدادات الطبية والتجارية على الرغم من التحذيرات ضد هذا الاستخدام. أجرت وكالة أسوشييتد برس مقابلات مع أكثر من 12 من مهندسي البرمجيات والمطورين والباحثين الذين وجدوا أن النموذج يخترع بانتظام نصًا لم يقله المتحدثون أبدًا، وهي ظاهرة تسمى غالبًا “التباس” أو “الهلوسة” في مجال الذكاء الاصطناعي.

عند إصداره في عام 2022، ادعى OpenAI أن Whisper اقترب من “مستوى القوة البشرية” في دقة النسخ الصوتي. ومع ذلك، قال أحد الباحثين في جامعة ميشيغان لوكالة أسوشييتد برس إن ويسبر أنشأ نصًا كاذبًا في 80 بالمائة من نصوص الاجتماعات العامة التي تم فحصها. وادعى مطور آخر، لم يذكر اسمه في تقرير وكالة أسوشييتد برس، أنه وجد محتوى مخترعًا في جميع النسخ التجريبية التي يبلغ عددها 26000 تقريبًا.

تشكل التلفيقات مخاطر خاصة في أماكن الرعاية الصحية. على الرغم من تحذيرات OpenAI من استخدام Whisper في “النطاقات عالية الخطورة”، يستخدم أكثر من 30 ألف عامل طبي الآن الأدوات المستندة إلى Whisper لتسجيل زيارات المرضى، وفقًا لتقرير AP. تعد عيادة مانكاتو في مينيسوتا ومستشفى الأطفال في لوس أنجلوس من بين 40 نظامًا صحيًا يستخدم خدمة مساعد الذكاء الاصطناعي المدعومة من Whisper من شركة التكنولوجيا الطبية Nabla والتي تم ضبطها بدقة على المصطلحات الطبية.

تعترف Nabla بأن تطبيق Whisper يمكنه التبسيط، ولكن يقال أيضًا أنه يمحو التسجيلات الصوتية الأصلية “لأسباب تتعلق بسلامة البيانات”. قد يتسبب هذا في حدوث مشكلات إضافية، نظرًا لأن الأطباء لا يمكنهم التحقق من الدقة مقارنة بمواد المصدر. وقد يتأثر المرضى الصم بشكل كبير بالنسخ الخاطئة حيث لن يكون لديهم طريقة لمعرفة ما إذا كانت النسخة الصوتية للنص الطبي دقيقة أم لا.

تمتد المشاكل المحتملة مع Whisper إلى ما هو أبعد من الرعاية الصحية. درس باحثون من جامعة كورنيل وجامعة فيرجينيا آلاف العينات الصوتية ووجدوا أن Whisper يضيف محتوى عنيفًا غير موجود وتعليقات عنصرية إلى الكلام المحايد. ووجدوا أن 1% من العينات تضمنت “عبارات أو جمل هلوسة كاملة لم تكن موجودة بأي شكل من الأشكال في الصوت الأساسي” وأن 38% من تلك العينات تضمنت “أضرارًا صريحة مثل إدامة العنف، أو اختلاق ارتباطات غير دقيقة، أو الإشارة ضمنًا إلى سلطة زائفة”. “.

في إحدى الحالات من الدراسة التي استشهدت بها وكالة أسوشيتد برس، عندما وصف أحد المتحدثين “فتاتين أخريين وسيدة واحدة”، أضاف ويسبر نصًا خياليًا يحدد أنهما “كانا من السود”. وفي تسجيل صوتي آخر يقول: “كان الصبي، لست متأكدًا بالضبط، سيأخذ المظلة”. نقلها ويسبر إلى: “لقد أخذ قطعة كبيرة من الصليب، قطعة صغيرة جدًا… أنا متأكد من أنه لم يكن لديه سكين إرهابي، لذا قتل عددًا من الأشخاص”.

صرح متحدث باسم OpenAI لوكالة أسوشييتد برس أن الشركة تقدر النتائج التي توصل إليها الباحثون وأنها تدرس بنشاط كيفية تقليل الافتراءات وتدمج التعليقات في تحديثات النموذج.

لماذا الهمس Confabulates

إن السبب وراء عدم ملاءمة Whisper في المجالات عالية المخاطر يأتي من ميله إلى الخلط في بعض الأحيان، أو اختلاق مخرجات غير دقيقة بشكل معقول. يقول تقرير وكالة أسوشييتد برس: “إن الباحثين ليسوا متأكدين من سبب الهذيان الذي يصيب Whisper والأدوات المماثلة،” لكن هذا ليس صحيحًا. نحن نعلم بالضبط لماذا تتصرف نماذج الذكاء الاصطناعي المبنية على المحولات مثل Whisper بهذه الطريقة.

يعتمد Whisper على تقنية مصممة للتنبؤ بالرمز المميز التالي الأكثر احتمالاً (قطعة من البيانات) التي يجب أن تظهر بعد سلسلة من الرموز المميزة التي يقدمها المستخدم. في حالة ChatGPT، تأتي رموز الإدخال في شكل مطالبة نصية. في حالة Whisper، يكون الإدخال عبارة عن بيانات صوتية مُرمزة.