بإمكان OpenAI إعادة إنشاء الأصوات البشرية، لكنها لن تطلق التكنولوجيا بعد


لقد قطع تركيب الصوت شوطًا طويلًا منذ لعبة التحدث والتهجئة عام 1978، والتي أبهرت الناس ذات يوم بقدرتها المتطورة على قراءة الكلمات بصوت عالٍ باستخدام الصوت الإلكتروني. والآن، باستخدام نماذج الذكاء الاصطناعي للتعلم العميق، لا تستطيع البرامج إنشاء أصوات واقعية فحسب، بل يمكنها أيضًا تقليد الأصوات الموجودة بشكل مقنع باستخدام عينات صغيرة من الصوت.

وعلى هذا المنوال، أعلنت شركة OpenAI هذا الأسبوع عن Voice Engine، وهو نموذج ذكاء اصطناعي لتحويل النص إلى كلام لإنشاء أصوات اصطناعية تعتمد على مقطع صوتي مسجل مدته 15 ثانية. لقد قدمت عينات صوتية من Voice Engine أثناء العمل على موقعها على الإنترنت.

بمجرد استنساخ الصوت، يمكن للمستخدم إدخال النص في محرك الصوت والحصول على نتيجة صوتية تم إنشاؤها بواسطة الذكاء الاصطناعي. لكن شركة OpenAI ليست مستعدة لنشر تقنيتها على نطاق واسع. خططت الشركة في البداية لإطلاق برنامج تجريبي للمطورين للتسجيل في Voice Engine API في وقت سابق من هذا الشهر. ولكن بعد المزيد من التفكير في الآثار الأخلاقية، قررت الشركة تقليص طموحاتها في الوقت الحالي.

وكتبت الشركة: “تماشيًا مع نهجنا تجاه سلامة الذكاء الاصطناعي والتزاماتنا الطوعية، فإننا نختار معاينة هذه التكنولوجيا ولكن لا نصدرها على نطاق واسع في الوقت الحالي”. “نأمل أن تؤكد هذه المعاينة لـ Voice Engine على إمكاناته وتحفز أيضًا الحاجة إلى تعزيز المرونة المجتمعية في مواجهة التحديات التي تفرضها النماذج التوليدية الأكثر إقناعًا من أي وقت مضى.”

تقنية استنساخ الصوت بشكل عام ليست جديدة بشكل خاص، فهناك العديد من نماذج التوليف الصوتي المدعومة بالذكاء الاصطناعي منذ عام 2022، وهذه التقنية نشطة في مجتمع مفتوح المصدر مع حزم مثل OpenVoice وXTTSv2. لكن فكرة أن شركة OpenAI تتجه نحو السماح لأي شخص باستخدام علامتها التجارية الخاصة من التكنولوجيا الصوتية هي فكرة جديرة بالملاحظة. وفي بعض النواحي، قد يكون تحفظ الشركة عن إطلاقه بالكامل هو القصة الأكبر.

تقول OpenAI أن فوائد تقنية الصوت الخاصة بها تشمل توفير المساعدة في القراءة من خلال الأصوات الطبيعية، وتمكين الوصول العالمي للمبدعين من خلال ترجمة المحتوى مع الحفاظ على اللهجات الأصلية، ودعم الأفراد غير اللفظيين بخيارات الكلام المخصصة، ومساعدة المرضى في استعادة أصواتهم بعد ذلك. حالات ضعف النطق.

ولكنه يعني أيضًا أن أي شخص لديه 15 ثانية من الصوت المسجل لشخص ما يمكنه استنساخه بشكل فعال، وهذا له آثار واضحة على سوء الاستخدام المحتمل. حتى لو لم تقم OpenAI مطلقًا بإصدار محركها الصوتي على نطاق واسع، فإن القدرة على استنساخ الأصوات قد تسببت بالفعل في مشاكل في المجتمع من خلال عمليات الاحتيال الهاتفي حيث يقلد شخص ما صوت أحد أفراد أسرته والمكالمات الآلية للحملة الانتخابية التي تضم أصواتًا مستنسخة من سياسيين مثل جو بايدن.

كما أثبت الباحثون والمراسلون أن تكنولوجيا الاستنساخ الصوتي يمكن استخدامها لاقتحام الحسابات المصرفية التي تستخدم المصادقة الصوتية (مثل الهوية الصوتية لتشيس)، وهو ما دفع السيناتور الأمريكي شيرود براون من ولاية أوهايو، رئيس لجنة مجلس الشيوخ الأمريكي للشؤون المصرفية والإسكان والشؤون الحضرية، لإرسال خطاب إلى الرؤساء التنفيذيين للعديد من البنوك الكبرى في مايو 2023 للاستفسار عن الإجراءات الأمنية التي تتخذها البنوك لمواجهة المخاطر التي يدعمها الذكاء الاصطناعي.

تدرك OpenAI أن التقنية قد تسبب مشاكل إذا تم إصدارها على نطاق واسع، لذا فهي تحاول في البداية التغلب على هذه المشكلات بمجموعة من القواعد. لقد تم اختبار التكنولوجيا مع مجموعة من الشركات الشريكة المختارة منذ العام الماضي. على سبيل المثال، تستخدم شركة تركيب الفيديو HeyGen هذا النموذج لترجمة صوت المتحدث إلى لغات أخرى مع الحفاظ على نفس الصوت الصوتي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *