يحتاج نموذج الذكاء الاصطناعي لاستنساخ الصوت الخاص بـ OpenAI إلى عينة مدتها 15 ثانية فقط حتى يعمل


تقدم OpenAI وصولاً محدودًا إلى منصة تحويل النص إلى صوت التي طورتها والتي تسمى Voice Engine، والتي يمكنها إنشاء صوت اصطناعي يعتمد على مقطع مدته 15 ثانية من صوت شخص ما. يمكن للصوت الناتج عن الذكاء الاصطناعي قراءة المطالبات النصية عند الطلب بنفس لغة المتحدث أو بعدد من اللغات الأخرى. قالت OpenAI في منشور مدونتها: “تساعد عمليات النشر الصغيرة هذه في إثراء نهجنا والضمانات والتفكير في كيفية استخدام Voice Engine لتحقيق الخير عبر مختلف الصناعات”.

تشمل الشركات التي تتمتع بإمكانية الوصول شركة تكنولوجيا التعليم Age of Learning، ومنصة سرد القصص المرئية HeyGen، وصانع البرامج الصحية في الخطوط الأمامية Dimagi، ومنشئ تطبيقات اتصالات الذكاء الاصطناعي Livox، والنظام الصحي Lifespan.

في هذه العينات التي نشرتها OpenAI، يمكنك سماع ما كان يفعله Age of Learning باستخدام التكنولوجيا لإنشاء محتوى صوتي مكتوب مسبقًا، بالإضافة إلى قراءة “الردود الشخصية في الوقت الفعلي” للطلاب المكتوبة بواسطة GPT-4 .

أولاً: الصوت المرجعي باللغة الإنجليزية:

وهنا ثلاثة مقاطع صوتية تم إنشاؤها بواسطة الذكاء الاصطناعي بناءً على تلك العينة،

قالت OpenAI إنها بدأت في تطوير Voice Engine في أواخر عام 2022 وأن التكنولوجيا قامت بالفعل بتشغيل الأصوات المعدة مسبقًا لواجهة برمجة تطبيقات تحويل النص إلى كلام وميزة القراءة بصوت عالٍ في ChatGPT. في مقابلة مع تك كرانشوقال جيف هاريس، عضو فريق منتج OpenAI لـ Voice Engine، إن النموذج تم تدريبه على “مزيج من البيانات المرخصة والمتاحة للجمهور”. أخبرت OpenAI المنشور أن النموذج سيكون متاحًا لحوالي 10 مطورين فقط.

يعد إنشاء تحويل النص إلى الصوت باستخدام الذكاء الاصطناعي أحد مجالات الذكاء الاصطناعي التوليدي الذي يستمر في التطور. في حين أن معظمها يركز على أصوات الآلات أو الأصوات الطبيعية، فقد ركز عدد أقل على توليد الصوت، ويرجع ذلك جزئيًا إلى الأسئلة التي استشهد بها OpenAI. تشمل بعض الأسماء في هذا المجال شركات مثل Podcastle وElevenLabs، التي توفر تكنولوجيا وأدوات استنساخ الصوت بالذكاء الاصطناعي فيرجكاست استكشاف العام الماضي.

وفقًا لـ OpenAI، وافق شركاؤها على الالتزام بسياسات الاستخدام الخاصة بها والتي تنص على أنهم لن يستخدموا Voice Generation لانتحال شخصيات أشخاص أو مؤسسات دون موافقتهم. كما يتطلب أيضًا من الشركاء الحصول على “موافقة صريحة ومستنيرة” من المتحدث الأصلي، وليس بناء طرق للمستخدمين الفرديين لإنشاء أصواتهم الخاصة، والكشف للمستمعين أن الأصوات تم إنشاؤها بواسطة الذكاء الاصطناعي. أضاف OpenAI أيضًا علامة مائية إلى المقاطع الصوتية لتتبع أصلها ومراقبة كيفية استخدام الصوت بشكل فعال.

اقترحت OpenAI العديد من الخطوات التي تعتقد أنها يمكن أن تحد من المخاطر المتعلقة بأدوات مثل هذه، بما في ذلك التخلص التدريجي من المصادقة المستندة إلى الصوت للوصول إلى الحسابات المصرفية، وسياسات حماية استخدام أصوات الأشخاص في الذكاء الاصطناعي، وزيادة التعليم حول التزييف العميق للذكاء الاصطناعي، وتطوير أنظمة التتبع. لمحتوى الذكاء الاصطناعي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *