أمازون تكشف عن أكبر نموذج لتحويل النص إلى كلام منطوق على الإطلاق

أعلن فريق من الباحثين في مجال الذكاء الاصطناعي في شركة أمازون عن تطوير ما وصفوه بأنه أكبر نموذج لتحويل النص إلى كلام منطوق على الإطلاق، ويعني ذلك وجود أكبر عدد من المعلمات واستخدام أكبر مجموعة بيانات تدريبية، حيث نشروا ورقة بحثية على خادم الطباعة المسبقة arXiv تصف كيفية تطوير النموذج وتدريبه.

وفقا لما ذكره موقع “techxplore”، اكتسبت نماذج الدردشة بالذكاء الاصطناعى LLMs مثل ChatGPT الاهتمام لقدرتها الشبيهة بالإنسان على الإجابة على الأسئلة بذكاء وإنشاء مستندات عالية المستوى، لكن الذكاء الاصطناعي لا يزال يشق طريقه إلى التطبيقات السائدة الأخرى أيضًا، وفي هذا الجهد الجديد، حاول الباحثون تحسين قدرة تطبيق تحويل النص إلى كلام من خلال زيادة عدد المعلمات والإضافة إلى قاعدة التدريب الخاصة به.

يحتوي النموذج الجديد، المسمى Big Adaptive Streamable TTS ذو القدرات الناشئة، (BASE TTS باختصار) على 980 مليون معلمة وتم تدريبه باستخدام 100000 ساعة من الكلام المسجل (الموجود على المواقع العامة)، معظمها باللغة الإنجليزية.

كما قدم الفريق أيضًا أمثلة لكلمات وعبارات منطوقة بلغات أخرى للسماح للنموذج بنطق العبارات المعروفة بشكل صحيح عندما يواجهها على سبيل المثال، “au Contraire”، أو “adios,amigo”.

اختبر فريق أمازون أيضًا النموذج على مجموعات بيانات أصغر، على أمل معرفة أين يطور ما أصبح معروفًا في مجال الذكاء الاصطناعي بالجودة الناشئة، حيث يتم تطبيق الذكاء الاصطناعي، سواء كان تطبيق LLM أو تطبيق تحويل النص إلى كلام، يبدو فجأة أنه وصل إلى مستوى أعلى من الذكاء.

ووجدوا أنه بالنسبة لتطبيقهم، كانت مجموعة البيانات متوسطة الحجم هي المكان الذي حدثت فيه القفزة إلى مستوى أعلى، عند 150 مليون معلمة.

وأشاروا أيضًا إلى أن هذه القفزة تضمنت مجموعة من السمات اللغوية، مثل القدرة على استخدام الأسماء المركبة، والتعبير عن المشاعر، واستخدام الكلمات الأجنبية، وتطبيق شبه اللغوي وعلامات الترقيم وطرح الأسئلة مع التركيز على الكلمة الصحيحة في النص.

يقول الفريق أن BASE TTS لن يتم إصداره للعامة، فهم يخشون أن يتم استخدامه بشكل غير أخلاقي، وبدلاً من ذلك، يخططون لاستخدامه كتطبيق تعليمي.

ويتوقعون تطبيق ما تعلموه حتى الآن لتحسين جودة الصوت البشري لتطبيقات تحويل النص إلى كلام بشكل عام.