الذيل الطويل لانقطاع AWS


منطقة الأمازون المترامية الأطراف أوضح الانقطاع السحابي لخدمات الويب الذي بدأ في وقت مبكر من صباح يوم الاثنين الترابط الهش للإنترنت حيث عانت المنصات الرئيسية للاتصالات والمالية والرعاية الصحية والتعليم والمنصات الحكومية في جميع أنحاء العالم من الاضطرابات. مع مرور اليوم، قامت AWS بتشخيص المشكلة وبدأت العمل على تصحيحها، والتي نشأت من منطقة US-EAST-1 المهمة للشركة ومقرها شمال فيرجينيا. لكن سلسلة التأثيرات استغرقت وقتًا حتى يتم حلها بالكامل.

سلط الباحثون الذين يفكرون في الحادث الضوء بشكل خاص على طول فترة الانقطاع، والتي بدأت حوالي الساعة 3 صباحًا بالتوقيت الشرقي يوم الاثنين 20 أكتوبر. وقالت AWS في تحديثات الحالة أنه بحلول الساعة 6:01 مساءً بالتوقيت الشرقي يوم الاثنين “عادت جميع خدمات AWS إلى عملياتها الطبيعية”. نشأ الانقطاع بشكل مباشر عن واجهات برمجة تطبيقات قاعدة بيانات DynamoDB الخاصة بأمازون، ووفقًا للشركة، فقد “أثر” على 141 خدمة أخرى من خدمات AWS. أكد العديد من مهندسي الشبكات والمتخصصين في البنية التحتية لمجلة WIRED أن الأخطاء مفهومة ولا مفر منها بالنسبة لما يسمى بـ “المتخصصين في مجال التوسع الفائق” مثل AWS وMicrosoft Azure وGoogle Cloud Platform، نظرًا لتعقيدها وحجمها الهائل. لكنهم أشاروا أيضًا إلى أن هذا الواقع لا ينبغي أن يعفي مقدمي الخدمات السحابية ببساطة من توقفهم عن العمل لفترة طويلة.

“الكلمة بعد فوات الأوان هو المفتاح. يقول إيرا وينكلر، كبير مسؤولي أمن المعلومات في شركة الموثوقية والأمن السيبراني CYE: “من السهل معرفة الخطأ الذي حدث بعد وقوع الحادث، لكن الموثوقية الإجمالية لـ AWS تظهر مدى صعوبة منع كل فشل. من الناحية المثالية، سيكون هذا درسًا مستفادًا، وستقوم أمازون بتنفيذ المزيد من عمليات التكرار التي من شأنها أن تمنع حدوث كارثة كهذه في المستقبل – أو على الأقل تمنعها من البقاء في حالة تعطل طوال فترة حدوثها”.

لم تستجب AWS لأسئلة WIRED حول المدة الطويلة لاسترداد العملاء. يقول متحدث باسم AWS إن الشركة تخطط لنشر أحد “ملخصات ما بعد الحدث” حول الحادث.

يقول جيك ويليامز، نائب رئيس البحث والتطوير في شركة Hunter Strategy: “لا أعتقد أن هذا كان مجرد انقطاع في الخدمة. كنت أتوقع إصلاحًا كاملاً بشكل أسرع بكثير”. “إن منحهم حقهم، فإن حالات الفشل المتتالية ليست شيئًا يحصلون على الكثير من الخبرة في العمل معه لأنهم لا يعانون من انقطاع التيار الكهربائي في كثير من الأحيان. لذلك هذا يرجع إلى رصيدهم. ولكن من السهل حقًا الدخول في عقلية منح هذه الشركات تصريحًا، ويجب ألا ننسى أنهم يخلقون هذا الموقف من خلال محاولتهم بنشاط جذب المزيد من العملاء إلى البنية التحتية الخاصة بهم. لا يتحكم العملاء فيما إذا كانوا يبالغون في توسيع أنفسهم أو ما قد يحدث ماليًا.”

كان سبب الحادث سببًا مألوفًا في انقطاعات الويب – مشكلات حل “نظام اسم المجال”. DNS هو في الأساس آلية دليل الهاتف على الإنترنت لتوجيه متصفحات الويب إلى الخوادم الصحيحة. ونتيجة لذلك، تعد مشكلات DNS مصدرًا شائعًا لانقطاع الخدمة، لأنها يمكن أن تتسبب في فشل الطلبات ومنع تحميل المحتوى.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *