وضعیت سرورها

وبــلاگ

وضعیت سرورها
  • اختلال در دو دیتاسنتر OVH

    محمد مظفری شنبه ۲۷ آبان ۱۳۹۶ اخبار , گزارش

    تا پیش از این رخداد انفجار دیتاسنتر ThePlanet در سال ۲۰۰۸ پردردسر ترین اتفاقی بود که بخش فنی ما با آن روبرو شده بود، خرابی سیستم اتفاع حریق WestHost که باعث خروج بی دلیل گاز و خرابی هارددیسک‌ها شده بود نیز در جایگاه بعدی قرار داشت.  اختلال‌های گاه و بیگاه در دیتاسنترهای ایران برای ما به امری عادی تبدیل شده است ولی اینبار با اختلال گسترده در خدمات دریافتی از OVH روبرو بودیم.

     

     

    عموما ما تغییراتی که در جهت بهبود خدمات برروی شبکه و زیرساخت ایران سرور اعمال می‌شود را در روزهای تعطیل یا نیمه شب زمانبندی می کنیم  تا کمترین تاثیر برروی سرویس‌های دریافتی مشتریان بوجود آید، برهمین اساس برای روز ۵شنبه ۱۸آبان۹۶ نیز زمانبندی تغییرات در شبکه داشتیم و تیم فنی در حال کار برروی شبکه‌ی ما در یکی از دیتاسنترهای داخل ایران بودند، ساعتی از شروع کار نگذشته بود(در حدود ساعت ۱۰:۰۰) که تقریبا تمام مانیتورینگ ما به رنگ قرمز درآمد. در تمام فرآیندهای مرتبط با “رخداد” اولین کار بخش فنی ما اطلاع رسانی از طریق status.iranserver.com  است، اینبار این امکان وجود نداشت چون تیم فنی متوجه شد که status نیز بخشی از همین اختلال است. پس از گذشت کمتر از ۱۰دقیقه تعداد سرویس‌های دارای اختلال به بیش از دوبرابر افزایش یافت و سایت اصلی ما نیز در این اختلال با مشکل مواجه شد، خوشبختانه تیم فنی دسترسی کامل به پورتال مشتریان داشتند و از طریق تیکت و تلفن امکان اطلاع رسانی به مشتریان وجود داشت. تماس‌ بدون وقفه به سمت ما می‌آمد، تمام تیم فنی ما با خوش رویی و حوصله موضوع را به مشتریان توضیح می‌دادند، در این مواقع توقع مشتریان داشتن یک ETA یا زمان تقریبی از اتمام اختلال است چیزی که واقعا برای ما نیز نامشخص بود، براساس تجربیات قبلی حدود ۲ساعت زمان را در اولین گام به مشتریان اعلام نمودیم، براساس فرآیندهای وضعیت اضطراری تمام تیم فنی به شرکت فراخوانده شدند تا بتوانیم بهترین پاسخگویی را در زمان اختلال به مشتریان داشته باشیم.

    این بار با ابعاد جدیدی از اختلال مواجه شدیم در دفعات قبل مشکلات ما محدود به کمتر از ۱۰۰سرور بود، این رخداد باعث تحمیل بار زیادی از نظر تماس و تیکت به بخش فنی ما داشت، گستردگی مشتریانی که از سرویسهای این دیتاسنتر استفاده میکنند باعث شده بود که اختلال تاثیر زیادی در تمام اینترنت داشته باشد.

    اکنون ما با بیش از ۵۹۰ اعلام اختلال همزمان مواجه هستیم که در دیتاسنتر OVH قرار دارند، هیچکدام از وب سایتهای اصلی دیتاسنتر نیز در دسترس نیست و هیچ اطلاعاتی نمیتوان از این طریق بدست آورد، در حدود ۱۵دقیقه پس از شروع اختلال از طریق تنها راه ارتباطی فعال که اکانت توییتر مدیرعامل OVH بود از جزییات حادثه آگاه شدیم، دو رخداد نادر که با بدشانسی تمام بصورت همزمان رخداده اند.

    قطع برق در ۳دیتاسنتر در شهر Strasbourg و همزمانی آن با قطع سیستم مسیریابی در فیبرنوری که ارتباط ۷دیتاسنتر دیگر را مهیا می‌نمود در شهر Roubaix باعث بروز یک اختلال گسترده در اینترنت شده بود(نزدیک به ۱۵۰هزار سرور تحت تاثیر این مشکل قرار گرفتند).

    طی ۳۰دقیقه ابتدایی تقریبا مشخص شد که ما با دو مشکل متفاوت در ۱۰دیتاسنتر روبرو هستیم و جزییات این مشکلات نیز تقریبا مشخص شده بود. موضوع از جایی شروع شد که دو مسیر تامین برق ERDF(شرکت تامین نیروی برق فرانسه) هر کدام به حجم ۱۰هزارولت نیروی دیتاسنتر OVH را تامین می‌کردند قطع شد و دو ژنراتور از ۴ژنراتور برق دیتاسنتر که برای مواقع اضطراری پیش بینی شده است نیز با مشکل مواجه گشت. این موضوع باعث شد که برق سه دیتاسنتر به صورت کامل قطع شود.

    در Roubaix  نیز یک اشکال نرم افزاری باعث شده بود که تمام لینک‌های ۱۰۰گیگابیت فیبر نوری که ارتباط بین دیتاسنتر و شهرهای پاریس، لندن، فرانکفورت، بروکسل و آمستردام را از طریق ۴۴لینک فیبر ۱۰۰گیگابیت مجموعا با گنجایش ۴.۴ترابیت در ثانیه برقرار می‌کند، قطع گردد. در واقع عملا ارتباط بیش از ۷دیتاسنتر با خارج ایزوله شده بود و سه دیتاسنتر دیگر بدون برق بودند.

     

     

    در ۹۰دقیقه‌ی ابتدایی مشکل تیم پشتیبانی ایران سرور با حدود ۵۰۰٪ تماس بیش از روال معمول روبرو شده بود ولی با حضور تمام تیم فنی در روز تعطیل، برای پاسخگویی متوسط زمان انتظار برای اتصال تلفن به پرسنل کمتر از ۱۵ثانیه بود، تعداد تیکت نیز  ۳۰۰٪ افزایش نسبت به حالت معمول را نشان میداد و متوسط پاسخگویی ۱۰دقیقه برای هر تیکت بود.

    از حدود ساعت ۱۲:۱۵ و با کم شدن تعداد تماس‌ها فرآیند بازگشت از بحران مجدد مرور شد و کارهایی که هرکدام از پرسنل فنی باید پس از برقراری مجدد سرویس انجام دهند بررسی مجدد شد تا آمادگی لازم برای انجام سریعترین عکس العمل را در زمان رفع اختلال داشته باشیم.

    باید تمام سرورها پس از اتمام اختلال  تک به تک بررسی شوند از نظر اجرا شدن تمام سرویس‌ها، وضعیت هارددیسک، RAID و …، در حدود ساعت ۱۲:۴۵ تقریبا نیمی از سرورها که بدلیل اشکال در ارتباطات فیبرنوری از دسترس خارج شده بودند به سرویس بازگشت، یکی از ژنراتورهای Strasbourg نیز در مدار قرارگرفت تا سیستم مسیر یابی دیتاسنتر در این شهر دوباره به مدار بازگردد و امکان جابجایی سرویسهایی که دارای پلن جایگزین براساس FailOverIP در ایران سرور بودند، میسر شود، همچنین یکی از سه دیتاسنتر دیگر نیز با فاصله زمانی اندک به مدار بازگشت.

    تیم فنی فرآیندهای بازگشت سرویس پس از اختلال را آغاز کرده بودند ولی ما همچنان با قطعی کامل در دو دیتاسنتر مواجه بودیم و بیش از ۲۰۰سرور که همچنان خارج از سرویس قرار داشتند. حدود ساعت ۱۳:۴۰ دقیقه تمام مشکلات مسیریابی بصورت کامل رفع شد و سرورهای نیز در مدار قرار گرفت، تیم فنی با استفاده از فرآیندهای تمرین شده با سرعت مناسبی تمام سرورهایی که به مدار بازگشته اند را بررسی می‌نمود و مشخص شد که نزدیک به ۶۰ سرور ما بصورت کامل خارج از دسترس هستند. این دسته از سرورها پس از وصل مجدد برق با مشکل در سخت افزار یا نرم افزار مواجه شده اند و نیاز به بررسی فیزیکی‌ آنها می‌باشد. با توجه به اینکه ایران سرور بزرگترین پارتنر OVH در خاورمیانه است موضوع را از طریق پشتیبان اختصاصی خود پیگیری نمودیم تا در سریعترین زمان سرورهای ما از نظر فیزیکی بررسی شوند، در حدود ساعت ۱۴:۴۰ فقط ۶سرور ما دارای مشکل بود و این سرورها نیز تا ساعت ۱۰صبح روز جمعه بصورت کامل به مدار بازگشت، در این روند هیچ اطلاعاتی از دست نرفت و مشتریانی که دارای سرویسهای DisassterRecovery در ایران سرور بودند با اینکه سرورهایشان در دیتاسنتر قطع شده بود ولی بدون اینکه حتی ۵دقیقه اختلال را تجربه کنند سرویس Backupآنها بصورت خودکار در مدار قرار گرفت.

    خاضعانه از این رخداد و مشکلاتی که برای مشتریانمان پیش آمد پوزش می‌طلبیم و مانند همیشه به تمام مشتریان پیشنهاد میکنیم که:

    • از اطلاعات خود کپی و بکاپ بصورت مداوم در خارج از سرور تهیه نمایید.
    • اگر وب سایت شما منبع درآمد شماست و تجارت شما به فعال بودن سرورهایتان وابسته است حتما با بخش فروش تماس بگیرید تا برای شما پلن‌های DR برای مواقع بحرانی آماده شود.

    بدیهی است که این اختلال بیش از میزان تعیین شده در SLA یا قرارداد کیفیت خدمات ما بوده است و بابت آن برای تمام مشتریان تعیین و جبران خسارت خواهد شد. میزان جبران خسارت هر سرویس بصورت جداگانه از طریق تیکت اطلاع رسانی خواهد شد.

     

    0

    برچسب ها :

با عضویت در خبرنامه شما را از آخرین تجربیات مان و مطالب تخصصی آگاه خواهیم کرد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *