‫رویداد ملی چالش کلان داده- گزارش اول

دسته بندی: اخبار

“سلام. ما قصد داریم برای فعال سازی کارگروه کلان داده که با همکاری مشترک مرکز تحقیقات مخابرات و بعضی دیگر از گروه های فعال در حال انجام است، یک سری رقابت های علوم داده را در سطح ملی برنامه ریزی کنیم .با توجه به اینکه ایران سرور از حامیان مهم جامعه است می خواهم یک پیشنهاد ویژه را با شما مطرح کنم...”

و این آغاز مسیری بود که به برگزاری اولین رویداد ملی چالش داده منجر شد.

 

چرا مسابقه؟ چرا ایران سرور؟

ما در ایران سرور در پانزده سال فعالیت خود به عنوان یک شرکت ارائه دهنده خدمات میزبانی وب، حجم زیادی از داده های مربوط به مشتریان و سرویس ها را جمع آوری نموده ایم. مدیریت، کنترل و پردازش این داده ها و استفاده از آن در جهت بهبود ساختارها و سودآوری بیشتری یکی از دغدغه های اساسی ما است. برای این منظور جلساتی با متخصصین داده کاوی برگزار کرده بودیم و در حال بررسی داده ها و راهکارهای تحلیل آن ها بودیم. در نتیجه ایده ی برگزاری این مسابقه نظر ما را جلب کرد؛ در نهایت به این نتیجه رسیدیم که تحلیل مناسب این داده ها می تواند به حل چالش های ما کمک کند و بدین ترتیب شروع به بررسی داده ها و طراحی مسئله کردیم.

 

استفاده از نتایج این مسابقه برای بهبود فعالیت ها و در راستای ماموریت سازمانی ایران سرور، یکی از اهداف ما از حمایت این مسابقه است. هدف دیگر ما کمک به توسعه ی فرهنگ همکاری بین بدنه ی صنعتی و آکادمیک کشور در راستای مسئولیت اجتماعی ما به عنوان یک شرکت فعال در حوزه فناوری اطلاعات است. به این ترتیب شرکتهای صنعتی می توانند با انتشار داده های واقعی خود ( با حفظ مسائل امنیتی) از دانش روز متخصصین مختلف کشور سود ببرند، با صرف هزینه ی کمتر راهکارهای خلاقانه مختلف را برای حل مشکلات خود امتحان کنند و ارتباطات ارزشمندی ایجاد کنند. بدنه ی دانشگاهی و علمی نیز می توانند با مسائلی در ابعاد واقعی دست و پنجه نرم کنند، دانش و مهارت خود را جدی تر از قبل به چالش بکشند و توانمندی های خود را به نمایش گذارند.

 

چالش داده ها

واقعیت این است که طرح سوال این مسابقه برای ما هم یک چالش جدید بود. به دنبال طرح مسئله ای بودیم که بتوان پارامترهای موثر بر آن را شناسایی نموده، داده های مرتبط را استخراج و با تحلیل داده ها به جواب مسئله برسیم. با وجود اینکه تصور می کردیم در این سال ها گزارشات و داده های مختلف را ذخیره نموده ایم، باز هم یافتن اطلاعات موثر در مسئله و جمع آوری آن ها کار ساده ای نبود. می توان گفت صرف در اختیار داشتن داده ها راهگشا نیست؛ اینکه بدانیم چه مسئله ای را می توان با چه اطلاعاتی پاسخ داد، نیاز به تحلیل زیادی دارد و در نهایت باید هنگام طراحی مسئله محدودیت داده ها را در نظر داشته باشیم.

برای مجموعه های بزرگی که روزانه حجم زیادی اطلاعات تولید می کنند انتخاب، نگهداری و تحلیل این داده ها اولویت بالایی دارد. چه داده هایی باید در این سال ها ذخیره می شد تا ما امروز محدودیت کمتری در طرح  چالش داشته باشیم؟ این سوالی است که سال ها پیش در طراحی سیستم نه پاسخ آن را می دانستیم و نه با آن مواجه شده بودیم. پس شاید نیاز باشد ساختار سیستم های خود را یک بار دیگر با مشاوره متخصصین داده مورد بازبینی قرار دهیم تا بتوانیم با تکمیل آن ها این منابع ارزشمند، یعنی داده ها را ذخیره نماییم.

ما توانستیم با اطلاعات موجود به طرح این چالش برسیم، اما مجموعه های بسیاری در ایران فعالیت می کنند که داده های تولیدی بیشتری دارند و باید به ارزش این داده ها بیشتر توجه کنند.

 

طراحی مسئله

تحلیل دقیق رفتار و نیازهای مشتری یکی از موضوعاتی است که همیشه ذهن ما را به خود مشغول کرده بود.  هدف ما این است که بتوانیم پیش از مشتری نیازهای وی را شناسایی و امکانات لازم را برایش فراهم کنیم، مشکلات را به حداقل برسانیم و با ارائه راهکار و پیشنهادات کارآمد رضایت مشتری را فراهم کنیم. لذا تصمیم گرفتیم مسئله را به این صورت طرح کنیم:”پیش بینی رضایت مشتری و تمدید سرویس”، بر اساس اطلاعاتی که از وی در دسترس داریم. به این ترتیب می توانستیم در صورتی که احتمال لغو سرویس از سمت مشتری وجود دارد، با وی ارتباط برقرار کرده و تا حد امکان مشکل را برطرف نماییم.

 

از بین سرویسهای مختلفی که در ایران سرور ارائه می شود، سرویسهای کلود اختصاصی و عمومی طبق درخواست مشتری به صورت ماهیانه، سه ماهه، شش ماهه و سالانه تمدید می شوند. لذا در صورت بروز مشکل و نارضایتی مشتری زودتر می تواند سرویس را لغو کند. لذا تمرکز خود را بر روی احتمال لغو یا تمدید این سرویسها می گذاریم.

از طرفی برای هر مشتری و سرویس اطلاعات مربوط به فاکتورهای پرداختی و تیکتهای ارسال شده را در پایگاه های داده ذخیره نموده ایم. تیکت راه ارتباطی مشتریان با ایران سرور است که مشکلات و سوالهای خود در مورد هر سرویس را از طریق آن ارسال می نمایند و کارشناسان پشتیبانی ایران سرور در اسرع وقت به آن ها پاسخ می دهند.

پس به این نتیجه رسیدیم که احتمالا بر مبنای گزارشات مالی کاربر ( وضعیت پرداخت فاکتورها) و گزارشات فنی ( تیکت های ایجاد شده برای طرح موضوعات فنی) می توان رفتار مشتری را بررسی نموده و لغو یا تمدید سرویس وی را در سررسیدهای بعدی پیش بینی نمود.

مسئله بعدی انتخاب اطلاعات مسئله از میان تمام داده هایی بود که تاکنون جمع آوری کرده بودیم. با توجه به تغییراتی که این چند سال در سیستم ایجاد شده بود، به دست آوردن داده های یکپارچه هم یکی از چالش ها بود.

مجموعه دادگان اولیه مسابقه شامل دو جدول مربوط به فاکتورها و تیکت ها بود. این اطلاعات برای یک ماه از سیستم استخراج شد و در جامعه آزاد کلان داده ها که مسئول برگزاری مسابقه است به بحث و بررسی گزارده شد. در نهایت پس از پنج مرتبه بازبینی از 17 فیچری که در دو جدول اولیه گنجانده شده بود، به 24 فیچر در قالب سه جدول رسیدیم. استخراج و آماده سازی این مجموعه داده فقط در ایران سرور بیش از 170 نفر-ساعت زمان برد.

در نهایت سه مجموعه داده استخراج شد، داده های مربوط به سرویسها، داده های مربوط به تیکت ها و داده های مروبط به فاکتورها. جزئیات این داده ها و توضیحات مسئله که در اختیار شرکت‌کنندگان قرارگرفته، در گزارشات بعدی در بلاگ ایرانسرور منتشر می شود.

 

لینک ثبت نام رویداد:

https://evand.com/events/obd1

 

 

امتیاز شما

مایلید هر دو هفته یک ایمیل مفید دریافت کنید؟

ما را در شبکه‌های اجتماعی دنبال کنید

همچنین شاید دوست داشته باشید!

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
شما برای ادامه باید با شرایط موافقت کنید

فهرست