نگهبانان نامرئی زیرساخت پرداخت الکترونیک سداد


مدیریت یکی از حساس‌ترین و در عین حال چالش برانگیزترین واحدهای پرداخت الکترونیک سداد برعهده محمد آریان است؛ ...

مدیریت یکی از حساس‌ترین و در عین حال چالش برانگیزترین واحدهای پرداخت الکترونیک سداد برعهده محمد آریان است؛ کسی که سابقه 18 ساله در حوزه پرداخت،سوئیچ، مغایرت سوئیچ و مانیتورینگ را در کارنامه خود دارد و حالا هشت سالی می‌شود که مدیر مرکز عملیات شبکه این شرکت است.

او نه تنها حافظ استاندارهای سلامت سیستم است بلکه با پیروی از یک برنامه روتین ورزشی در زندگی شخصی‌اش هم به این اصول پایبند است؛ مراقبت‌های شبانه‌روزی او و تیم یازده نفره‌اش، در اتاقی که 14 مانیتور بزرگ با 70 هزار نود را بی‌وقفه باید رصد کنند، نقش بسیار مهمی در مسیر پیشرفت سداد ایفا کرده است؛ نودهایی که اگر فقط یکی از آنها با مشکل مواجه شود می‌تواند تبدیل به فاجعه‌ شود. می‌گوید برای ورود به این حوزه باید شبکه و آی‌تی خواند، هر چند که دانش کسب و کاری هم برای تشخیص و تعریف سرویس‌های جدید به مشتریان مهم است.

برای آشنایی بیشتر با حوزه فعالیت مرکز عملیات شبکه (NOC) در این گفتگو با ما همراه باشید.

 

الزامات واحد NOC

واحد NOC، ابتدای سال 1394 با دو نفر آغاز به کار کرد. از آن سال تاکنون، تقریبا هشت بار ممیزی انجام شده که پرداخت الکترونیک سداد  هفت بار، نمره کامل شاپرک را دریافت کرده‌ است و به جز سال اول در سال‌های بعد توانسته تطبیق صددرصدی را بگیرد. محمد آریان در خصوص شرایط دریافت امتیاز کامل از شاپرک گفت: مطابق با الزامات شاپرک، باید یک‌سری دستورالعمل‌ها را از نظر پایش تجهیزات، سامانه‌ها و سرویس‌های مرتبط با شاپرک، زیرساخت‌ها و ارتباطات شبکه‌ای رعایت کنیم. همچنین لازم است گزارش‌های ماهانه از وضعیت سلامت سیستم سوئیچ پذیرندگی، درگاه و زیرسامانه‌ها به مدیرعامل ارائه شود که البته بخشی از گزارش مربوط به حوزه کسب‌وکار است. مورد دیگر، اجایلیتی است؛ یعنی هرگاه رخدادی ایجاد می‌شود به سریع‌ترین وجه، مشکل را حل کنیم. با توجه به نیاز شرکت، با اضافه کردن یک‌سری ابزار برای دید بهتر توانستیم با کسب دیتای بیشتر، تحلیل بهتری داشته باشیم و درنهایت سرویس پایدارتری به مشتریان بدهیم.

او با اشاره به اینکه پرداخت الکترونیک سداد از یک‌سال و نیم پیش، در کنار ابزارهای قبلی، شروع به استفاده از ابزارهای به‌روز کرده و هفت ابزار حرفه‌ای و برتر جهانی در این حوزه دارد گفت: برای مانیتورینگ نیز مانند سایر کسب‌وکارها، ابزار خاص توسط شرکت‌های به‌نام حوزه فناوری ساخته شده است. مثلا اچ ‌پی یا سیسکو، ابزار مانیتورینگ خاص خود را دارند. یک‌سری محصولات مانند ManageEngine، solarwinds، whatsup gold و prometheus به‌صورت تخصصی ابزار مانیتورینگ تولید می‌کنند. عملا با استانداردهای خاصی که به آنها پروتکل‌های مانیتورینگ می‌گوییم، می‌توان تجهیزات مختلف از سنسور دما و رطوبت تا حوزه تراکنش را پایش، از آنها گزارش‌گیری و برای آنها آستانه، تعریف و از آنها ترند استخراج کرد.

 

فراتر از استانداردهاییم

آریان با بیان اینکه شاپرک ضوابطی مشخص می‌کند که باید مطابق آنها استاندارد مانیتورینگ داشت، افزود: الان حدود هفت ابزار مختلف داریم که هرکدام یک المان را با دو یا سه روش مختلف پایش می‌کنند. به عنوان مثال، وضعیت سلامت یک سرور  با دو یا سه روش از مسیرهای مختلف پایش می‌شود تا اگر احتمالا یکی از ابزارهای مانیتورینگ دچار خطا شد، یکی دو ابزار دیگر، داده درست استخراج کنند. تجمیع دیتا و ارتباط ابزار مانیتورینگ با همدیگر، به ما در تحلیل و عیب‌یابی منبع رخداد کمک می‌کند؛ فرآیندی که شناسایی آن قبلا یک دقیقه زمان می‌برد الان به 30 تا 35 ثانیه کاهش پیدا کرده است. تعدد اینها مثلا در زمینه پایش سرویس‌های مهم  برای 10 تا 15 مورد 30 ثانیه‌ای، ممکن است حدود 10 دقیقه در عملکرد سرویس و سامانه‌ها تاثیر بگذارد.

زیرساخت امن

آریان در بخش دیگری از گفتگو در پاسخ به اینکه اقدام شرکت در مواقعی که سرویس‌دهی به دلیل اختلالات برون‌شبکه دچار مشکل می‌شود چیست، گفت: قطعا برای ارائه بخشی از سرویس‌ها نیازمند دریافت خدمت از شرکت‌های بیرونی یا پروایدرهای خارج از سازمان هستیم؛ مانند سرویس عوارض خروج از کشور ناجی یا فروش پین‌شارژها و بسته‌های اینترنت که مربوط به اپراتورهاست. اگر هرکدام از این اپراتورها یا یکی از سازمان‌های بیرونی که در حال خدمت به ما هستند، مانند استعلام قبوض، عوارض خروج از کشور، خلافی، گواهینامه و... با مشکلی مواجه شوند، مشتری ما تحت‌تاثیر قرار می‌گیرد. در این لحظه، سرویس ما از A تا Z، چه از نظر شبکه و چه از نظر زیرساخت و تجهیزات مشکلی ندارد و به درستی سرویس می‌دهد؛ یعنی سرویس ما بالاست به هر حال ممکن است سازمان خدمت‌رسان به هر دلیلی نتواند در آن لحظه خدمت بدهد یا زیرساخت کشوری مشکل داشته باشد اما با وجود تمام مشکلات زیرساختی کشور، سوئیچ پذیرندگی و درگاه ما به درستی خدمات ارائه می‌دهد.

به گفته وی، درصد عوامل خارجی در بروز اختلالات بسیار بالاست؛ چون اگر قرار باشد تغییراتی اعمال شود، مثلا مجوز تغییرات پیش‌بینی شده گرفته شود، قطعا قبل از آن اطلاع‌رسانی صورت می‌گیرد. همکاران ما تا جای ممکن، فرایند ریسک را درنظر می‌گیرند و تغییر را در بازه‌های زمانی انجام می‌دهند که کمترین تاثیر را برای مشتری داشته باشد، مانند بازه نیمه‌شب که حجم تراکنش، کمتر از همیشه است. بنابراین نمی‌توان برای برخی از این اختلالات، کاری انجام داد.

آریان در پاسخ به اینکه چند درصد از اختلالات سرویس‌دهی به عوامل برون‌سازمانی مربوط می‌شود، گفت: اگر نسبت را لحاظ کنیم، 75 تا 80 درصد اختلالات به عوامل خارجی برمی‌گردد. این موضوع را می‌توان از طریق گراف‌ها و مستندات موجود درباره Uptime سرویس‌ها و سرورها مشخص کرد. مثلا مهرماه پارسال به خاطر اتفاقاتی که رخ داد، اپراتورهای اینترنتی به شدت، اختلال و قطعی داشتند. این موضوع، بسیار وحشتناک بود. عملا در برخی مواقع، اصلا روی کارتخوان‌های سیار یا درگاه اینترنتی‌، امکان سرویس‌دهی نداشتیم. به دلیل قطعی مکرر پروایدرهای اینترنتی، حملات سایبری به آنها و مشکلاتی که در زیرساخت کشوری اعمال می‌شد، ما هم نمی‌توانستیم به خوبی سرویس بدهیم اما در بازه‌های دیگر، معمولا سرویس‌های استعلامی مانند قبض گاز و برق یا عوارض خروج از کشور، بیشتر قطعی داشت.

رکورددار می‌مانیم

او در قسمت دیگری از گفتگو در خصوص اینکه معمولا پیک تراکنش‌ها در چه مقطعی است، گفت: عدد دقیق نزد واحد عملیات نرم‌افزار است با این حال هر سال نزدیک شب عید، رکوردهای سال قبل را می‌زنیم. اگر سوئیچ کارت‌های بانکی پاسخگو باشند، مشکلی ایجاد نمی‌شود، تا حالا هم مشکلی نداشته‌ایم. معمولا اوج کاری ما شب‌های عید است؛ 27 و 28 اسفندماه. اسفند گذشته 30 هزار تراکنش در دقیقه را هم رد کردیم.

آریان در خصوص اینکه برای کاهش میزان خطا در شبکه چه اقداماتی صورت گرفته است، اینطور توضیح داد: حوزه شبکه به چند قسمت تقسیم می‌شود. یکی شبکه LAN داخلی خود ساختمان است؛ یعنی ارتباط ساختمان ما با ساختمان سوری و انبار خرمدشت به علاوه مرکز داده بخارست که کاربران آن، همکاران شرکت هستند. یک سایت هم به عنوان بکاپ در پردیس داشتیم که البته خیلی نمی‌شد به عنوان بکاپ روی آن حساب کرد. قسمتی از دیتاسنتر پارس‌آنلاین را هم اجاره کرده بودیم که دوستان، آنجا از یک‌سری دیتاها بکاپ می‌گرفتند.

او افزود: در حال حاضر برنامه‌ای که وجود دارد تهیه یک سایت disaster برای شرکت است که از این نظر هم خیال‌مان راحت باشد تا اگر حمله یا اتفاقی مانند آتش‌سوزی و... افتاد، جای دیگر بکاپ وجود داشته باشد و بتوانیم سرویس را بدون وقفه ارائه دهیم.

چابک‌تر می‌شویم

رییس مرکز عملیات شبکه  پرداخت الکترونیک سداد  در پاسخ به اینکه آیا فرآیند مانیتورینگ علاوه بر دستگاه‌های کارتخوان، درگاه‌های اینترنتی و ایوا را نیز شامل می‌شود یا خیر؟ گفت: این امر، کلیه سرویس‌هایی که مربوط به درگاه، پوز و میکروسرویس‌های موجود روی ایوا و نیز تمام لینک‌های ارتباطی با کل کشور را شامل می‌شود. هرکدام از اینها، مجددا چهار تا پنج لینک بکاپ دارند. علاوه بر اینها، تجهیزات استان‌ها و رادیوهای ارتباطی نیز رصد می‌شوند. ما اینها را در بخش‌های مختلف، بر اساس نیاز واحدهایی که با آنها کار می‌کنیم، منطقه‌بندی کردیم. دوستان شبکه و عملیات به‌ یک‌سری گراف‌های خاصی که ما برای آنها شخصی‌سازی کردیم، دسترسی دارند و می‌توانند از آن، برای مانیتورینگ تجهیزات خود بهره‌برداری کنند. الان مشخص است که تمام تجهیزات شبکه، روی کدام‌یک از سرورهای ما مستقر است. همه اینها از همدیگر تفکیک ‌شده است.

آریان، با بیان اینکه تهران جزو بهترین استان‌ها از نظر وضعیت اختلال است، در خصوص وضعیت پیک اضافه در رویدادهای خاص نظیر نمایشگاه کتاب گفت: معمولا در این بازه‌ها، در زمینه رصد وضعیت ترافیک و پایش شبکه خارجی، وضعیت نارنجی داریم. اگر براساس ترندی که ابزارها به ما می‌دهند احساس کنیم با شرایط موجود، برای 24 ساعت یا دو روز دیگر، ظرفیت ما پر می‌شود، در این حالت، بر اساس دیتاهایی که در این بازه می‌گیریم، به همکاران در قسمتی که می‌توانند منابع را اضافه کنند و پوشش دهند، گزارش می‌دهیم و آنها براساس فرایندهای خودشان، ظرفیت را افزایش می‌دهند.

او در پایان با بیان اینکه این واحد برای چابک‌تر شدن در حال ایجاد تغییرات گسترده روی ابزارهای مانیتورینگ خود است، گفت: همکاران ما شروع به برنامه‌نویسی کرده‌اند تا ابزار مورد نیاز برای ثبت لاگ و گزارش‌گیری طراحی ‌کنند که فکر می‌کنم به زودی، این کار تمام می‌شود. ارتباط بین این ابزارها باعث می‌شود برای عیب یابی و تشخیص مشکل، سرعت عمل‌مان به شدت افزایش پیدا کند. این برنامه‌ای است که در پروژه‌ها تعریف کرده‌ایم و طبق برنامه، پیش می‌رویم.

انتهای پیام/