قطعی گسترده ChatGPT به دلیل خطای سرویس تلهمتری
به گزارش تجارت نیوز،
روز چهارشنبه شرکت OpenAI یکی از بزرگترین قطعیهای خدماتی در تاریخ خود را تجربه کرد. این قطعی که حدود سه ساعت به طول انجامید، خدمات محبوبی همچون ChatGPT، ابزار تولید ویدئو Sora و API توسعهدهندگان را تحت تاثیر قرار داد.
این مشکل حوالی ساعت ۳ بعدازظهر به وقت پاسیفیک آغاز شد و تا زمان بازگردانی کامل خدمات، اختلالات گستردهای به همراه داشت. OpenAI دلیل این قطعی را یک سرویس تلهمتری جدید اعلام کرد که زیرساختهای این شرکت را دچار اختلال کرده بود.
سرویس تلهمتری جدید و تاثیر آن
طبق گزارش منتشرشده از سوی OpenAI در روز پنجشنبه، این مشکل به هیچوجه ناشی از نقض امنیتی یا عرضه محصولات جدید این شرکت نبوده است. منبع اصلی اختلال، یک سرویس تلهمتری جدید بود که برای جمعآوری متریکهای مربوط به Kubernetes طراحی شده بود. Kubernetes سیستمی متنباز است که برای مدیریت کانتینرها و محیطهای ایزولهای که برنامهها و وابستگیهایشان را اجرا میکنند استفاده میشود.
این سرویس تلهمتری، بهرغم هدف مثبت خود، اثر گستردهای بر زیرساختهای OpenAI داشت. به گفته شرکت، این سرویس عملیاتهای سنگینی را در API مربوط به Kubernetes ایجاد کرد که باعث فشار زیاد بر سرورهای Kubernetes و اختلال کامل در کنترل پنل این سیستم در خوشههای بزرگ شرکت شد.
اختلال در DNS و مشکلات ناشی از آن
در گزارش منتشرشده، OpenAI توضیح داده سرویس تلهمتری باعث اختلال در سیستم حل DNS شد. DNS یا سامانه نام دامنه، نقش مهمی در ترجمه آدرسهای عددی IP به نامهای دامنهای قابل فهم برای کاربران دارد. این اختلال موجب شد بسیاری از سرویسها و سیستمهای OpenAI تحت تاثیر قرار گیرند.
مشکل دیگر، وابستگی OpenAI به کشینگ DNS بود. کش DNS اطلاعات مربوط به نامهای دامنهای را که قبلاً حل شدهاند ذخیره میکند. هرچند این مکانیسم معمولاً کارایی را افزایش میدهد، در این مورد، باعث تاخیر در شناسایی و فهم دامنه کامل مشکل شد. از همین رو سرویس معیوب حتی با وجود تشدید اختلالات همچنان به کار خود ادامه داد.
چالشهای شناسایی و رفع مشکل
OpenAI اعلام کرد مشکل سرویس تلهمتری تنها دقایقی پس از راهاندازی آن شناسایی شد. با این حال، شرکت در رفع سریع مشکل با چالشهای جدی مواجه بود. سرورهای Kubernetes که تحت فشار قرار داشتند، مهندسان را از دسترسی به سیستمهای کلیدی برای رفع مشکل محروم کرده بودند.
این شرکت در گزارش خود نوشته است: «این حادثه نتیجه تلاقی چندین سیستم و فرایند بود که به طور همزمان دچار مشکل شدند و به شکلی غیرمنتظره با یکدیگر تعامل داشتند.» همچنین اذعان کرد پروتکلهای آزمایشی آنها نتوانستهاند اثر سرویس تلهمتری را بر کنترل پنل Kubernetes پیشبینی کنند. فرایند رفع این اختلال نیز به دلیل ماهیت زنجیرهای مشکلات، دشوار و زمانبر بود.
اقدامات پیشگیرانه برای آینده
در پاسخ به این حادثه، OpenAI مجموعهای از اقدامات را برای پیشگیری از وقوع مجدد مشکلات مشابه معرفی کرد. این اقدامات شامل بهبود فرایندهای انتشار تدریجی، ارتقای سیستمهای پایش تغییرات زیرساختی و ایجاد مکانیسمهای جدید برای دسترسی مهندسان به سرورهای API Kubernetes در هر شرایطی است.
OpenAI با ابراز تاسف از اختلال پیشآمده، اذعان کرد کاربران این شرکت، از افراد عادی تا توسعهدهندگان و کسبوکارهایی که به خدمات آن وابسته هستند، دچار مشکلاتی شدهاند. این شرکت اعلام کرد: «ما از تاثیری که این حادثه بر مشتریانمان گذاشت عذرخواهیم و اذعان میکنیم که از انتظارات خود عقب ماندهایم.»
تعهد به ارتقای قابلیت اطمینان
این حادثه یادآور پیچیدگیهای مدیریت سیستمهای بزرگ مبتنی بر هوش مصنوعی است. با این حال، شفافیت OpenAI در تشریح علل اصلی و تعهد آن به اجرای اقدامات پیشگیرانه، نشاندهنده تمرکز این شرکت بر حفظ قابلیت اطمینان خدماتش است. برای کاربران جهانی این شرکت، این حادثه اگرچه یک لحظه اختلال بود، فرصتی نیز برای OpenAI فراهم کرد تا استحکام پلتفرم خود را در آینده بهبود بخشد.