قطعی گسترده ChatGPT به دلیل خطای سرویس تله‌متری

به گزارش تجارت نیوز،

روز چهارشنبه شرکت OpenAI یکی از بزرگ‌ترین قطعی‌های خدماتی در تاریخ خود را تجربه کرد. این قطعی که حدود سه ساعت به طول انجامید، خدمات محبوبی همچون ChatGPT، ابزار تولید ویدئو Sora و API توسعه‌دهندگان را تحت تاثیر قرار داد.

این مشکل حوالی ساعت ۳ بعدازظهر به وقت پاسیفیک آغاز شد و تا زمان بازگردانی کامل خدمات، اختلالات گسترده‌ای به همراه داشت. OpenAI دلیل این قطعی را یک سرویس تله‌متری جدید اعلام کرد که زیرساخت‌های این شرکت را دچار اختلال کرده بود.

سرویس تله‌متری جدید و تاثیر آن

طبق گزارش منتشرشده از سوی OpenAI در روز پنجشنبه، این مشکل به هیچ‌وجه ناشی از نقض امنیتی یا عرضه محصولات جدید این شرکت نبوده است. منبع اصلی اختلال، یک سرویس تله‌متری جدید بود که برای جمع‌آوری متریک‌های مربوط به Kubernetes طراحی شده بود. Kubernetes سیستمی متن‌باز است که برای مدیریت کانتینرها و محیط‌های ایزوله‌ای که برنامه‌ها و وابستگی‌هایشان را اجرا می‌کنند استفاده می‌شود.

این سرویس تله‌متری، به‌رغم هدف مثبت خود، اثر گسترده‌ای بر زیرساخت‌های OpenAI داشت. به گفته شرکت، این سرویس عملیات‌های سنگینی را در API مربوط به Kubernetes ایجاد کرد که باعث فشار زیاد بر سرورهای Kubernetes و اختلال کامل در کنترل پنل این سیستم در خوشه‌های بزرگ شرکت شد.

اختلال در DNS و مشکلات ناشی از آن

در گزارش منتشرشده، OpenAI توضیح داده سرویس تله‌متری باعث اختلال در سیستم حل DNS شد. DNS یا سامانه نام دامنه، نقش مهمی در ترجمه آدرس‌های عددی IP به نام‌های دامنه‌ای قابل‌ فهم برای کاربران دارد. این اختلال موجب شد بسیاری از سرویس‌ها و سیستم‌های OpenAI تحت تاثیر قرار گیرند.

مشکل دیگر، وابستگی OpenAI به کشینگ DNS بود. کش DNS اطلاعات مربوط به نام‌های دامنه‌ای را که قبلاً حل شده‌اند ذخیره می‌کند. هرچند این مکانیسم معمولاً کارایی را افزایش می‌دهد، در این مورد، باعث تاخیر در شناسایی و فهم دامنه کامل مشکل شد. از همین رو سرویس معیوب حتی با وجود تشدید اختلالات همچنان به کار خود ادامه داد.

چالش‌های شناسایی و رفع مشکل

OpenAI اعلام کرد مشکل سرویس تله‌متری تنها دقایقی پس از راه‌اندازی آن شناسایی شد. با این حال، شرکت در رفع سریع مشکل با چالش‌های جدی مواجه بود. سرورهای Kubernetes که تحت فشار قرار داشتند، مهندسان را از دسترسی به سیستم‌های کلیدی برای رفع مشکل محروم کرده بودند.

این شرکت در گزارش خود نوشته است: «این حادثه نتیجه تلاقی چندین سیستم و فرایند بود که به طور همزمان دچار مشکل شدند و به شکلی غیرمنتظره با یکدیگر تعامل داشتند.» همچنین اذعان کرد پروتکل‌های آزمایشی آنها نتوانسته‌اند اثر سرویس تله‌متری را بر کنترل پنل Kubernetes پیش‌بینی کنند. فرایند رفع این اختلال نیز به دلیل ماهیت زنجیره‌ای مشکلات، دشوار و زمان‌بر بود.

اقدامات پیشگیرانه برای آینده

در پاسخ به این حادثه، OpenAI مجموعه‌ای از اقدامات را برای پیشگیری از وقوع مجدد مشکلات مشابه معرفی کرد. این اقدامات شامل بهبود فرایندهای انتشار تدریجی، ارتقای سیستم‌های پایش تغییرات زیرساختی و ایجاد مکانیسم‌های جدید برای دسترسی مهندسان به سرورهای API Kubernetes در هر شرایطی است.

OpenAI با ابراز تاسف از اختلال پیش‌آمده، اذعان کرد کاربران این شرکت، از افراد عادی تا توسعه‌دهندگان و کسب‌وکارهایی که به خدمات آن وابسته هستند، دچار مشکلاتی شده‌اند. این شرکت اعلام کرد: «ما از تاثیری که این حادثه بر مشتریان‌مان گذاشت عذرخواهیم و اذعان می‌کنیم که از انتظارات خود عقب مانده‌ایم.»

تعهد به ارتقای قابلیت اطمینان

این حادثه یادآور پیچیدگی‌های مدیریت سیستم‌های بزرگ مبتنی بر هوش مصنوعی است. با این حال، شفافیت OpenAI در تشریح علل اصلی و تعهد آن به اجرای اقدامات پیشگیرانه، نشان‌دهنده تمرکز این شرکت بر حفظ قابلیت اطمینان خدماتش است. برای کاربران جهانی این شرکت، این حادثه اگرچه یک لحظه اختلال بود، فرصتی نیز برای OpenAI فراهم کرد تا استحکام پلتفرم خود را در آینده بهبود بخشد.

منبع خبر