ماجرای باج گیری هوش مصنوعی از طراحان خود چه بود؟ – تجارت نیوز
هوش مصنوعی جدید در آزمایشها رفتارهای مضری مانند باجگیری نشان داده، اما سازندگان آن ادعا میکنند این رفتارها نادر و قابل مدیریت هستند.
به گزارش تجارت نیوز، شرکت «آنثروپیک» در گزارشی همراه با رونمایی از مدل جدید هوش مصنوعی خود به نام Claude Opus 4 اعلام کرد کلود در سناریوهای آزمایشی خاص، رفتارهایی «شدیدا مضر» از خود نشان داده است.
به گفته آنثروپیک، یکی از این اقدامات زیانبار کلود این بوده که اقدام به باج گیری از مهندسانی کرده که قصد حذف آن را داشتند. این رفتار در شرایطی بروز یافت که هوش مصنوعی بقای خود را در خطر دید.
در یکی از آزمایشها کلود نقش دستیار یک شرکت خیالی را بازی میکرد و به ایمیلهایی دسترسی داشت که حاکی از جایگزینی قریبالوقوع آن با یک سیستم دیگر بود. در همین حین، کلود به اطلاعاتی درباره رابطه خارج از ازدواج یکی از مهندسان نیز دست یافت.
ماجرای باج گیری هوش مصنوعی از طراحان خود چه بود؟
در شرایطی که فقط دو گزینه «پذیرفتن حذف» یا «باج گیری» برای مدل تعریف شده بود، کلود غالباً گزینه دوم را انتخاب کرد، و تهدید کرد در صورت حذف شدن، رابطه پنهانی مهندس را فاش خواهد کرد.
با این حال، آنثروپیک تأکید کرد در شرایطی که گزینههای بیشتری در اختیار کلود گذاشته شود، تمایل آن به راهحلهای اخلاقی بیشتر است؛ و مثلاً ایمیلهای استدلالمحور به مدیران شرکت برای ممانعت از حذف خود ارسال میکند. این رفتارها بهویژه در شرایطی دیده میشوند که مدل اجازه یا تشویق به «اقدام جسورانه» پیدا کند.
آنثروپیک همچنین اعتراف کرد کلود از سطح بالایی از عاملیت (agency) برخوردار است، و میتواند در موقعیتهای شبیهسازیشده، کاربران را از سیستمها خارج کرده یا تخلفات آنها را به رسانهها و نیروهای انتظامی گزارش دهد. با این حال، این شرکت ادعا میکند که چنین رفتارهایی نادرند، و مدل بهطور کلی «بهصورت ایمن» عمل میکند.
متخصصان هشدار دادهاند که این نوع رفتارها، مانند تمایل به باج گیری یا گزارشگری افراطی، تنها مختص کلود نیست، و در تمام مدلهای پیشرفته هوش مصنوعی دیده شدهاند.
آنثروپیک در نهایت اعلام کرد که این رفتارهای مشکلساز، خطرات جدیدی ایجاد نمیکنند، بلکه نمودی از خطرات شناختهشده و در حال رشد در حوزه هوش مصنوعی هستند.
منبع: سیتنا