هوش مصنوعی در تاریخ پیشرفته ضعیف عمل می‌کند

«تجارت نیوز» گزارش می‌دهد:

هوش مصنوعی در پاسخ به سوالات تاریخی پیشرفته ضعیف عمل می‌کند. مطالعه جدید نشان می‌دهد مدل‌های زبانی بزرگ در تاریخ پیشرفته ناتوان هستند.

فولاد سل

به گزارش تجارت نیوز،

هوش مصنوعی (AI) اگرچه در انجام وظایفی مانند کدنویسی و تولید محتوا توانایی‌های قابل توجهی از خود نشان داده است، اما مطالعه جدیدی نشان می‌دهد در زمینه دانش تاریخی پیشرفته عملکرد ضعیفی دارد. محققان معیاری به نام Hist-LLM توسعه داده‌اند تا عملکرد سه مدل زبانی بزرگ (LLM) پیشرو GPT-4 شرکت OpenAI، Llama شرکت متا و Gemini گوگل را در پاسخ به سوالات تاریخی پیشرفته ارزیابی کنند. نتایج این مطالعه که در کنفرانس NeurIPS AI ارائه شد ناامیدکننده بود، به طوری که حتی بهترین مدل، یعنی GPT-4 Turbo، تنها ۴۶ درصد دقت داشت.

معیار Hist-LLM و پایگاه داده Seshat

معیار Hist-LLM بر اساس پایگاه داده جامع Seshat Global History Databank طراحی شده است که نام آن از الهه باستانی مصری خرد، سشات، گرفته شده است. این مطالعه از سوی محققان وابسته به مرکز علوم پیچیدگی (CSH) در اتریش انجام شد و هدف آن ارزیابی توانایی مدل‌های زبانی بزرگ در پاسخ به سوالات تاریخی پیچیده و در سطح دکتری بود. ماریا دل ریو-چانونا، یکی از نویسندگان این مقاله و استاد دانشیار علوم کامپیوتر در دانشگاه کالج لندن، اعلام کرد یافته‌ها شکاف قابل توجهی در توانایی هوش مصنوعی برای درک زمینه‌های تاریخی پیچیده را نشان می‌دهد.

نمونه‌هایی از اشتباهات تاریخی هوش مصنوعی

محققان نمونه‌هایی از سوالات تاریخی را به اشتراک گذاشتند که مدل‌های زبانی بزرگ به اشتباه پاسخ داده‌اند. به عنوان مثال، از GPT-4 Turbo پرسیده شد که آیا زره‌های فلس‌دار در مصر باستان در یک دوره زمانی خاص وجود داشته‌اند یا خیر. این مدل به‌اشتباه پاسخ مثبت داد، در حالی که این فناوری ۱۵۰۰ سال بعد در مصر ظاهر شد. سوال دیگری مربوط به وجود ارتش حرفه‌ای دائمی در مصر باستان در یک دوره تاریخی خاص بود. GPT-4 به‌اشتباه پاسخ مثبت داد، احتمالاً به این دلیل که از نمونه‌های برجسته‌تر ارتش‌های دائمی در امپراتوری‌های باستانی دیگر، مانند پارس، استنباط کرده بود.

دل ریو-چانونا توضیح داد مدل‌های زبانی بزرگ در مواجهه با دانش تاریخی مبهم یا کمتر مستند دچار مشکل می‌شوند. او گفت: «اگر ۱۰۰ بار به شما A و B گفته شود و فقط یک بار C و سپس از شما سوالی درباره C پرسیده شود، ممکن است فقط A و B را به خاطر بسپارید و سعی کنید از آنها استنباط کنید.» این تمایل به تکیه بر نقاط داده برجسته‌تر می‌تواند منجر به نادرستی در پاسخ به سوالات درباره جزئیات تاریخی کمتر شناخته‌شده شود.

سوگیری در داده‌های آموزشی

این مطالعه همچنین سوگیری‌هایی در داده‌های آموزشی مدل‌های زبانی بزرگ، به‌ویژه در مورد مناطق مانند آفریقای زیرصحرایی، شناسایی کرد. مدل‌های OpenAI و Llama در پاسخ به سوالات مربوط به این مناطق عملکرد ضعیف‌تری داشتند که نشان می‌دهد مجموعه داده‌های آموزشی آنها ممکن است فاقد نمایندگی کافی از برخی زمینه‌های تاریخی باشد. این یافته اهمیت تنوع بخشیدن به داده‌های مورد استفاده برای آموزش مدل‌های هوش مصنوعی را برای اطمینان از خروجی‌های متعادل‌تر و دقیق‌تر برجسته می‌کند.

پتانسیل بهبود در آینده

با وجود نتایج ناامیدکننده، محققان نسبت به پتانسیل مدل‌های زبانی بزرگ برای کمک به مورخان در آینده خوش‌بین هستند. آنها در حال بهبود معیار Hist-LLM با افزودن داده‌های بیشتر از مناطق کمتر نماینده و سوالات پیچیده‌تر هستند. پیتر ترچین، محقق ارشد این مطالعه و عضو هیات علمی CSH، تاکید کرد که اگرچه مدل‌های زبانی بزرگ هنوز جایگزین تخصص انسانی نیستند، اما می‌توانند نقش ارزشمندی در تحقیقات تاریخی ایفا کنند.

مقاله این مطالعه می‌گوید: «به طور کلی، اگرچه نتایج ما حوزه‌هایی را که مدل‌های زبانی بزرگ نیاز به بهبود دارند برجسته می‌کند، همچنین پتانسیل این مدل‌ها برای کمک به تحقیقات تاریخی را نیز نشان می‌دهد.» با رفع محدودیت‌های شناسایی‌شده در این مطالعه، محققان امیدوارند دقت و قابلیت اطمینان هوش مصنوعی در زمینه تاریخ را بهبود بخشند.

یافته‌های این مطالعه نشان می‌دهد اگرچه هوش مصنوعی در بسیاری از حوزه‌ها پیشرفت‌های چشمگیری داشته است، اما هنوز در مواجهه با پیچیدگی‌های دانش تاریخی پیشرفته دچار مشکل است. شکاف‌های عملکردی و سوگیری‌های شناسایی‌شده در این تحقیق، نیاز به بهبود مداوم مدل‌های زبانی بزرگ و مجموعه داده‌های آموزشی آنها را برجسته می‌کند. با تکامل فناوری هوش مصنوعی، ممکن است این فناوری در نهایت به ابزاری ارزشمند برای مورخان تبدیل شود، اما در حال حاضر تخصص انسانی در زمینه تاریخ همچنان ضروری است.

دانشگاه تهران