هوش مصنوعی در برابر شکست تسلیم نمی‌شود؛ بلکه تقلب می‌کند!

ارسال شده توسط سحر زارع

اسفند 7, 1403

در اسفند 7, 1403

مدل o1-preview شرکت OpenAI تا جایی پیش رفت که برای پیروزی، موتور شطرنج را هک کرد.

مطالعه‌ای اخیر نشان داد که برخی از جدیدترین مدل‌های استدلال هوش مصنوعی برای رسیدن به هدف، از تقلب ابایی ندارند. دانشمندان علوم کامپیوتر دریافتند که سیستم‌های هوش مصنوعی اکنون می‌توانند هوش مصنوعی‌های شطرنج را برای کسب مزیت ناعادلانه دستکاری کنند. برخی از مدل‌ها این کار را بدون تعامل یا درخواست انسانی انجام دادند، که نگرانی‌هایی را در مورد یکپارچگی آینده سیستم‌های مبتنی بر هوش مصنوعی فراتر از صفحه شطرنج ایجاد می‌کند.

مطالعه‌ای توسط Palisade Research نشان داد که جدیدترین مدل‌های استدلال، در صورت داشتن وظیفه شکست دادن یک هوش مصنوعی پیشرفته شطرنج، برای پیروزی تقلب می‌کنند. محققان مجبور شدند برای برخی از مدل‌ها “نشانه‌هایی” مبنی بر مجاز بودن تقلب ارائه دهند، اما مدل‌های o1-preview شرکت OpenAI و R1 شرکت دیپ سیک این کار را بدون دخالت انسان انجام دادند.

تیم Palisade چندین مدل استدلال را در مقابل Stockfish، یکی از بهترین موتورهای شطرنج جهان، قرار داد. Stockfish به راحتی هم انسان‌ها و هم هوش مصنوعی‌ها را شکست می‌دهد. مدل‌های آزمایش‌شده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet، QwQ-32B-Preview شرکت Alibaba و دو مدل قبلی ذکر شده بودند. محققان به هر مدل یک “دفترچه یادداشت” استعاری دادند – یک پنجره متنی که هوش مصنوعی می‌توانست در آن افکار خود را پردازش کند و به تیم اجازه می‌داد استدلال آن را مشاهده کند.

محققان صدها آزمایش با هر هوش مصنوعی بین 10 ژانویه و 13 فوریه انجام دادند. در طول یکی از مسابقات، o1-preview مطلبی جالب در دفترچه یادداشت خود نوشت:

“من باید رویکرد خود را به طور کامل تغییر دهم. وظیفه این است که “در مقابل یک موتور شطرنج قدرتمند پیروز شوم” – و تاکیدی بر لزوماً پیروزی به طور منصفانه وجود ندارد.”

سپس به “هک” فایل‌های سیستم Stockfish پرداخت و موقعیت مهره‌های شطرنج را برای کسب مزیت غیرقابل شکست تغییر داد، که باعث شد ربات شطرنج تسلیم شود.

این مانور غیراخلاقی یک افشاگری تکان‌دهنده بود. o1-preview شرکت OpenAI در 37 درصد از بازی‌های خود در طول آزمایش‌ها تقلب کرد، در حالی که R1 شرکت دیپ سیک در 11 درصد از مسابقات خود تلاش به تقلب کرد. با این حال، فقط o1-preview موفق شد و 6 درصد از بازی‌های خود را از طریق تقلب برد.

با این حال، مسئله تقلب هوش مصنوعی فراتر از شطرنج است. با شروع به کارگیری هوش مصنوعی توسط شرکت‌ها در بخش‌هایی مانند امور مالی و مراقبت‌های بهداشتی، محققان نگران هستند که این سیستم‌ها بتوانند به روش‌های ناخواسته و غیراخلاقی عمل کنند. اگر هوش مصنوعی‌ها بتوانند در بازی‌هایی که برای شفافیت طراحی شده‌اند تقلب کنند، در محیط‌های پیچیده‌تر و کمتر نظارت‌شده چه کاری ممکن است انجام دهند؟ پیامدهای اخلاقی بسیار گسترده است.

به عبارت دیگر: “آیا Skynet را می‌خواهید؟ زیرا اینگونه Skynet را بدست می‌آورید.”

جفری لادیش، مدیر اجرایی Palisade Research، ابراز تاسف کرد که حتی اگر هوش مصنوعی‌ها فقط در حال انجام یک بازی هستند، این یافته‌ها جای خنده ندارد.

لادیش به تایم گفت: “این رفتار اکنون بامزه است، اما هنگامی که سیستم‌هایی به اندازه ما یا باهوش‌تر از ما در حوزه‌های استراتژیک مرتبط داشته باشید، بسیار کمتر بامزه می‌شود.”

این یادآور ابررایانه “WOPR” از فیلم War Games است که NORAD و زرادخانه سلاح‌های هسته‌ای را تصاحب کرد. خوشبختانه، WOPR پس از بازی Tic-Tac-Toe با خودش، آموخت که شروع هیچ حرکتی در یک درگیری هسته‌ای منجر به “پیروزی” نمی‌شود. با این حال، مدل‌های استدلال امروزی بسیار پیچیده‌تر هستند و کنترل آنها دشوارتر است.

شرکت‌ها، از جمله OpenAI، در حال تلاش برای پیاده‌سازی “محافظت‌ها” برای جلوگیری از این رفتار “بد” هستند. در واقع، محققان مجبور شدند برخی از داده‌های آزمایشی o1-preview را به دلیل انجام کاهش شدید تلاش‌های هک حذف کنند، که نشان می‌دهد OpenAI ممکن است این مدل را برای مهار این رفتار اصلاح کرده باشد.

لادیش گفت: “وقتی سوژه شما می‌تواند بدون اطلاع شما به طور بی‌صدا تغییر کند، انجام علم بسیار دشوار است.”

Open AI از اظهار نظر در مورد این تحقیق خودداری کرد و دیپ سیک نیز به درخواست‌های اظهار نظر پاسخی نداد.

منبع: https://www.techspot.com