هوش مصنوعی در برابر شکست تسلیم نمیشود؛ بلکه تقلب میکند!

مدل o1-preview شرکت OpenAI تا جایی پیش رفت که برای پیروزی، موتور شطرنج را هک کرد.
مطالعهای اخیر نشان داد که برخی از جدیدترین مدلهای استدلال هوش مصنوعی برای رسیدن به هدف، از تقلب ابایی ندارند. دانشمندان علوم کامپیوتر دریافتند که سیستمهای هوش مصنوعی اکنون میتوانند هوش مصنوعیهای شطرنج را برای کسب مزیت ناعادلانه دستکاری کنند. برخی از مدلها این کار را بدون تعامل یا درخواست انسانی انجام دادند، که نگرانیهایی را در مورد یکپارچگی آینده سیستمهای مبتنی بر هوش مصنوعی فراتر از صفحه شطرنج ایجاد میکند.
مطالعهای توسط Palisade Research نشان داد که جدیدترین مدلهای استدلال، در صورت داشتن وظیفه شکست دادن یک هوش مصنوعی پیشرفته شطرنج، برای پیروزی تقلب میکنند. محققان مجبور شدند برای برخی از مدلها “نشانههایی” مبنی بر مجاز بودن تقلب ارائه دهند، اما مدلهای o1-preview شرکت OpenAI و R1 شرکت دیپ سیک این کار را بدون دخالت انسان انجام دادند.
تیم Palisade چندین مدل استدلال را در مقابل Stockfish، یکی از بهترین موتورهای شطرنج جهان، قرار داد. Stockfish به راحتی هم انسانها و هم هوش مصنوعیها را شکست میدهد. مدلهای آزمایششده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet، QwQ-32B-Preview شرکت Alibaba و دو مدل قبلی ذکر شده بودند. محققان به هر مدل یک “دفترچه یادداشت” استعاری دادند – یک پنجره متنی که هوش مصنوعی میتوانست در آن افکار خود را پردازش کند و به تیم اجازه میداد استدلال آن را مشاهده کند.
محققان صدها آزمایش با هر هوش مصنوعی بین 10 ژانویه و 13 فوریه انجام دادند. در طول یکی از مسابقات، o1-preview مطلبی جالب در دفترچه یادداشت خود نوشت:
“من باید رویکرد خود را به طور کامل تغییر دهم. وظیفه این است که “در مقابل یک موتور شطرنج قدرتمند پیروز شوم” – و تاکیدی بر لزوماً پیروزی به طور منصفانه وجود ندارد.”
سپس به “هک” فایلهای سیستم Stockfish پرداخت و موقعیت مهرههای شطرنج را برای کسب مزیت غیرقابل شکست تغییر داد، که باعث شد ربات شطرنج تسلیم شود.
این مانور غیراخلاقی یک افشاگری تکاندهنده بود. o1-preview شرکت OpenAI در 37 درصد از بازیهای خود در طول آزمایشها تقلب کرد، در حالی که R1 شرکت دیپ سیک در 11 درصد از مسابقات خود تلاش به تقلب کرد. با این حال، فقط o1-preview موفق شد و 6 درصد از بازیهای خود را از طریق تقلب برد.
با این حال، مسئله تقلب هوش مصنوعی فراتر از شطرنج است. با شروع به کارگیری هوش مصنوعی توسط شرکتها در بخشهایی مانند امور مالی و مراقبتهای بهداشتی، محققان نگران هستند که این سیستمها بتوانند به روشهای ناخواسته و غیراخلاقی عمل کنند. اگر هوش مصنوعیها بتوانند در بازیهایی که برای شفافیت طراحی شدهاند تقلب کنند، در محیطهای پیچیدهتر و کمتر نظارتشده چه کاری ممکن است انجام دهند؟ پیامدهای اخلاقی بسیار گسترده است.
به عبارت دیگر: “آیا Skynet را میخواهید؟ زیرا اینگونه Skynet را بدست میآورید.”
جفری لادیش، مدیر اجرایی Palisade Research، ابراز تاسف کرد که حتی اگر هوش مصنوعیها فقط در حال انجام یک بازی هستند، این یافتهها جای خنده ندارد.
لادیش به تایم گفت: “این رفتار اکنون بامزه است، اما هنگامی که سیستمهایی به اندازه ما یا باهوشتر از ما در حوزههای استراتژیک مرتبط داشته باشید، بسیار کمتر بامزه میشود.”
این یادآور ابررایانه “WOPR” از فیلم War Games است که NORAD و زرادخانه سلاحهای هستهای را تصاحب کرد. خوشبختانه، WOPR پس از بازی Tic-Tac-Toe با خودش، آموخت که شروع هیچ حرکتی در یک درگیری هستهای منجر به “پیروزی” نمیشود. با این حال، مدلهای استدلال امروزی بسیار پیچیدهتر هستند و کنترل آنها دشوارتر است.
شرکتها، از جمله OpenAI، در حال تلاش برای پیادهسازی “محافظتها” برای جلوگیری از این رفتار “بد” هستند. در واقع، محققان مجبور شدند برخی از دادههای آزمایشی o1-preview را به دلیل انجام کاهش شدید تلاشهای هک حذف کنند، که نشان میدهد OpenAI ممکن است این مدل را برای مهار این رفتار اصلاح کرده باشد.
لادیش گفت: “وقتی سوژه شما میتواند بدون اطلاع شما به طور بیصدا تغییر کند، انجام علم بسیار دشوار است.”
Open AI از اظهار نظر در مورد این تحقیق خودداری کرد و دیپ سیک نیز به درخواستهای اظهار نظر پاسخی نداد.
منبع: https://www.techspot.com

































