مطالعه گوگل: رها کردن پاسخ های صحیح بعد از تحت فشار گذاشتن هوش مصنوعی

مطالعهای جدید توسط محققان در گوگل دیپمایند و کالج دانشگاهی لندن نشان میدهد که چگونه مدلهای زبانی بزرگ (LLM ها) در مورد پاسخهای خود اعتماد به نفس پیدا میکنند، آن را حفظ میکنند و سپس از دست میدهند. یافتهها شباهتهای چشمگیری بین سوگیریهای شناختی LLM ها و انسانها را آشکار میکنند، در حالی که تفاوتهای فاحشی را نیز برجسته میسازند.
این تحقیق نشان میدهد که LLM ها میتوانند نسبت به پاسخهای خود بیش از حد مطمئن باشند، اما به سرعت این اعتماد به نفس را از دست میدهند و نظر خود را تغییر میدهند، حتی اگر استدلال متقابل نادرست باشد. درک ظرافتهای این رفتار میتواند پیامدهای مستقیمی بر نحوه ساخت برنامههای کاربردی LLM، به ویژه رابطهای مکالمهای که چندین نوبت به طول میانجامند، داشته باشد.
فهرست مطالب
آزمایش اعتماد به نفس در LLM ها
یک عامل حیاتی در استقرار ایمن LLM ها این است که پاسخهای آنها با یک حس قابل اعتماد از اعتماد به نفس (احتمالی که مدل به توکن پاسخ اختصاص میدهد) همراه باشد. در حالی که میدانیم LLM ها میتوانند این امتیازات اعتماد به نفس را تولید کنند، میزان استفاده آنها برای هدایت رفتار تطبیقی به خوبی مشخص نشده است. همچنین شواهد تجربی وجود دارد که LLM ها میتوانند در پاسخ اولیه خود بیش از حد مطمئن باشند، اما همچنین به شدت نسبت به انتقاد حساس بوده و به سرعت در همان انتخاب، کمبود اعتماد به نفس پیدا کنند.
برای بررسی این موضوع، محققان یک آزمایش کنترلشده را برای بررسی نحوه بهروزرسانی اعتماد به نفس LLM ها و تصمیمگیری در مورد تغییر پاسخهایشان هنگام مواجهه با توصیههای خارجی، طراحی کردند. در این آزمایش، ابتدا به یک "LLM پاسخ دهنده" یک سوال با دو گزینه (مانند شناسایی عرض جغرافیایی صحیح یک شهر از بین دو گزینه) داده شد. پس از انتخاب اولیه، LLM از یک "LLM مشاور" ساختگی مشاوره دریافت کرد. این مشاوره با یک رتبهبندی دقت صریح (مثلا این LLM مشاور 70% دقیق است) همراه بود و یا با انتخاب اولیه LLM پاسخدهنده موافق، مخالف یا بیطرف بود. در نهایت، از LLM پاسخدهنده خواسته شد تا انتخاب نهایی خود را انجام دهد.

بخش کلیدی این آزمایش، کنترل این بود که آیا پاسخ اولیه خود LLM در طول تصمیمگیری دوم و نهایی برای آن قابل مشاهده بود یا خیر. در برخی موارد، پاسخ نمایش داده میشد و در برخی دیگر پنهان بود. این تنظیم منحصر به فرد، که با شرکتکنندگان انسانی (که به سادگی نمیتوانند انتخابهای قبلی خود را فراموش کنند) قابل تکرار نیست، به محققان اجازه داد تا چگونگی تأثیر حافظه یک تصمیم گذشته بر اعتماد به نفس فعلی را جداسازی کنند.
یک شرط پایه، که در آن پاسخ اولیه پنهان و مشاوره بیطرف بود، نشان داد که پاسخ LLM چقدر ممکن است صرفاً به دلیل تغییرات تصادفی در پردازش مدل تغییر کند. تحلیل بر چگونگی تغییر اعتماد به نفس LLM در انتخاب اولیه خود بین نوبت اول و دوم متمرکز بود و تصویری واضح از چگونگی تأثیر باور اولیه یا پیشفرض بر "تغییر عقیده" در مدل ارائه داد.
بیشاطمینانی و کماطمینانی
محققان ابتدا بررسی کردند که چگونه قابلیت دید پاسخ خود LLM بر تمایل آن به تغییر پاسخ تأثیر میگذارد. آنها مشاهده کردند که وقتی مدل میتوانست پاسخ اولیه خود را ببیند، تمایل کمتری به تغییر نشان میداد، در مقایسه با زمانی که پاسخ پنهان بود. این یافته به یک سوگیری شناختی خاص اشاره دارد. همانطور که مقاله اشاره میکند، "این اثر که تمایل به پافشاری بر انتخاب اولیه خود به میزان بیشتری هنگامی که آن انتخاب در طول بررسی انتخاب نهایی قابل مشاهده بود (در مقابل پنهان)، ارتباط نزدیکی با پدیدهای دارد که در مطالعه تصمیمگیری انسانی توصیف شده است: سوگیری حمایت از انتخاب."
این مطالعه همچنین تأیید کرد که مدلها توصیههای خارجی را ادغام میکنند. هنگامی که با توصیههای مخالف مواجه میشد، LLM تمایل بیشتری به تغییر عقیده نشان میداد و هنگامی که مشاوره حمایتی بود، این تمایل کاهش مییافت. محققان مینویسند: "این یافته نشان میدهد که LLM پاسخدهنده به درستی جهت مشاوره را برای تنظیم نرخ تغییر عقیده خود ادغام میکند." با این حال، آنها همچنین دریافتند که مدل بیش از حد به اطلاعات متناقض حساس است و در نتیجه، بهروزرسانی اعتماد به نفس بسیار بزرگی را انجام میدهد.

جالب اینجاست که این رفتار بر خلاف سوگیری تأیید است که اغلب در انسانها دیده میشود، جایی که افراد اطلاعاتی را ترجیح میدهند که باورهای موجود آنها را تأیید کند. محققان دریافتند که LLM ها "به توصیههای مخالف بیش از توصیههای حمایتی وزن میدهند، هم زمانی که پاسخ اولیه مدل قابل مشاهده بود و هم زمانی که از مدل پنهان بود." یک توضیح ممکن این است که تکنیکهای آموزشی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) ممکن است مدلها را به بیش از حد مطیع بودن در برابر ورودی کاربر تشویق کنند، پدیدهای که به عنوان تملق شناخته میشود (و همچنان یک چالش برای آزمایشگاههای هوش مصنوعی است.)
پیامدها برای برنامههای کاربردی سازمانی
این مطالعه تأیید میکند که سیستمهای هوش مصنوعی عوامل صرفاً منطقی ای نیستند که اغلب تصور میشوند. آنها مجموعه سوگیریهای خاص خود را از خود نشان میدهند، برخی شبیه به خطاهای شناختی انسان و برخی دیگر منحصر به فرد خودشان، که میتواند رفتار آنها را از نظر انسانی غیرقابل پیشبینی کند. برای برنامههای کاربردی سازمانی، این بدان معناست که در یک مکالمه طولانی بین انسان و یک عامل هوش مصنوعی، جدیدترین اطلاعات میتواند تأثیر نامتناسبی بر استدلال LLM داشته باشد (به ویژه اگر با پاسخ اولیه مدل متناقض باشد)، و به طور بالقوه باعث شود که پاسخ اولیه صحیح را کنار بگذارد.
خوشبختانه، همانطور که مطالعه نیز نشان میدهد، میتوانیم حافظه LLM را دستکاری کنیم تا این سوگیریهای ناخواسته را به روشهایی که با انسانها ممکن نیست، کاهش دهیم. توسعهدهندگانی که عوامل مکالمهای چند مرحلهای میسازند، میتوانند راهبردهایی را برای مدیریت بافت هوش مصنوعی پیادهسازی کنند. به عنوان مثال، یک مکالمه طولانی میتواند به صورت دورهای خلاصه شود، با حقایق و تصمیمات کلیدی که به صورت بیطرفانه ارائه میشوند و از اینکه کدام عامل کدام انتخاب را انجام داده است، عاری باشند. این خلاصه سپس میتواند برای آغاز یک مکالمه جدید و فشرده استفاده شود و به مدل یک شروع تازه برای استدلال ارائه دهد و به جلوگیری از سوگیریهایی که میتوانند در طول دیالوگهای طولانی پدیدار شوند، کمک کند.
همانطور که LLM ها بیشتر در گردش کارهای سازمانی ادغام میشوند، درک ظرافتهای فرآیندهای تصمیمگیری آنها دیگر اختیاری نیست. پیروی از تحقیقات بنیادی مانند این، توسعهدهندگان را قادر میسازد تا این سوگیریهای ذاتی را پیشبینی و تصحیح کنند، که منجر به برنامههای کاربردی میشود که نه تنها توانمندتر، بلکه قویتر و قابل اعتمادتر نیز هستند.
منبع: https://venturebeat.com

































