مطالعه گوگل: رها کردن پاسخ های صحیح بعد از تحت فشار گذاشتن هوش مصنوعی

مرداد 25, 1404

در تیر 25, 1404

مطالعه‌ای جدید توسط محققان در گوگل دیپ‌مایند و کالج دانشگاهی لندن نشان می‌دهد که چگونه مدل‌های زبانی بزرگ (LLM ها) در مورد پاسخ‌های خود اعتماد به نفس پیدا می‌کنند، آن را حفظ می‌کنند و سپس از دست می‌دهند. یافته‌ها شباهت‌های چشمگیری بین سوگیری‌های شناختی LLM ها و انسان‌ها را آشکار می‌کنند، در حالی که تفاوت‌های فاحشی را نیز برجسته می‌سازند.

این تحقیق نشان می‌دهد که LLM ها می‌توانند نسبت به پاسخ‌های خود بیش از حد مطمئن باشند، اما به سرعت این اعتماد به نفس را از دست می‌دهند و نظر خود را تغییر می‌دهند، حتی اگر استدلال متقابل نادرست باشد. درک ظرافت‌های این رفتار می‌تواند پیامدهای مستقیمی بر نحوه ساخت برنامه‌های کاربردی LLM، به ویژه رابط‌های مکالمه‌ای که چندین نوبت به طول می‌انجامند، داشته باشد.

فهرست مطالب

1 آزمایش اعتماد به نفس در LLM ها
2 بیش‌اطمینانی و کم‌اطمینانی
3 پیامدها برای برنامه‌های کاربردی سازمانی

آزمایش اعتماد به نفس در LLM ها

یک عامل حیاتی در استقرار ایمن LLM ها این است که پاسخ‌های آن‌ها با یک حس قابل اعتماد از اعتماد به نفس (احتمالی که مدل به توکن پاسخ اختصاص می‌دهد) همراه باشد. در حالی که می‌دانیم LLM ها می‌توانند این امتیازات اعتماد به نفس را تولید کنند، میزان استفاده آن‌ها برای هدایت رفتار تطبیقی به خوبی مشخص نشده است. همچنین شواهد تجربی وجود دارد که LLM ها می‌توانند در پاسخ اولیه خود بیش از حد مطمئن باشند، اما همچنین به شدت نسبت به انتقاد حساس بوده و به سرعت در همان انتخاب، کمبود اعتماد به نفس پیدا کنند.

برای بررسی این موضوع، محققان یک آزمایش کنترل‌شده را برای بررسی نحوه به‌روزرسانی اعتماد به نفس LLM ها و تصمیم‌گیری در مورد تغییر پاسخ‌هایشان هنگام مواجهه با توصیه‌های خارجی، طراحی کردند. در این آزمایش، ابتدا به یک "LLM پاسخ دهنده" یک سوال با دو گزینه (مانند شناسایی عرض جغرافیایی صحیح یک شهر از بین دو گزینه) داده شد. پس از انتخاب اولیه، LLM از یک "LLM مشاور" ساختگی مشاوره دریافت کرد. این مشاوره با یک رتبه‌بندی دقت صریح (مثلا این LLM مشاور 70% دقیق است) همراه بود و یا با انتخاب اولیه LLM پاسخ‌دهنده موافق، مخالف یا بی‌طرف بود. در نهایت، از LLM پاسخ‌دهنده خواسته شد تا انتخاب نهایی خود را انجام دهد.

بخش کلیدی این آزمایش، کنترل این بود که آیا پاسخ اولیه خود LLM در طول تصمیم‌گیری دوم و نهایی برای آن قابل مشاهده بود یا خیر. در برخی موارد، پاسخ نمایش داده می‌شد و در برخی دیگر پنهان بود. این تنظیم منحصر به فرد، که با شرکت‌کنندگان انسانی (که به سادگی نمی‌توانند انتخاب‌های قبلی خود را فراموش کنند) قابل تکرار نیست، به محققان اجازه داد تا چگونگی تأثیر حافظه یک تصمیم گذشته بر اعتماد به نفس فعلی را جداسازی کنند.

یک شرط پایه، که در آن پاسخ اولیه پنهان و مشاوره بی‌طرف بود، نشان داد که پاسخ LLM چقدر ممکن است صرفاً به دلیل تغییرات تصادفی در پردازش مدل تغییر کند. تحلیل بر چگونگی تغییر اعتماد به نفس LLM در انتخاب اولیه خود بین نوبت اول و دوم متمرکز بود و تصویری واضح از چگونگی تأثیر باور اولیه یا پیش‌فرض بر "تغییر عقیده" در مدل ارائه داد.

بیش‌اطمینانی و کم‌اطمینانی

محققان ابتدا بررسی کردند که چگونه قابلیت دید پاسخ خود LLM بر تمایل آن به تغییر پاسخ تأثیر می‌گذارد. آن‌ها مشاهده کردند که وقتی مدل می‌توانست پاسخ اولیه خود را ببیند، تمایل کمتری به تغییر نشان می‌داد، در مقایسه با زمانی که پاسخ پنهان بود. این یافته به یک سوگیری شناختی خاص اشاره دارد. همانطور که مقاله اشاره می‌کند، "این اثر که تمایل به پافشاری بر انتخاب اولیه خود به میزان بیشتری هنگامی که آن انتخاب در طول بررسی انتخاب نهایی قابل مشاهده بود (در مقابل پنهان)، ارتباط نزدیکی با پدیده‌ای دارد که در مطالعه تصمیم‌گیری انسانی توصیف شده است: سوگیری حمایت از انتخاب."

این مطالعه همچنین تأیید کرد که مدل‌ها توصیه‌های خارجی را ادغام می‌کنند. هنگامی که با توصیه‌های مخالف مواجه می‌شد، LLM تمایل بیشتری به تغییر عقیده نشان می‌داد و هنگامی که مشاوره حمایتی بود، این تمایل کاهش می‌یافت. محققان می‌نویسند: "این یافته نشان می‌دهد که LLM پاسخ‌دهنده به درستی جهت مشاوره را برای تنظیم نرخ تغییر عقیده خود ادغام می‌کند." با این حال، آن‌ها همچنین دریافتند که مدل بیش از حد به اطلاعات متناقض حساس است و در نتیجه، به‌روزرسانی اعتماد به نفس بسیار بزرگی را انجام می‌دهد.

جالب اینجاست که این رفتار بر خلاف سوگیری تأیید است که اغلب در انسان‌ها دیده می‌شود، جایی که افراد اطلاعاتی را ترجیح می‌دهند که باورهای موجود آن‌ها را تأیید کند. محققان دریافتند که LLM ها "به توصیه‌های مخالف بیش از توصیه‌های حمایتی وزن می‌دهند، هم زمانی که پاسخ اولیه مدل قابل مشاهده بود و هم زمانی که از مدل پنهان بود." یک توضیح ممکن این است که تکنیک‌های آموزشی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) ممکن است مدل‌ها را به بیش از حد مطیع بودن در برابر ورودی کاربر تشویق کنند، پدیده‌ای که به عنوان تملق شناخته می‌شود (و همچنان یک چالش برای آزمایشگاه‌های هوش مصنوعی است.)

پیامدها برای برنامه‌های کاربردی سازمانی

این مطالعه تأیید می‌کند که سیستم‌های هوش مصنوعی عوامل صرفاً منطقی ای نیستند که اغلب تصور می‌شوند. آن‌ها مجموعه سوگیری‌های خاص خود را از خود نشان می‌دهند، برخی شبیه به خطاهای شناختی انسان و برخی دیگر منحصر به فرد خودشان، که می‌تواند رفتار آن‌ها را از نظر انسانی غیرقابل پیش‌بینی کند. برای برنامه‌های کاربردی سازمانی، این بدان معناست که در یک مکالمه طولانی بین انسان و یک عامل هوش مصنوعی، جدیدترین اطلاعات می‌تواند تأثیر نامتناسبی بر استدلال LLM داشته باشد (به ویژه اگر با پاسخ اولیه مدل متناقض باشد)، و به طور بالقوه باعث شود که پاسخ اولیه صحیح را کنار بگذارد.

خوشبختانه، همانطور که مطالعه نیز نشان می‌دهد، می‌توانیم حافظه LLM را دستکاری کنیم تا این سوگیری‌های ناخواسته را به روش‌هایی که با انسان‌ها ممکن نیست، کاهش دهیم. توسعه‌دهندگانی که عوامل مکالمه‌ای چند مرحله‌ای می‌سازند، می‌توانند راهبردهایی را برای مدیریت بافت هوش مصنوعی پیاده‌سازی کنند. به عنوان مثال، یک مکالمه طولانی می‌تواند به صورت دوره‌ای خلاصه شود، با حقایق و تصمیمات کلیدی که به صورت بی‌طرفانه ارائه می‌شوند و از اینکه کدام عامل کدام انتخاب را انجام داده است، عاری باشند. این خلاصه سپس می‌تواند برای آغاز یک مکالمه جدید و فشرده استفاده شود و به مدل یک شروع تازه برای استدلال ارائه دهد و به جلوگیری از سوگیری‌هایی که می‌توانند در طول دیالوگ‌های طولانی پدیدار شوند، کمک کند.

همانطور که LLM ها بیشتر در گردش کارهای سازمانی ادغام می‌شوند، درک ظرافت‌های فرآیندهای تصمیم‌گیری آن‌ها دیگر اختیاری نیست. پیروی از تحقیقات بنیادی مانند این، توسعه‌دهندگان را قادر می‌سازد تا این سوگیری‌های ذاتی را پیش‌بینی و تصحیح کنند، که منجر به برنامه‌های کاربردی می‌شود که نه تنها توانمندتر، بلکه قوی‌تر و قابل اعتمادتر نیز هستند.

منبع: https://venturebeat.com