مدال طلای المپیاد ریاضی در دست هوش مصنوعی: مدلی که اکنون در دسترس عموم است

ارسال شده توسط سحر زارع

مرداد 14, 1404

در مرداد 14, 1404

گوگل رسماً Gemini 2.5 Deep Think را راه‌اندازی کرده است. این نسخه جدیدی از مدل هوش مصنوعی گوگل است. این مدل برای استدلال عمیق‌تر و حل مسائل پیچیده طراحی شده است. Gemini 2.5 Deep Think ماه گذشته با کسب مدال طلا در المپیاد جهانی ریاضی (IMO) خبرساز شد. این اولین باری بود که یک مدل هوش مصنوعی به چنین موفقیتی دست می‌یافت.

با این حال، متاسفانه این همان مدل برنده مدال طلا نیست. طبق پست وبلاگ گوگل و گفته‌های لوگان کیلپاتریک، مدیر تولید در Google AI Studio، این نسخه “برنزی” و کم‌قدرت‌تر است.

همانطور که کیلپاتریک در شبکه اجتماعی X نوشت: “این یک نسخه‌ای از مدل طلای IMO ما است که سریع‌تر و برای استفاده روزمره بهینه‌تر شده است. ما همچنین مدل کامل طلای IMO را در اختیار گروهی از ریاضیدانان قرار می‌دهیم تا ارزش قابلیت‌های کامل آن را بسنجند.”

این مدل برنزی در حال حاضر از طریق اپلیکیشن موبایل Gemini در دسترس است. این مدل برای مشترکین گران‌ترین طرح هوش مصنوعی گوگل، یعنی AI Ultra، قابل استفاده است. هزینه این طرح 249.00 دلار در ماه است. البته یک تخفیف 3 ماهه برای مشترکین جدید در نظر گرفته شده که قیمت آن را به 124.99 دلار در ماه کاهش می‌دهد.

گوگل همچنین در پست وبلاگ خود اعلام کرد که Deep Think را یا به همراه و یا بدون ادغام ابزارها در هفته‌های آینده از طریق رابط برنامه‌نویسی کاربردی Gemini در اختیار “آزمایش‌کنندگان مورد اعتماد” قرار خواهد داد.

فهرست مطالب

1 چرا Deep Think اینقدر قدرتمند است؟
2 معیارهای عملکرد و موارد استفاده
3 Gemini 2.5 Deep Think در مقابل Gemini 2.5 Pro
4 این مدل، مدلِ برنده مدال طلا نیست، یک سطح پایین تر است
5 چگونه به Deep Think دسترسی پیدا کنیم؟
6 چرا این موضوع برای تصمیم‌گیرندگان فنی در شرکت‌ها مهم است؟

چرا Deep Think اینقدر قدرتمند است؟

Gemini 2.5 Deep Think بر پایه خانواده مدل‌های زبانی بزرگ Gemini ساخته شده است. این مدل قابلیت‌های جدیدی را برای استدلال در مسائل پیچیده اضافه می‌کند.

این مدل از تکنیک‌های “تفکر موازی” برای بررسی ایده‌های متعدد به صورت همزمان استفاده می‌کند. همچنین شامل یادگیری تقویتی است تا توانایی حل مسئله گام به گام خود را با گذشت زمان تقویت کند.

این مدل برای کاربردهایی طراحی شده است که از بررسی طولانی‌مدت بهره می‌برند. این موارد شامل آزمون حدس‌های ریاضی، تحقیقات علمی، طراحی الگوریتم و وظایف خلاقانه مانند بهبود کد و طراحی است.

آزمایش‌کنندگان اولیه، از جمله ریاضیدانانی مانند میشل ون گارل، از آن برای بررسی مسائل حل‌نشده و تولید اثبات‌های احتمالی استفاده کرده‌اند.

ایتان مولیک، کاربر و متخصص هوش مصنوعی و استاد مدرسه کسب‌وکار وارتون در دانشگاه پنسیلوانیا، در X پستی منتشر کرد. او نوشت که این مدل توانسته از دستوری که او اغلب برای آزمایش قابلیت‌های مدل‌های جدید استفاده می‌کند، یک گرافیک سه‌بعدی بسازد. این اولین باری بود که یک مدل هوش مصنوعی چنین کاری را انجام می‌داد. دستوری که مولیک استفاده کرد به شرح زیر است:

“چیزی بساز که بتوانم در p5js جای‌گذاری کنم و با هوشمندی خود در خلق یک پنل کنترل سفینه فضایی در آینده‌ای دور من را شگفت‌زده کند.”

معیارهای عملکرد و موارد استفاده

گوگل چندین حوزه کاربردی کلیدی را برای Deep Think برجسته کرده است:

ریاضیات و علوم: این مدل می‌تواند استدلال برای اثبات‌های پیچیده را شبیه‌سازی کند، حدس‌ها را بررسی کند و متون علمی متراکم را تفسیر کند.
برنامه‌نویسی و طراحی الگوریتم: در کارهایی که شامل بده‌بستان‌های عملکردی، پیچیدگی زمانی و منطق چندمرحله‌ای هستند، به خوبی عمل می‌کند.
توسعه خلاقانه: در سناریوهای طراحی مانند هنر وکسل یا ساخت رابط کاربری، Deep Think بهبود دوره ای و افزایش جزئیات قوی‌تری از خود نشان می‌دهد.

همچنین در ارزیابی‌های معیاری مانند LiveCodeBench V6 (برای توانایی برنامه‌نویسی) و Humanity’s Last Exam (شامل ریاضیات، علوم و استدلال) عملکرد بالایی دارد.

این مدل در برخی از دسته‌ها (استدلال و دانش، تولید کد و ریاضیات IMO 2025) با حاشیه دو رقمی از Gemini 2.5 Pro و مدل‌های رقیب مانند GPT-4 از OpenAI و Grok 4 از xAI پیشی گرفت.

Gemini 2.5 Deep Think در مقابل Gemini 2.5 Pro

هرچند هر دو مدل Deep Think و Gemini 2.5 Pro بخشی از خانواده مدل Gemini 2.5 هستند، اما گوگل Deep Think را به عنوان نسخه‌ای تواناتر و با مهارت تحلیلی بیشتر معرفی می‌کند. این ویژگی به ویژه در استدلال پیچیده و حل مسئله چندمرحله‌ای برجسته است.

این بهبود از استفاده از تکنیک‌های تفکر موازی و یادگیری تقویتی ناشی می‌شود. این تکنیک‌ها به مدل امکان می‌دهند تا تعمق شناختی عمیق‌تری را شبیه‌سازی کند.

در بیانیه رسمی خود، گوگل Deep Think را در مدیریت دستورات دقیق، بررسی فرضیه‌های متعدد و تولید خروجی‌های دقیق‌تر، بهتر توصیف می‌کند. این موضوع با مقایسه‌های همزمان در تولید هنر وکسل تأیید می‌شود. در این مقایسه‌ها، Deep Think بافت، دقت ساختاری و تنوع ترکیبی بیشتری نسبت به 2.5 Pro اضافه می‌کند.

این پیشرفت‌ها فقط بصری یا حکایتی نیستند. گوگل گزارش می‌دهد که Deep Think در چندین معیار فنی مرتبط با استدلال، تولید کد و تخصص بین‌حوزه‌ای از Gemini 2.5 Pro بهتر عمل می‌کند. با این حال، این مزایا با بده‌بستان‌هایی در سرعت پاسخ‌دهی و پذیرش دستورات همراه است.

گوگل اشاره می‌کند که نرخ رد دستورات بالاتر در Deep Think، موضوعی است که به طور فعال در حال بررسی آن هستند. این امر ممکن است انعطاف‌پذیری آن را در مدیریت پرسش‌های مبهم یا غیررسمی در مقایسه با 2.5 Pro محدود کند. در مقابل، 2.5 Pro برای کاربرانی که سرعت و پاسخ‌دهی را اولویت می‌دهند، به ویژه برای کارهای سبک‌تر و عمومی، مناسب‌تر است.

این تمایز به کاربران امکان می‌دهد بر اساس اولویت‌های خود انتخاب کنند:

2.5 Pro برای سرعت و روان بودن، یا Deep Think برای دقت و تفکر عمیق.

این مدل، مدلِ برنده مدال طلا نیست، یک سطح پایین تر است

در ماه ژوئیه، Google DeepMind زمانی خبرساز شد که نسخه پیشرفته‌تری از مدل Gemini Deep Think رسما مدال طلا را در IMO 2025 به دست آورد. IMO معتبرترین رقابت ریاضی جهان برای دانش‌آموزان دبیرستانی است.

این سیستم پنج از شش مسئله چالش‌برانگیز را حل کرد و اولین هوش مصنوعی بود که امتیاز سطح طلا را از IMO دریافت کرد.

دمیس حسابیس، مدیرعامل Google DeepMind، این موفقیت را در X اعلام کرد. او اظهار داشت که این مدل مسائل را به صورت کامل و با زبان طبیعی حل کرده است. برای حل آن‌ها نیازی به ترجمه به نحو برنامه‌نویسی رسمی نبود.

هیئت IMO تأیید کرد که این مدل 35 از 42 امتیاز ممکن را کسب کرده است، که بسیار بالاتر از حد نصاب طلا بود. راه‌حل‌های Gemini 2.5 Deep Think توسط رئیس مسابقات، گرگور دولینار، به عنوان راه‌حل‌های واضح، دقیق و در بسیاری از موارد قابل فهم‌تر از راه‌حل‌های شرکت‌کنندگان انسانی توصیف شد.

با این حال، Gemini 2.5 Deep Think که برای کاربران منتشر شده است، همان مدل مسابقاتی نیست. بلکه نسخه‌ای با عملکرد پایین‌تر، اما ظاهراً سریع‌تر است.

چگونه به Deep Think دسترسی پیدا کنیم؟

در حال حاضر، Gemini 2.5 Deep Think به صورت انحصاری در اپلیکیشن موبایل گوگل Gemini برای iOS و اندروید در دسترس است. این مدل برای کاربرانی قابل استفاده است که از طرح Google AI Ultra، که بخشی از اشتراک Google One است، استفاده می‌کنند. قیمت‌گذاری به شرح زیر است:

پیشنهاد ویژه: 124.99 دلار در ماه برای 3 ماه، سپس قیمت به …
نرخ استاندارد: 249.99 دلار در ماه
ویژگی‌های شامل شده: 30 ترابایت فضای ذخیره‌سازی، دسترسی به اپلیکیشن Gemini با Deep Think و Veo 3، و همچنین ابزارهایی مانند Flow، Whisk و 12500 اعتبار هوش مصنوعی ماهانه.

مشترکین می‌توانند با انتخاب مدل 2.5 Pro و روشن کردن گزینه “Deep Think” در اپلیکیشن Gemini، این مدل را فعال کنند.

این مدل از تعداد ثابتی دستور در روز پشتیبانی می‌کند و با قابلیت‌هایی مانند اجرای کد و جستجوی گوگل یکپارچه شده است. این مدل همچنین خروجی‌های طولانی‌تر و با جزئیات بیشتری نسبت به نسخه‌های استاندارد تولید می‌کند.

طرح ارزان‌تر Google AI Pro با قیمت 19.99 دلار در ماه (با دوره آزمایشی رایگان)، دسترسی به Deep Think را شامل نمی‌شود. سرویس رایگان Gemini AI نیز این قابلیت را ندارد.

چرا این موضوع برای تصمیم‌گیرندگان فنی در شرکت‌ها مهم است؟

Gemini 2.5 Deep Think نشان‌دهنده کاربرد عملی یک نقطه عطف تحقیقاتی بزرگ است.

این مدل به شرکت‌ها و سازمان‌ها اجازه می‌دهد از یک مدل برنده مدال المپیاد ریاضی بهره ببرند و آن را به کارمندان خود اضافه کنند، هرچند در حال حاضر فقط از طریق یک حساب کاربری فردی همچین امکانی وجود دارد.

برای محققانی که مدل کامل در سطح IMO را دریافت می‌کنند، این مدل نگاهی به آینده هوش مصنوعی مشارکتی در ریاضیات ارائه می‌دهد. برای مشترکین طرح Ultra، Deep Think یک گام قدرتمند به سوی کمک هوش مصنوعی تواناتر و آگاه به زمینه است که اکنون در کف دست آنها قرار دارد.

منبع: https://venturebeat.com