مدال طلای المپیاد ریاضی در دست هوش مصنوعی: مدلی که اکنون در دسترس عموم است

گوگل رسماً Gemini 2.5 Deep Think را راهاندازی کرده است. این نسخه جدیدی از مدل هوش مصنوعی گوگل است. این مدل برای استدلال عمیقتر و حل مسائل پیچیده طراحی شده است. Gemini 2.5 Deep Think ماه گذشته با کسب مدال طلا در المپیاد جهانی ریاضی (IMO) خبرساز شد. این اولین باری بود که یک مدل هوش مصنوعی به چنین موفقیتی دست مییافت.
با این حال، متاسفانه این همان مدل برنده مدال طلا نیست. طبق پست وبلاگ گوگل و گفتههای لوگان کیلپاتریک، مدیر تولید در Google AI Studio، این نسخه “برنزی” و کمقدرتتر است.
همانطور که کیلپاتریک در شبکه اجتماعی X نوشت: “این یک نسخهای از مدل طلای IMO ما است که سریعتر و برای استفاده روزمره بهینهتر شده است. ما همچنین مدل کامل طلای IMO را در اختیار گروهی از ریاضیدانان قرار میدهیم تا ارزش قابلیتهای کامل آن را بسنجند.”
این مدل برنزی در حال حاضر از طریق اپلیکیشن موبایل Gemini در دسترس است. این مدل برای مشترکین گرانترین طرح هوش مصنوعی گوگل، یعنی AI Ultra، قابل استفاده است. هزینه این طرح 249.00 دلار در ماه است. البته یک تخفیف 3 ماهه برای مشترکین جدید در نظر گرفته شده که قیمت آن را به 124.99 دلار در ماه کاهش میدهد.
گوگل همچنین در پست وبلاگ خود اعلام کرد که Deep Think را یا به همراه و یا بدون ادغام ابزارها در هفتههای آینده از طریق رابط برنامهنویسی کاربردی Gemini در اختیار “آزمایشکنندگان مورد اعتماد” قرار خواهد داد.
فهرست مطالب
چرا Deep Think اینقدر قدرتمند است؟
Gemini 2.5 Deep Think بر پایه خانواده مدلهای زبانی بزرگ Gemini ساخته شده است. این مدل قابلیتهای جدیدی را برای استدلال در مسائل پیچیده اضافه میکند.
این مدل از تکنیکهای “تفکر موازی” برای بررسی ایدههای متعدد به صورت همزمان استفاده میکند. همچنین شامل یادگیری تقویتی است تا توانایی حل مسئله گام به گام خود را با گذشت زمان تقویت کند.
این مدل برای کاربردهایی طراحی شده است که از بررسی طولانیمدت بهره میبرند. این موارد شامل آزمون حدسهای ریاضی، تحقیقات علمی، طراحی الگوریتم و وظایف خلاقانه مانند بهبود کد و طراحی است.
آزمایشکنندگان اولیه، از جمله ریاضیدانانی مانند میشل ون گارل، از آن برای بررسی مسائل حلنشده و تولید اثباتهای احتمالی استفاده کردهاند.
ایتان مولیک، کاربر و متخصص هوش مصنوعی و استاد مدرسه کسبوکار وارتون در دانشگاه پنسیلوانیا، در X پستی منتشر کرد. او نوشت که این مدل توانسته از دستوری که او اغلب برای آزمایش قابلیتهای مدلهای جدید استفاده میکند، یک گرافیک سهبعدی بسازد. این اولین باری بود که یک مدل هوش مصنوعی چنین کاری را انجام میداد. دستوری که مولیک استفاده کرد به شرح زیر است:
“چیزی بساز که بتوانم در p5js جایگذاری کنم و با هوشمندی خود در خلق یک پنل کنترل سفینه فضایی در آیندهای دور من را شگفتزده کند.”
معیارهای عملکرد و موارد استفاده
گوگل چندین حوزه کاربردی کلیدی را برای Deep Think برجسته کرده است:
- ریاضیات و علوم: این مدل میتواند استدلال برای اثباتهای پیچیده را شبیهسازی کند، حدسها را بررسی کند و متون علمی متراکم را تفسیر کند.
- برنامهنویسی و طراحی الگوریتم: در کارهایی که شامل بدهبستانهای عملکردی، پیچیدگی زمانی و منطق چندمرحلهای هستند، به خوبی عمل میکند.
- توسعه خلاقانه: در سناریوهای طراحی مانند هنر وکسل یا ساخت رابط کاربری، Deep Think بهبود دوره ای و افزایش جزئیات قویتری از خود نشان میدهد.
همچنین در ارزیابیهای معیاری مانند LiveCodeBench V6 (برای توانایی برنامهنویسی) و Humanity’s Last Exam (شامل ریاضیات، علوم و استدلال) عملکرد بالایی دارد.
این مدل در برخی از دستهها (استدلال و دانش، تولید کد و ریاضیات IMO 2025) با حاشیه دو رقمی از Gemini 2.5 Pro و مدلهای رقیب مانند GPT-4 از OpenAI و Grok 4 از xAI پیشی گرفت.
Gemini 2.5 Deep Think در مقابل Gemini 2.5 Pro
هرچند هر دو مدل Deep Think و Gemini 2.5 Pro بخشی از خانواده مدل Gemini 2.5 هستند، اما گوگل Deep Think را به عنوان نسخهای تواناتر و با مهارت تحلیلی بیشتر معرفی میکند. این ویژگی به ویژه در استدلال پیچیده و حل مسئله چندمرحلهای برجسته است.
این بهبود از استفاده از تکنیکهای تفکر موازی و یادگیری تقویتی ناشی میشود. این تکنیکها به مدل امکان میدهند تا تعمق شناختی عمیقتری را شبیهسازی کند.
در بیانیه رسمی خود، گوگل Deep Think را در مدیریت دستورات دقیق، بررسی فرضیههای متعدد و تولید خروجیهای دقیقتر، بهتر توصیف میکند. این موضوع با مقایسههای همزمان در تولید هنر وکسل تأیید میشود. در این مقایسهها، Deep Think بافت، دقت ساختاری و تنوع ترکیبی بیشتری نسبت به 2.5 Pro اضافه میکند.
این پیشرفتها فقط بصری یا حکایتی نیستند. گوگل گزارش میدهد که Deep Think در چندین معیار فنی مرتبط با استدلال، تولید کد و تخصص بینحوزهای از Gemini 2.5 Pro بهتر عمل میکند. با این حال، این مزایا با بدهبستانهایی در سرعت پاسخدهی و پذیرش دستورات همراه است.
گوگل اشاره میکند که نرخ رد دستورات بالاتر در Deep Think، موضوعی است که به طور فعال در حال بررسی آن هستند. این امر ممکن است انعطافپذیری آن را در مدیریت پرسشهای مبهم یا غیررسمی در مقایسه با 2.5 Pro محدود کند. در مقابل، 2.5 Pro برای کاربرانی که سرعت و پاسخدهی را اولویت میدهند، به ویژه برای کارهای سبکتر و عمومی، مناسبتر است.
این تمایز به کاربران امکان میدهد بر اساس اولویتهای خود انتخاب کنند:
2.5 Pro برای سرعت و روان بودن، یا Deep Think برای دقت و تفکر عمیق.
این مدل، مدلِ برنده مدال طلا نیست، یک سطح پایین تر است
در ماه ژوئیه، Google DeepMind زمانی خبرساز شد که نسخه پیشرفتهتری از مدل Gemini Deep Think رسما مدال طلا را در IMO 2025 به دست آورد. IMO معتبرترین رقابت ریاضی جهان برای دانشآموزان دبیرستانی است.
این سیستم پنج از شش مسئله چالشبرانگیز را حل کرد و اولین هوش مصنوعی بود که امتیاز سطح طلا را از IMO دریافت کرد.
دمیس حسابیس، مدیرعامل Google DeepMind، این موفقیت را در X اعلام کرد. او اظهار داشت که این مدل مسائل را به صورت کامل و با زبان طبیعی حل کرده است. برای حل آنها نیازی به ترجمه به نحو برنامهنویسی رسمی نبود.
هیئت IMO تأیید کرد که این مدل 35 از 42 امتیاز ممکن را کسب کرده است، که بسیار بالاتر از حد نصاب طلا بود. راهحلهای Gemini 2.5 Deep Think توسط رئیس مسابقات، گرگور دولینار، به عنوان راهحلهای واضح، دقیق و در بسیاری از موارد قابل فهمتر از راهحلهای شرکتکنندگان انسانی توصیف شد.
با این حال، Gemini 2.5 Deep Think که برای کاربران منتشر شده است، همان مدل مسابقاتی نیست. بلکه نسخهای با عملکرد پایینتر، اما ظاهراً سریعتر است.
چگونه به Deep Think دسترسی پیدا کنیم؟
در حال حاضر، Gemini 2.5 Deep Think به صورت انحصاری در اپلیکیشن موبایل گوگل Gemini برای iOS و اندروید در دسترس است. این مدل برای کاربرانی قابل استفاده است که از طرح Google AI Ultra، که بخشی از اشتراک Google One است، استفاده میکنند. قیمتگذاری به شرح زیر است:
- پیشنهاد ویژه: 124.99 دلار در ماه برای 3 ماه، سپس قیمت به …
- نرخ استاندارد: 249.99 دلار در ماه
- ویژگیهای شامل شده: 30 ترابایت فضای ذخیرهسازی، دسترسی به اپلیکیشن Gemini با Deep Think و Veo 3، و همچنین ابزارهایی مانند Flow، Whisk و 12500 اعتبار هوش مصنوعی ماهانه.
مشترکین میتوانند با انتخاب مدل 2.5 Pro و روشن کردن گزینه “Deep Think” در اپلیکیشن Gemini، این مدل را فعال کنند.
این مدل از تعداد ثابتی دستور در روز پشتیبانی میکند و با قابلیتهایی مانند اجرای کد و جستجوی گوگل یکپارچه شده است. این مدل همچنین خروجیهای طولانیتر و با جزئیات بیشتری نسبت به نسخههای استاندارد تولید میکند.
طرح ارزانتر Google AI Pro با قیمت 19.99 دلار در ماه (با دوره آزمایشی رایگان)، دسترسی به Deep Think را شامل نمیشود. سرویس رایگان Gemini AI نیز این قابلیت را ندارد.
چرا این موضوع برای تصمیمگیرندگان فنی در شرکتها مهم است؟
Gemini 2.5 Deep Think نشاندهنده کاربرد عملی یک نقطه عطف تحقیقاتی بزرگ است.
این مدل به شرکتها و سازمانها اجازه میدهد از یک مدل برنده مدال المپیاد ریاضی بهره ببرند و آن را به کارمندان خود اضافه کنند، هرچند در حال حاضر فقط از طریق یک حساب کاربری فردی همچین امکانی وجود دارد.
برای محققانی که مدل کامل در سطح IMO را دریافت میکنند، این مدل نگاهی به آینده هوش مصنوعی مشارکتی در ریاضیات ارائه میدهد. برای مشترکین طرح Ultra، Deep Think یک گام قدرتمند به سوی کمک هوش مصنوعی تواناتر و آگاه به زمینه است که اکنون در کف دست آنها قرار دارد.
منبع: https://venturebeat.com

































