مسابقات هوش مصنوعی دیپ‌مایند در المپیاد ریاضی

دستاورد مدل DeepThink در المپیاد ریاضی یک نقطه عطف تاریخی برای توانایی استدلال هوش مصنوعی و گامی مهم در مسیر AGI محسوب می‌شود. با این حال، همانطور که ناکامی در حل کامل مسئله ۶ نشان داد، هوش مصنوعی هنوز در مواجهه با چالش‌هایی که نیازمند انتزاع عمیق و تفکر چندوجهی انسانی هستند، ضعف دارد، هرچند DeepMind امیدوار است سال آینده نمره کامل را کسب کند.

2025/10/18 #2217

گوگل دیپ‌مایند (DeepMind) با هدف دستیابی به هوش مصنوعی همگانی (AGI)، مدل هوش مصنوعی خود به نام دیپ تینک DeepThink (نسخه‌ای از جمینای) را در المپیاد جهانی ریاضی (IMO) در استرالیا به رقابت فرستاد.

این رقابت در میان ۶۳۰ نابغه جوان ریاضی برگزار شد. مدیرعامل دیپ‌مایند، هدف نهایی از این کار را برداشتن گامی به سوی هوش مصنوعی همگانی AGI بیان کرد و آن را از بزرگترین فناوری هایی دانست که بشریت تاکنون اختراع کرده است.

این مسابقات نه تنها اندازه توان انسان را نمایش می دهد، بلکه کاستی های بنیادین ماشین‌ها در برنامه‌ریزی های پیچیده را نیز آشکار می‌سازند.

هدف: فتح قلمرو هوش مصنوعی همگانی AGI

هدف اصلی گوگل فراتر از صرفاً شکست دادن نوجوانان باهوش است و ایده رقابت مستقیم با انسان را رد می‌کند.

هدف گوگل بیشتر روی تست هوش عمومی مصنوعی (AGI) بود؛ جایی که در آن هوش مصنوعی بتواند مانند یک انسان فکر کرده و انواع وظایف را انجام دهد و موفقیت در مسابقاتی مانند المپیاد ریاضی می‌تواند اثباتی بر بهبود مستمر سیستم‌های گوگل باشد.

یکی از شرکت‌کنندگان، تایگر ژانگ ۱۷ ساله، دیدگاه متفاوتی داشت؛ او از کودکی با این واقعیت بزرگ شده بود که ماشین‌ها می‌توانند در شطرنج (Deep Blue) و بازی Go (AlphaGo) از انسان‌ها بهتر عمل کنند و معتقد بود که «مغزهای کامپیوتری بسیار متفاوت کار می‌کنند» و در واقع، آن‌ها «در یک بازی مشابه بازی نمی‌کنند».

ماهیت مسائل ریاضی و محدودیت‌های ذاتی LLM

مسائل المپیاد جهانی ریاضی به گونه‌ای طراحی شده‌اند که نیازمند خلاقیت و زنجیره‌های طولانی استدلال هستند و ممکن است تا ۱۰۰ مرحله استدلال نیاز داشته باشند، در حالی که مسائل دبیرستان تنها چند گام نیاز دارند.

با وجود این تصور که سیستم‌های هوش مصنوعی باید در ریاضیات خوب باشند، جون‌هیوک جونگ، مدال‌آور طلای المپیاد ریاضی IMO، وضعیت مدل‌های زبانی بزرگ (LLM) در ریاضیات را به «درخواست از ماهی برای بالا رفتن از درخت» تشبیه کرد.

این ضعف به اساس کارکرد LLMها برمی‌گردد؛ آن‌ها صرفاً برای حدس زدن توکن بعدی بر اساس احتمال دنبال شدن کلمات آموزش دیده‌اند، و اینکه آیا پاسخ نهایی با قضایای ریاضی سازگار است یا خیر، برای فرآیند تصمیم‌گیری اساسی آن‌ها نامرتبط است.

استراتژی‌های تقویت استدلال

محققان برای غلبه بر ضعف‌های ریاضی و استدلال، به روش «یادگیری تقویتی» روی آوردند؛ این روش شامل پاداش دادن به رفتارهای درست، تشخیص رفتارهای نادرست و تحلیل داده‌های مورد نیاز برای بهبود است. طرفداران معتقدند که این روش می‌تواند پیشرفت‌های تقریباً نامحدودی را در استدلال ایجاد کند.

چالش دیگری که باید حل می‌شد، یک‌طرفه بودن (unidirectionality) در LLMها بود؛ این سیستم‌ها در بازگشت از یک مسیر اشتباه در استدلال، که برای حل مسائل پیچیده ضروری است، مشکل دارند.

گوگل برای رفع این مشکل، مفهوم «تفکر موازی» را معرفی کرد که به مدل اجازه می‌دهد چندین مسیر حل را به طور همزمان بررسی و بینش‌ها را ادغام کند.

عملکرد DeepThink و ناکامی در فکر کردن

روز اول مسابقه برای DeepThink بسیار موفقیت‌آمیز بود؛ این مدل هر سه سؤال روز اول را درست پاسخ داد و نمره کاملی کسب کرد.

با این حال، روز دوم دشوارتر بود. مسئله ۶، که یک چالش ترکیبی بود، سخت‌ترین مسئله مسابقه شناخته شد و نیازمند فکر و خلاقیت بالا بود.

DeepMind هیچ امتیازی در مسئله ۶ کسب نکرد و محققان متوجه شدند که سیستم به جای ایجاد یک تصویر بصری از مسئله، «مستقیماً به یک پاسخ مشخص پرید و سپس سخت تلاش کرد تا آن را اثبات کند».

مدل ChatGPT نیز نتایج مشابهی داشت: نمرات کامل در پنج مسئله اول و صفر در مسئله ۶.

دستاورد مدال طلا و بحث تعمیم‌پذیری

DeepThink در نهایت در این رقابت مدال طلا را کسب کرد و در جایگاه ۲۷م، هم‌ردیف ۴۶ دانش‌آموز انسانی، قرار گرفت.

سباستین بوبک از OpenAI این دستاورد را به «لحظه فرود بر ماه» برای هوش مصنوعی تشبیه کرد.

اما همه موافق نبودند؛ ارنست دیویس، استاد علوم کامپیوتر در دانشگاه نیویورک، این مقایسه را «پوچ» خواند و استدلال کرد که مسائل المپیاد نوع بسیار خاصی از معما هستند که به راحتی به حوزه‌های دیگر، مانند توسعه الگوریتم‌های جدید یا مدیریت چالش‌های مهندسی، تعمیم نمی‌یابند.

با این حال، همین رویکرد در برنامه‌نویسی کامپیوتری موفقیت‌آمیز بود؛ DeepMind در مسابقه ICPC مدال طلا کسب کرد و مسئله‌ای را حل کرد که هیچ تیم انسانی قادر به حل آن نبود.