مسابقات هوش مصنوعی دیپمایند در المپیاد ریاضی
دستاورد مدل DeepThink در المپیاد ریاضی یک نقطه عطف تاریخی برای توانایی استدلال هوش مصنوعی و گامی مهم در مسیر AGI محسوب میشود. با این حال، همانطور که ناکامی در حل کامل مسئله ۶ نشان داد، هوش مصنوعی هنوز در مواجهه با چالشهایی که نیازمند انتزاع عمیق و تفکر چندوجهی انسانی هستند، ضعف دارد، هرچند DeepMind امیدوار است سال آینده نمره کامل را کسب کند.
گوگل دیپمایند (DeepMind) با هدف دستیابی به هوش مصنوعی همگانی (AGI)، مدل هوش مصنوعی خود به نام دیپ تینک DeepThink (نسخهای از جمینای) را در المپیاد جهانی ریاضی (IMO) در استرالیا به رقابت فرستاد.
این رقابت در میان ۶۳۰ نابغه جوان ریاضی برگزار شد. مدیرعامل دیپمایند، هدف نهایی از این کار را برداشتن گامی به سوی هوش مصنوعی همگانی AGI بیان کرد و آن را از بزرگترین فناوری هایی دانست که بشریت تاکنون اختراع کرده است.
این مسابقات نه تنها اندازه توان انسان را نمایش می دهد، بلکه کاستی های بنیادین ماشینها در برنامهریزی های پیچیده را نیز آشکار میسازند.
هدف: فتح قلمرو هوش مصنوعی همگانی AGI
هدف اصلی گوگل فراتر از صرفاً شکست دادن نوجوانان باهوش است و ایده رقابت مستقیم با انسان را رد میکند.
هدف گوگل بیشتر روی تست هوش عمومی مصنوعی (AGI) بود؛ جایی که در آن هوش مصنوعی بتواند مانند یک انسان فکر کرده و انواع وظایف را انجام دهد و موفقیت در مسابقاتی مانند المپیاد ریاضی میتواند اثباتی بر بهبود مستمر سیستمهای گوگل باشد.
یکی از شرکتکنندگان، تایگر ژانگ ۱۷ ساله، دیدگاه متفاوتی داشت؛ او از کودکی با این واقعیت بزرگ شده بود که ماشینها میتوانند در شطرنج (Deep Blue) و بازی Go (AlphaGo) از انسانها بهتر عمل کنند و معتقد بود که «مغزهای کامپیوتری بسیار متفاوت کار میکنند» و در واقع، آنها «در یک بازی مشابه بازی نمیکنند».
ماهیت مسائل ریاضی و محدودیتهای ذاتی LLM
مسائل المپیاد جهانی ریاضی به گونهای طراحی شدهاند که نیازمند خلاقیت و زنجیرههای طولانی استدلال هستند و ممکن است تا ۱۰۰ مرحله استدلال نیاز داشته باشند، در حالی که مسائل دبیرستان تنها چند گام نیاز دارند.
با وجود این تصور که سیستمهای هوش مصنوعی باید در ریاضیات خوب باشند، جونهیوک جونگ، مدالآور طلای المپیاد ریاضی IMO، وضعیت مدلهای زبانی بزرگ (LLM) در ریاضیات را به «درخواست از ماهی برای بالا رفتن از درخت» تشبیه کرد.
این ضعف به اساس کارکرد LLMها برمیگردد؛ آنها صرفاً برای حدس زدن توکن بعدی بر اساس احتمال دنبال شدن کلمات آموزش دیدهاند، و اینکه آیا پاسخ نهایی با قضایای ریاضی سازگار است یا خیر، برای فرآیند تصمیمگیری اساسی آنها نامرتبط است.
استراتژیهای تقویت استدلال
محققان برای غلبه بر ضعفهای ریاضی و استدلال، به روش «یادگیری تقویتی» روی آوردند؛ این روش شامل پاداش دادن به رفتارهای درست، تشخیص رفتارهای نادرست و تحلیل دادههای مورد نیاز برای بهبود است. طرفداران معتقدند که این روش میتواند پیشرفتهای تقریباً نامحدودی را در استدلال ایجاد کند.
چالش دیگری که باید حل میشد، یکطرفه بودن (unidirectionality) در LLMها بود؛ این سیستمها در بازگشت از یک مسیر اشتباه در استدلال، که برای حل مسائل پیچیده ضروری است، مشکل دارند.
گوگل برای رفع این مشکل، مفهوم «تفکر موازی» را معرفی کرد که به مدل اجازه میدهد چندین مسیر حل را به طور همزمان بررسی و بینشها را ادغام کند.
عملکرد DeepThink و ناکامی در فکر کردن
روز اول مسابقه برای DeepThink بسیار موفقیتآمیز بود؛ این مدل هر سه سؤال روز اول را درست پاسخ داد و نمره کاملی کسب کرد.
با این حال، روز دوم دشوارتر بود. مسئله ۶، که یک چالش ترکیبی بود، سختترین مسئله مسابقه شناخته شد و نیازمند فکر و خلاقیت بالا بود.
DeepMind هیچ امتیازی در مسئله ۶ کسب نکرد و محققان متوجه شدند که سیستم به جای ایجاد یک تصویر بصری از مسئله، «مستقیماً به یک پاسخ مشخص پرید و سپس سخت تلاش کرد تا آن را اثبات کند».
مدل ChatGPT نیز نتایج مشابهی داشت: نمرات کامل در پنج مسئله اول و صفر در مسئله ۶.
دستاورد مدال طلا و بحث تعمیمپذیری
DeepThink در نهایت در این رقابت مدال طلا را کسب کرد و در جایگاه ۲۷م، همردیف ۴۶ دانشآموز انسانی، قرار گرفت.
سباستین بوبک از OpenAI این دستاورد را به «لحظه فرود بر ماه» برای هوش مصنوعی تشبیه کرد.
اما همه موافق نبودند؛ ارنست دیویس، استاد علوم کامپیوتر در دانشگاه نیویورک، این مقایسه را «پوچ» خواند و استدلال کرد که مسائل المپیاد نوع بسیار خاصی از معما هستند که به راحتی به حوزههای دیگر، مانند توسعه الگوریتمهای جدید یا مدیریت چالشهای مهندسی، تعمیم نمییابند.
با این حال، همین رویکرد در برنامهنویسی کامپیوتری موفقیتآمیز بود؛ DeepMind در مسابقه ICPC مدال طلا کسب کرد و مسئلهای را حل کرد که هیچ تیم انسانی قادر به حل آن نبود.