خانه » مقالات » آیا پیشرفت هوش مصنوعی در حال کند شدن است؟
آیا پیشرفت هوش مصنوعی در حال کند شدن است؟
نگاهی به روندهای فناورانه اخیر و ادعاهای موجود
سه شنبه, ۴ دی ۱۴۰۳
زمان تقریبی مطالعه ۷۱ دقیقه
چند روز پیش، ایلان ماسک در گفت‌وگویی زنده اعلام کرد که منابع داده‌های واقعی جهان برای آموزش مدل‌های هوش مصنوعی به پایان رسیده است. او گفت: «ما عملاً تمام دانش جمعی بشر را در آموزش هوش مصنوعی مصرف کرده‌ایم». این ادعا، که توسط متخصصانی همچون ایلیا ساتسکِوِر نیز تأیید شده، پرسشی بنیادین را مطرح می‌کند: آیا پیشرفت هوش مصنوعی به بن‌بست رسیده است؟

مقدمه مترجم

چند روز پیش، ایلان ماسک در گفت‌وگویی زنده اعلام کرد که منابع داده‌های واقعی جهان برای آموزش مدل‌های هوش مصنوعی به پایان رسیده است. او گفت:

«ما عملاً تمام دانش جمعی بشر را در آموزش هوش مصنوعی مصرف کرده‌ایم».

این ادعا که توسط متخصصانی همچون ایلیا ساتسکِوِر نیز تأیید شده، پرسشی بنیادین را مطرح می‌کند: آیا پیشرفت هوش مصنوعی به بن‌بست رسیده است؟

مدل‌های بزرگ هوش مصنوعی، مانند GPT-4، بر پایه حجم عظیمی از داده‌های متنی و چندرسانه‌ای آموزش دیده‌اند. با این حال، تقریباً همه منابع ارزشمند داده‌ای جهان در این فرآیند مصرف شده و همین مسئله باعث شده است آینده توسعه این مدل‌ها در هاله‌ای از ابهام قرار گیرد. برخی بر این باورند که استفاده از داده‌های مصنوعی – داده‌هایی که توسط خود مدل‌ها تولید می‌شود – می‌تواند راه‌حلی برای این محدودیت باشد. اما این رویکرد نیز خطراتی همچون کاهش تنوع و دقت مدل‌ها را به همراه دارد.

راهکار دیگری که اخیراً مورد توجه قرار گرفته است، گسترش توان استنتاج[۱] است. در این رویکرد، به جای تمرکز بر افزایش داده‌ها یا ساخت مدل‌های عظیم‌تر، تلاش می‌شود تا با بهینه‌سازی محاسبات هنگام استفاده از مدل، عملکرد آن بهبود یابد. این تغییر رویکرد نشان‌دهنده تحولی اساسی در مسیر پیشرفت هوش مصنوعی است.

یادداشتی که در ادامه می‌خوانید، نوشته آرویند نارایانان و سایاش کاپور از دانشگاه پرینستون است. آن‌ها با تحلیل روندهای اخیر هوش مصنوعی، این پرسش را مطرح کرده‌اند که آیا پیشرفت در این فناوری واقعاً متوقف شده یا صرفاً وارد مسیر تازه‌ای شده است.

درباره نویسندگان و کتاب آن‌ها

آرویند نارایانان، استاد علوم کامپیوتر و مدیر مرکز سیاست فناوری اطلاعات دانشگاه پرینستون و سایاش کاپور، دانشجوی دکترای علوم کامپیوتر در همین دانشگاه، از پژوهشگران پیشرو در حوزه تأثیرات اجتماعی و اخلاق هوش مصنوعی هستند.

آن‌ها در کتاب خود با عنوان «روغنِ مارِ هوش مصنوعی؛ آنچه هوش مصنوعی می‌تواند انجام دهد، نمی‌تواند انجام دهد و چگونه این تفاوت را تشخیص دهیم[۲]» به بررسی علمی توانایی‌ها و محدودیت‌های هوش مصنوعی پرداخته‌اند. این کتاب که در سال ۲۰۲۴ منتشر شد، تلاش می‌کند مرز بین واقعیات و افسانه‌های پیرامون هوش مصنوعی را روشن کند. نویسندگان با نقد ادعاهای اغراق‌آمیز در مورد توانایی‌های این فناوری، به خطرات ناشی از استفاده نادرست آن در حوزه‌هایی مانند آموزش، پزشکی، بانکداری و عدالت اجتماعی اشاره کرده‌اند.

این یادداشت نیز بخشی از مجموعه AI Snake Oil است که با هدف تحلیل علمی و انتقادی تحولات اخیر هوش مصنوعی منتشر می‌شود.

این کتاب که در سال ۲۰۲۴ منتشر شد، تلاش می‌کند مرز بین واقعیات و افسانه‌های پیرامون هوش مصنوعی را روشن کند. نویسندگان با نقد ادعاهای اغراق‌آمیز در مورد توانایی‌های این فناوری، به خطرات ناشی از استفاده نادرست آن در حوزه‌هایی مانند آموزش، پزشکی، بانکداری و عدالت اجتماعی اشاره کرده‌اند.

آیا پیشرفت هوش مصنوعی در حال کند شدن است؟

پس از انتشار مدل GPT-4 در مارس ۲۰۲۳، روایت غالب در دنیای فناوری این بود که اگر ابعاد مدل‌های هوش مصنوعی را مرتباً بزرگ‌تر (مقیاس‌پذیری) کنیم، در نهایت به هوش مصنوعی عمومی[۳] و حتی ابرهوش[۴] خواهیم رسید. اما آن پیش‌بینی‌های افراطی به‌تدریج رنگ باخت. با این وجود تا حدود یک ماه پیش، باور غالب در صنعت هوش مصنوعی همچنان بر این بود که روند «مقیاس‌پذیری[۵]» مدل‌ها برای مدتی ادامه خواهد یافت و مسیر پیشرفت به همان شکل قبلی پیش می‌رود.

سپس سه گزارش پیاپی در رسانه‌های The Information و Reuters و Bloomberg منتشر شد و نشان داد که سه شرکت پیشروی هوش مصنوعی — یعنی اوپن‌ای‌آی[۶]، آنتروپیک[۷]، و گوگل (جمینای)[۸] — در توسعه‌ی مدل‌های نسل بعدی خود دچار مشکلات جدی شده‌اند. در نتیجه، بسیاری از افراد مؤثر در این حوزه، از جمله ایلیا ساتسکِوِر[۹] (که یکی از مطرح‌ترین طرفداران ایدۀ مقیاس‌پذیری مداوم مدل‌ها بود) ناگهان تغییر موضع دادند:

«دهۀ ۲۰۱۰ دوران «مقیاس‌پذیری مدل» بود، اما حالا به عصر هیجان و اکتشاف برگشته‌ایم. همه به‌دنبال چیز جدیدی هستند.» سوتسکِوِر می‌گوید: «مقیاس‌پذیری چیز درست حالا مهم‌تر از همیشه است.» (رویترز[۱۰])

بر اساس روایت تازه، دیگر دوران گسترش ابعاد مدل‌ها به سر آمده و در عوض صحبت از «گسترش توان استنتاج» (Inference Scaling) یا همان «استفاده از توان محاسباتی بیشتر حین اجرای مدل» داغ شده است. در این رویکرد، هنگام استفاده از مدل ـ مثلاً برای پاسخ دادن به یک سؤال ـ سیستم به‌طور مکرر «فکر می‌کند» و زمان محاسباتی بیشتری صرف می‌کند تا پاسخ بهتری بیابد.

در این میان، آنچه بسیاری از ناظران را سردرگم کرده، این است که آیا واقعاً روند رشد توانایی‌های هوش مصنوعی کند شده یا نه. در این نوشتار، شواهد مربوط به این پرسش را بررسی کرده و به چهار نکته‌ی اساسی می‌پردازیم:

  1. هنوز زود است که مرگ مقیاس‌پذیری مدل را اعلام کنیم.
  2. چه گسترش مدل ادامه پیدا کند و چه نه، چرخش ناگهانی رهبران صنعت در این موضوع نشان می‌دهد که به پیش‌بینی‌های آنان چندان هم نباید اعتماد کرد. آن‌ها در بهترین حالت به‌اندازه‌ی دیگران از آینده آگاه‌اند و روایت‌هایشان به‌شدت تحت تأثیر منافع سازمانی و شخصی خود است.
  3. گسترش توان استنتاج مفهومی واقعی است و احتمالاً در کوتاه‌مدت می‌تواند باعث جهش‌های چشم‌گیر در برخی حوزه‌ها شود. اما بعید است که این روند در همه‌ی زمینه‌ها روندی هموار و قابل پیش‌بینی داشته باشد.
  4. رابطه‌ی پیشرفت در توانایی‌های مدل با تأثیرات اقتصادی و اجتماعی آن بسیار ضعیف است. سرعت توسعه‌ی محصول و نرخ پذیرش در جامعه محدودیت‌های اصلی هستند، نه توانایی ذاتی مدل‌های هوش مصنوعی.

آیا واقعاً دوران گسترش ابعاد مدل‌ها به پایان رسیده است؟

واقعیت این است که هیچ اطلاعات جدید مهمی در هفته‌ها یا ماه‌های اخیر منتشر نشده که بخواهد این «تغییر جو» ناگهانی را توجیه کند. پیش از این نیز در خبرنامهمان گفته بودیم موانع قابل توجهی بر سر راه گسترش بی‌پایان مدل‌ها وجود دارد و همان زمان هم هشدار داده بودیم که نباید بیش‌ازحد درباره‌ی مقیاس‌پذیری خوش‌بین بود. حالا نیز باید بگوییم نباید در دام بدبینی افراطی افتاد.

با ظهور مدل‌های کلاس GPT-4، مشخص شد که این مدل‌ها عملاً از تمام داده‌های متنی شناخته‌شده بهره گرفته‌اند. از همان ابتدا می‌دانستیم برای ادامه‌ی روند گسترش مدل، قطعاً ایده‌های تازه‌ای لازم است. بنابراین تا زمانی که شواهدی نبینیم مبنی بر این‌که ایده‌های گوناگون امتحان و همه شکست خورده‌اند، درست نیست نتیجه بگیریم که دیگر هیچ امیدی به پیش‌برد «گسترش ابعاد مدل» وجود ندارد.

برای نمونه، یکی از ایده‌های ممکن این است که اگر مدل‌های چندرسانه‌ای[۱۱] بتوانند ویدیوهای یوتیوب — ویدیوهای واقعی، نه صرفاً متن پیاده‌سازی‌شده از آن‌ها — را در داده‌های آموزشی خود بگنجانند، شاید توانایی‌های جدیدی آزاد شود. ممکن هم هست چنین کاری کمکی نکند، اما تا زمانی که کسی آن را امتحان نکرده، نمی‌توانیم پیش‌داوری کنیم. به‌علاوه، احتمالاً فقط گوگل می‌تواند چنین آزمایشی انجام دهد، چون غیرممکن به‌نظر می‌رسد به رقبایش مجوز دسترسی گسترده به داده‌های یوتیوب را بدهد.[۱۲]

بنابراین تا زمانی که شواهدی نبینیم مبنی بر این‌که ایده‌های گوناگون امتحان و همه شکست خورده‌اند، درست نیست نتیجه بگیریم که دیگر هیچ امیدی به پیش‌برد «گسترش ابعاد مدل» وجود ندارد.

اما اگر تردیدها همچنان این‌قدر زیاد است، پس چرا روایت غالب به‌یک‌باره عوض شد؟ دلیل اول این است که حدود دو سال از پایان آموزش GPT-4 می‌گذرد و دیگر سخت می‌شود گفت «مدل‌های نسل بعدی فقط کمی بیشتر زمان می‌خواهند.» دلیل دوم هم این‌که وقتی یک شرکت بپذیرد مشکلی دارد، شرکت‌های دیگر هم راحت‌تر می‌توانند این واقعیت را اعلام کنند و «سد انکار» را بشکنند. دلیل سوم، ورود مدل «استدلالی» «o1» از سوی اوپن‌ای‌آی است: حالا شرکت‌ها می‌توانند به‌جای این‌که بگویند «در گسترش مدل به بن‌بست خورده‌ایم»، بگویند «می‌خواهیم تمرکز را بگذاریم روی گسترش توان استنتاج.» و این ماجرا برایشان وجهه‌ی بهتری دارد.

البته تردیدی نیست که چند آزمایش بزرگ‌تر از GPT-4 انجام شده، اما مدل‌های حاصل از آن‌ها به دلایلی منتشر نشده‌اند. پرسش اینجاست که از این اتفاق دقیقاً چه باید نتیجه بگیریم. شاید دلایل زیر در عدم انتشارشان تأثیر داشته باشد:

  • مشکل فنی، مانند به‌هم‌ریختگی همگرایی[۱۳] یا عدم تاب‌آوری[۱۴] در فرایند آموزش چند-دیتاسنتری.
  • کیفیت مدل نهایی چندان بالاتر از GPT-4 نبود و شرکت‌ها نمی‌خواستند مدل تازه‌ای را که عملاً پیشرفت خاصی ندارد، رونمایی کنند.
  • مدل نسبت به GPT-4 بهتر نبود و شرکت‌ها در این فاصله در تلاش برای دست‌یابی به بهبود جزئی از طریق Fine-Tuning بوده‌اند.

در مجموع، احتمالاً این حقیقت دارد که این روند به نقطۀ اشباع رسیده و دیگر نمی‌شود با همان روش‌های قدیمی به پیشرفت رسید. از طرف دیگر، ممکن است مشکلات کنونی موقتی باشد و در نهایت یکی از شرکت‌ها بتواند موانع را برطرف و داده‌های جدیدی را نیز پیدا کند و بار دیگر روند گسترش ابعاد را ادامه دهد.

بیایید اعتماد بی‌دلیل به «خودی‌های» صنعت را کنار بگذاریم

نه تنها عجیب است که روایت جدید این‌قدر سریع شکل گرفت، بلکه جالب است که روایت قدیمی با وجود محدودیت‌های آشکار افزایش ابعاد مدل‌ها، این‌قدر طولانی پابرجا ماند. دلیل اصلی این پایداری، اطمینانهایی است که رهبران صنعت میدادند: اینکه افزایش ابعاد مدل‌ها برای چند سال دیگر ادامه خواهد داشت.[۱۵] به‌طور کلی، روزنامه‌نگاران (و اکثر دیگران) تمایل دارند به نظرات افراد درون صنعت به‌عنوان مرجع، بیش از دیدگاه‌های افراد بیرونی تکیه کنند. اما آیا این اعتماد موجه است؟

رهبران صنعت در پیش‌بینی تحولات هوش مصنوعی سابقه‌ی خوبی ندارند؛ نمونه‌ی بارزی از این موضوع خوش‌بینی بیش از حد نسبت به خودروهای خودران در بیشتر دهه‌ی گذشته است. (خودرو خودران بالاخره به واقعیت پیوسته است، اگرچه سطح ۵ – خودکارسازی کامل – همچنان در دسترس نیست.) بعنوان نکته‌ای اضافه، برای درک بهتر عملکرد پیش‌بینی‌های افراد درون صنعت، جالب خواهد بود که یک تحلیل سیستماتیک از کلیه پیش‌بینی‌های مرتبط با هوش مصنوعی که در ده سال گذشته توسط افراد برجسته در این حوزه ارائه شده، انجام شود.

دلایلی وجود دارد که ممکن است بخواهیم به ادعاهای افراد درون صنعت اهمیت بیشتری بدهیم، اما دلایل مهمی نیز هست که باید وزن آن‌ها کمتر شود. بیایید به تفکیک بررسی کنیم: درست است که افراد درون صنعت دارای اطلاعات درونی[۱۶] (مثلاً عملکرد مدل‌هایی که هنوز منتشر نشده‌اند) هستند و این می‌تواند دقت پیش‌بینی‌های آنان را درباره آینده افزایش دهد. اما با توجه به اینکه تعداد زیادی از شرکت‌های هوش مصنوعی به لبه فناوری نزدیک هستند — از جمله شرکتهایی که وزنهای مدلهایشان را آزادانه منتشر میکنند و بینشهای علمی، مجموعهدادهها و دیگر منابع را به اشتراک میگذارند — این برتری اطلاعاتی در بهترین حالت تنها چند ماه جلوتر بودن محسوب می‌شود؛ که در قالب پیش‌بینی‌هایی با افق چند‌ساله چندان اهمیتی  ندارد.

افزون بر این، ما اغلب بر این باوریم که گویا شرکت‌های بزرگ به انبوهی از اطلاعات ویژه درباره‌ی توانایی یا حتی ایمنی مدل‌هایشان دسترسی دارند که بقیه ندارند؛ افراد داخل صنعت مدتها هشدار میدادند: «کاش شما هم آنچه ما میدانیم را میدانستید…»؛ در حالی که افشاگری‌های کارکنان‌شان نشان داده[۱۷] که بسیاری از آن‌ها نیز بر اساس همان حدس‌ها و شنیده‌ها صحبت می‌کردند که همۀ افراد بیرونی می‌زنند.

برخی ممکن است «تخصص فنی» مدیران یا پژوهشگران ارشد را دلیل اعتماد بدانند. اما فراموش نکنیم که در محیط‌های آکادمیک نیز همان سطح از تخصص یافت می‌شود. مهم‌تر از همه این‌که برای پیش‌بینی روندهای کلی هوش مصنوعی، مثلاً در سه سال آینده، نیازی به سطح عمیق تخصص فنی در جزئیات پیچیدۀ مدل‌ها نیست. از سوی دیگر، رشد فناوری تنها به عوامل فنی بستگی ندارد و جنبههای اقتصادی و اجتماعی هم نقش دارند. نمونه‌اش همان بحث خودروهای خودران است که میزان پذیرش عمومی برای آزمایش در جاده‌ها، نقش بزرگی در سرنوشت‌شان داشت. در مورد مدلهای عظیم زبانی هم این سؤال اقتصادی مطرح است که «آیا مقیاسپذیری بیپایان برای شرکتها از نظر تجاری بهصرفه هست یا نه؟» پس نه‌تنها متخصصان فنی برتری مطلقی در پیش‌بینی ندارند، بلکه گاه این تمرکز بیش‌ازحد بر بعد فنی باعث اعتمادبه‌نفس کاذب در پیش‌بینی‌ها می‌شود.

در مقابل، یک دلیل کاملاً روشن وجود دارد که چرا نباید به آن‌ها زیاد اعتماد کنیم: این افراد و شرکت‌ها برای تحقق منافع تجاری خود، انگیزه دارند روایت‌هایی را جا بیندازند که به‌سودشان باشد و بارها هم چنین کاری کرده‌اند. به‌عنوان مثال، وقتی ایلیا سوتسکِوِر در اوپنایآی بود و شرکت برای جذب سرمایه به هیاهوی «مقیاسپذیری» نیاز داشت، از این ایده دفاع میکرد. حالا که در رأس استارت‌آپ «سِیف سوپراینتلیجنس[۱۸]» قرار دارد و بودجۀ محدودی در برابر غول‌هایی نظیر اوپن‌ای‌آی، آنتروپیک و گوگل دارد، ناگهان سخن از تمام شدن دادههای باکیفیت و دوران تازهای میکند ـ گویی این موضوع تازه کشف شده است، درحالی‌که بارها تکرار شده بود.

در نهایت، ما واقعاً نمی‌دانیم آیا روند مقیاس‌پذیری مدل به پایان رسیده یا نه. اما این چرخش ناگهانی و علنی نشان می‌دهد که «خودی‌های[۱۹]» صنعت هم توپ را به زمین حدس و گمان می‌اندازند و دانش منحصر‌به‌فردی ندارند؛ علاوه بر آن، آن‌ها خود در فضای بسته و متأثر از هیاهویی هستند که خودشان راه انداخته‌اند.

پیشنهاد ما، به‌ویژه به روزنامه‌نگاران، سیاست‌گذاران و جامعه‌ی هوش مصنوعی، این است که از این به بعد اعتماد به پیش‌بینی‌های رهبران این صنعت را ـ به‌ویژه درباره‌ی تأثیرات اجتماعی ـ به‌شدت کاهش دهند. چنین کاری آسان نیست، چرا که ذهنیت عمومی در ایالات متحده اغلب ثروتِ افسانه‌ای و قدرت را نشانه‌ی «هوش و فضیلت» می‌گیرد و مدیران شرکت‌های فناوری را فراتر از نقد می‌بیند. (اشاره به نقلقولی از برایان گاردینر[۲۰] در نقد کتاب Marietje Schake با عنوان «کودتای فناوری[۲۱]»)

یک دلیل کاملاً روشن وجود دارد که چرا نباید به آن‌ها زیاد اعتماد کنیم: این افراد و شرکت‌ها برای تحقق منافع تجاری خود، انگیزه دارند روایت‌هایی را جا بیندازند که به‌سودشان باشد و بارها هم چنین کاری کرده‌اند. به‌عنوان مثال، وقتی ایلیا سوتسکِوِر در اوپن‌ای‌آی بود و شرکت برای جذب سرمایه به هیاهوی «مقیاس‌پذیری» نیاز داشت، از این ایده دفاع می‌کرد. حالا که در رأس استارت‌آپ «سِیف سوپراینتلیجنس» قرار دارد و بودجۀ محدودی در برابر غول‌هایی نظیر اوپن‌ای‌آی، آنتروپیک و گوگل دارد، ناگهان سخن از تمام شدن داده‌های باکیفیت و دوران تازه‌ای می‌کند ـ گویی این موضوع تازه کشف شده است، درحالی‌که بارها تکرار شده بود.

آیا پیشرفت در قابلیت‌ها از طریق «گسترش توان استنتاج» ادامه خواهد یافت؟

بدیهی است مقیاس‌پذیری مدل تنها راه ارتقا‌ی توانایی‌های هوش مصنوعی نیست. «گسترش توان استنتاج» روشی است که اخیراً پیشرفت زیادی داشته. برای نمونه، مدل «oاز اوپنایآی و مدل متن‌باز مشابه با نام «دیپسیک آر وان[۲۲]»، هر دو مدلهایی هستند که آموزش دیدهاند «پیش از پاسخگویی» استدلال کنند. یا روش‌هایی وجود دارد که بدون تغییر در خود مدل، با تولید چند پاسخ مختلف و ارزیابی کیفیت آن‌ها، عملکرد نهایی را بهتر می‌کند.

در این میان دو پرسش مهم وجود دارد که تعیین می‌کند تا چه حد می‌توان به گسترش توان استنتاج امیدوار بود:

  1. این روش روی چه نوع مسائلی جواب می‌دهد؟
  2. وقتی رویکرد استنتاجی جواب می‌دهد، با صرف محاسبات بیشتر حین اجرا تا کجا می‌توان پیش رفت؟

هزینۀ محاسباتی برای «هر توکن خروجی» در مدل‌های زبانی[۲۳] به‌سرعت رو به کاهش است — چه به دلیل پیشرفت در سخت‌افزار و چه در الگوریتم — بنابراین اگر معلوم شود که با مصرف هزاران یا حتی میلیون‌ها توکن در حین استنتاج می‌توان بهبود چشمگیری به‌دست آورد، تحولی بزرگ خواهد بود.[۲۴]

پاسخ ساده و شهودی به سؤال اول این است که گسترش توان استنتاج برای مسائلی مفید است که پاسخ‌های مشخص و درست دارند؛ مانند برنامه‌نویسی یا حل مسائل ریاضی که در آنها، حداقل یکی از دو نکته زیر صادق است: اول اینکه، مدل‌های زبانی به‌خاطر طبیعت آماری‌شان در استدلال نمادین[۲۵] ضعف دارند، اما می‌توانند با ایجاد زنجیره‌های استدلال در حین تولید پاسخ، دقت خود را بالا ببرند — انگار که انسان برای حل مسئله از قلم و کاغذ استفاده می‌کند. دوم اینکه، احراز و تأیید درستی راه‌حل‌ها به مراتب آسان‌تر از یافتن آنها است (که گاهی با کمک ابزارهای خارجی مانند تست‌های واحد در کدنویسی یا سیستم‌های بررسی اثبات‌های ریاضی انجام می‌شود).

اما در کارهایی مثل نویسندگی یا ترجمه‌ی زبان، نمی‌توان انتظار داشت «تفکر طولانی‌تر» مشکل کمبود داده یا دانش فرهنگی را جبران کند. مثلاً اگر در ترجمه‌ی زبانی کم‌منبع[۲۶]، اگر مدل عبارات رایج و اصطلاحی آن زبان را نداند، با استدلال طولانی‌تر هم آنها را از جایی نخواهد آموخت.

در نمونه‌های فعلی نیز شواهد همین را تأیید می‌کند. در «o1»، پیشرفت محسوس عمدتاً در کارهایی مثل حل مسائل برنامه‌نویسی، ریاضی، امنیت سایبری، برنامهریزی در محیطهای آزمایشی[۲۷] و امتحانات مختلف نسبت به مدل‌های زبانی پیشرفته مانند GPT-4o بهبودهایی نشان داده است. به نظر می‌رسد بهبودهای مشاهده‌شده در امتحانات، بیشتر به اهمیت استدلال در پاسخ به سؤال‌ها (نه صرفاً تکیه بر دانش یا خلاقیت) مربوط باشد؛ یعنی بهبودهای چشمگیر در ریاضیات، فیزیک و آزمون‌های LSAT، پیشرفت‌های کمتر در موضوعاتی مانند زیست‌شناسی و اقتصادسنجی، و تقریباً بدون تغییر در زبان انگلیسی. اما در کارهایی مانند نویسندگی، بخش‌هایی از امنیت سایبری که وابسته به «کنش‌گری» است، یا پرهیز از تولید متون نژادپرستانه و توهین‌آمیز، بهبود چشمگیری مشاهده نمی‌شود. همچنین شواهدی هم هست که در بعضی وظایف که «فکر کردن» انسان را گیج‌تر می‌کند، نتایج مدل هم بدتر می‌شود![۲۸]

در این زمینه ما یک صفحه اختصاصی راه‌اندازی کرده‌ایم که شواهد موجود درباره مقایسه مدل‌های استدلالی با مدل‌های زبانی را گردآوری می‌کند و قصد داریم آن را فعلاً به‌روز نگه داریم؛ گرچه انتظار داریم جریان رو به‌رشد یافته‌های جدید به زودی دنبال کردن آن را دشوار کند.

حال به سؤال دوم می‌پردازیم: با فرض اینکه بودجه محاسباتی نامحدودی برای استنتاج داشته باشیم، تا چه اندازه می‌توانیم بهبود حاصل کنیم؟

نمونه‌ی برجسته‌ای که اوپن‌ای‌آی برای نمایش توانایی‌های «o1» ارائه داده، آزمون AIME (یک آزمون المپیادی در آمریکا) است؛ یک بنچمارک ریاضی. نمودار ارائه‌شده این سؤال را به طور جذابی باز می‌گذارد: آیا عملکرد مدل به نقطه اشباع نزدیک می‌شود یا می‌توان آن را تا نزدیک ۱۰۰٪ بهبود داد؟ همچنین توجه کنید که نمودار به‌طور عمده برچسب‌های محور افقی (میزان توکن‌های مصرفی)  را حذف کرده است.

پژوهشگران مستقلی تلاش کردهاند آن را بازسازی کنند و دریافته‌اند که احتمالاً در حدود دو هزار توکن متوقف می‌شود و اگر تعداد توکن‌ها بیشتر شود، مدل دیگر واقعاً فرایند استدلال را طول نمی‌دهد. پس هنوز برای قضاوت قطعی زود است و باید منتظر آزمایش‌هایی با استفاده از مدل‌های متن‌باز[۲۹] بمانیم تا تصویر واضح‌تری بدست آید. خوشبختانه، تلاشهای گستردهای برای بازتولید عمومی تکنیکهای در پس «oدر جریان است.

در پژوهشی با عنوان «Inference Scaling fLaws» (بازی با کلمه‌ی Laws و Flaws)، رویکرد دیگری برای گسترش توان استنتاج بررسی شده: در این حالت، بارها تلاش می‌کنیم جواب مسئله را تولید کنیم و از یک «ناظر بیرونی[۳۰]» برای تشخیص درستی پاسخ استفاده می‌کنیم. هر چند در ذهن خیلی‌ها (از جمله خودمان در کارهای قدیمیتر) این ایده مطرح بود که می‌توان با تکرار هزاران یا میلیون‌ها بار تولید پاسخ و غربال پاسخ‌های اشتباه، دامنه‌ی توانایی مدل را بسیار وسیع کرد، اما نتایج نشان می‌دهد اگر آن ناظر، کمی نقص داشته باشد، در بسیاری سناریوهای واقعی (مثلاً در کدنویسی) بعد از حدود ۱۰ بار تولید پاسخ، عملکرد به اوج می‌رسد و سپس کاهش می‌یابد.

به‌طور کلی، شواهد موجود برای «قوانین گسترش توان استنتاج» چندان قانع‌کننده نیست و هنوز باید دید آیا در مسائل واقعی تولید (مثلاً) میلیون‌ها توکن در زمان استنتاج واقعاً تأثیرگذار خواهد بود یا خیر.

آیا «گسترش توان استنتاج» همان افق اصلی آینده است؟

در کوتاه‌مدت، احتمالاً شاهد پیشرفت‌های زیادی خواهیم بود، چون فعلاً فرصت‌های آشکار زیادی برای بهبود در این روش وجود دارد. به‌عنوان مثال، یکی از محدودیت‌های فعلی مدل‌های «استدلالی» آن است که در سیستم‌های عامل-محور[۳۱] خوب عمل نمی‌کنند. در آزمونی به نام CORE-Bench (که از عوامل می‌خواهد کدهای ارائه‌شده در مقالات تحقیقاتی را بازتولید کنند) بهترین عامل با استفاده از «Claude 3.5 Sonnet» به ۳۸٪ امتیاز دست یافته، در حالی که «o1-mini» تنها ۲۴٪ کسب کرده است.[۳۲] همین، چرایی پیشرفت در برخی آزمون‌های امنیت سایبری و عدم پیشرفت در برخی را توضیح می‌دهد — چون برخی آزمون‌ها حول «عامل‌ها» می‌چرخید.

ما فکر می‌کنیم دو دلیل وجود دارد که چرا عوامل از مدل‌های استدلالی بهره‌مند نمی‌شوند: اولین دلیل این است که این مدل‌ها به شیوه‌های پرسش و پاسخ (prompting) خاصی نیاز دارند، در حالی که بیشتر سیستم عامل‌های امروزی برای مدل‌های زبانی معمولی بهینه شده‌اند و نه برای مدل‌های استدلالی. دوم اینکه، تا جایی که می‌دانیم، مدل‌های استدلالی تاکنون با استفاده از یادگیری تقویتی در محیطی که بازخورد از محیط دریافت می‌کنند آموزش ندیده‌اند؛ به عبارتی، آن‌ها نمی‌توانند کدی را اجرا کنند، به سیستم‌های فرمان‌دهی مانند شل (Shell) دسترسی داشته باشند یا در وب جستجو کنند. به همین علت توانایی استفاده از ابزارهایشان از مدل اولیه‌شان بهتر نشده است.[۳۳] به عبارت دیگر، توانایی استفاده از ابزارهای آنها هیچ بهتر از مدل اصلی قبل از یادگیری استدلال نیست.

این موارد را نسبتاً می‌شود با رویکردهای واضح برطرف کرد. اگر چنین شود، ممکن است سیستم عامل‌های قدرتمندی پدید آید که مثلاً قادر باشند صرفاً با دریافت یک دستور، اپلیکیشنی پیچیده و کامل بنویسند. (ابزارهایی هستند که هدفشان همین است، اما حالا هنوز خروجی‌شان ضعیف است.)

اما در بلندمدت سؤال اصلی این است که آیا «گسترش توان استنتاج» می‌تواند همان نقشی را ایفا کند که مقیاس‌پذیری اندازه‌ی مدل در هفت سال گذشته داشت؟ آن زمان، نقطه‌ی هیجان‌انگیز این بود که صرفاً با بزرگ‌تر کردن حجم داده‌ها، اندازه‌ی مدل و نهایتاً توان محاسباتی، ناگهان جهش‌های قابل‌توجهی رخ می‌داد و نیاز زیادی به نوآوری الگوریتمی خاصی حس نمی‌شد.

این ویژگی در گسترش توان استنتاج وجود ندارد. ما با مجموعه‌ای از تکنیک‌های متفاوت سروکار داریم که هریک در حوزه‌ی مشخصی کارآمد هستند و همگی در گستره‌ی محدودی از مسائل پاسخ می‌دهند. حال شرکت‌ها می‌کوشند این محدودیت را رفع کنند. مثلاً، خدمت جدید «تنظیم دقیق تقویتی» (Reinforcement Finetuning) در اوپنایآی احتمالاً تلاشی است برای گردآوری داده از حوزههای مختلف از طریق مشتریانش تا آنها را روی مدل آینده به کار ببرد.

حدود یک دهه پیش، یادگیری تقویتی در بازی‌هایی مانند آتاری انقلابی برپا کرد و انتظار می‌رفت همین روش ما را به هوش مصنوعی عمومی (AGI) برساند؛ تا حدی که آزمایشگاه‌هایی مثل اوپن‌ای‌آی اصلاً با همین انگیزه‌ی رسیدن به (AGI) از طریق یادگیری تقویتی (RL) شکل گرفتند. اما در عمل، اما آن تکنیک‌ها فراتر از حوزه‌های محدودی مانند بازی‌ها تعمیم نیافتند. حالا همان چرخه‌ی هیجان درباره‌ی (RL) دوباره جریان دارد. بی‌شک روش بسیار توانمندی است، اما تاکنون محدودیت‌های آشنای گذشته را در ابعاد وسیع‌تر هم نشان داده و مشخص نیست تا کجا می‌تواند توسعه یابد.

در نتیجه، پیش‌بینی سرعت پیشرفت‌های آتی امکان‌پذیر نیست. حتی بر سر این که همین الان پیشرفت کند شده یا نه نیز اجماع نظر وجود ندارد، چون تفسیر شواهد بسته به این است که معیار «توانایی[۳۴]» چگونه تعریف شود.

آنچه با اطمینان بیشتری می‌توان گفت این است که روند پیشرفت توانایی‌های هوش مصنوعی در «گسترش توان استنتاج» نسبت به «گسترش ابعاد مدل» کاملاً متفاوت خواهد بود. در چند سال گذشته، مدل‌های نوین سالانه در حوزه‌های متنوع پیشرفت‌های قابل‌توجهی داشتند؛ به‌طوری که بسیاری از پژوهشگران خارج از آزمایشگاه‌های بزرگ اینگونه به نظر می‌رسیدند که جز نشستن و انتظار برای رونمایی از مدل زبان پیشرفته بعدی، کار بیشتری برای انجام وجود ندارد.

اما با «گسترش توان استنتاج»، بهبود توانایی‌ها احتمالاً نامنظم‌تر و کمتر قابل پیش‌بینی خواهد بود؛ یعنی این پیشرفت‌ها بیشتر ناشی از تغییرات الگوریتمی خواهند بود تا سرمایه‌گذاری در زیرساخت‌های سخت‌افزاری. افزون بر این، بسیاری از ایده‌هایی که در دوران مدل‌های زبان بزرگ کنار گذاشته شده بودند – مانند ایده‌های موجود در ادبیات قدیمی برنامه‌ریزی – دوباره وارد بحث شده‌اند و به نظر می‌رسد فضای علمی امروزی پویاتر و زنده‌تر از چند سال گذشته شده است.

دود یک دهه پیش، یادگیری تقویتی در بازی‌هایی مانند آتاری انقلابی برپا کرد و انتظار می‌رفت همین روش ما را به هوش مصنوعی عمومی (AGI) برساند؛ تا حدی که آزمایشگاه‌هایی مثل اوپن‌ای‌آی اصلاً با همین انگیزه‌ی رسیدن به (AGI) از طریق یادگیری تقویتی (RL) شکل گرفتند. اما در عمل، اما آن تکنیک‌ها فراتر از حوزه‌های محدودی مانند بازی‌ها تعمیم نیافتند.

فاصلۀ توسعۀ محصول از «قابلیت» مدل‌های هوش مصنوعی

بحث‌های شدید پیرامون اینکه آیا پیشرفت قابلیت‌ها دچار کندی شده یا نه، نوعاً طنزآمیز است؛ چرا که در عمل ارتباط مستقیمی بین پیشرفت‌های مدل و کاربرد واقعی آن‌ها وجود ندارد. حتی قابلیت‌های فعلی هوش مصنوعی نیز به‌طور گسترده مورد استفاده قرار نگرفته‌اند. یکی از دلایل این مسئله، فاصلهی زیادی است که بین «توانایی» یک مدل و «اعتمادپذیری» آن وجود دارد؛ یعنی گاهی یک مدل ممکن است در انجام کاری توانایی داشته باشد، اما به‌طور مداوم و بدون خطا عمل نکند، به‌طوری که نتوان آن را کاملاً جایگزین انسان کرد (مثلاً سامانۀ سفارش غذایی که تنها ۸۰ درصد مواقع درست کار کند، عملاً کاربردی نخواهد بود). روش‌های افزایش اعتمادپذیری معمولاً مرتبط با پیاده‌سازی و کاربردهای خاص هستند و کمتر به بهبود خود معماری مدل می‌پردازند. از طرفی، مدلهای استدلالی نیز به نظر میرسد که در بهبود قابلیت اطمینان پیشرفتهایی داشتهاند که خبر خوبی محسوب می‌شود.

برای درک بهتر این موضوع، می‌توان چند قیاس مطرح کرد که نشان می‌دهد چرا ساخت محصولاتی که حتی از قابلیت‌های فعلی هوش مصنوعی به‌طور کامل بهره ببرند، ممکن است یک دهه یا بیشتر طول بکشد. فناوری پشت اینترنت و وب عمدتاً در اواسط دههی ۹۰ تثبیت شد، اما تکمیل پتانسیل اپلیکیشن‌های تحت وب حدود یکی دو دهه طول کشید. دوم، مقالهای تأملبرانگیز پیشنهاد می‌کند که برای مدل‌های زبانی بزرگ باید واسط‌های گرافیکی (GUI) ساخته شود تا بتوان با پهنای باند بسیار بیشتری نسبت به نوشتار با آن‌ها ارتباط برقرار کرد. از این منظر، وضعیت فعلی محصولات هوش مصنوعی مانند روزهای اولیه کامپیوترهای شخصی قبل از ظهور GUI به نظر می‌رسد.

علاوه بر این، غول‌های فناوری هوش مصنوعی مدت‌ها روی توسعهی «محصول» تمرکز نداشتند و تصور می‌کردند طبیعت چندمنظورۀ هوش مصنوعی، آن‌ها را از مشکلات سخت مهندسی نرم‌افزار معاف می‌کند و درنتیجه نیازی به تلاش در جهت توسعۀ نرم‌افزار و طراحی تجربۀ کاربری وجود ندارد. اما اخیراً این نگرش تغییر کرده و توجه بیشتری به جنبه‌های محصول و کاربردی شدن مدل‌ها می‌شود.

حالا که روی محصول متمرکز شده‌اند، هم خود شرکت‌ها و هم کاربران‌شان در حال کشف مجدد این واقعیت هستند که توسعۀ نرم‌افزار، به‌خصوص در زمینۀ تجربۀ کاربری، کاری ظریف است و نیازمند مهارت‌هایی فراتر از صرف مدل‌سازی هوش مصنوعی است. مثالی جالب توجه این است که هم‌اکنون دو روش مختلف برای اجرای کد پایتون در چت‌جی‌پی‌تی عرضه شده و هر کدام هم محدودیت‌ها و قواعد ناشناختۀ خاص خود را دارند. «سایمون ویلیسون[۳۵]» می‌گوید:

«آیا همۀ این‌ها گیج‌کننده نیست؟ حق دارید چنین فکری کنید. من که بیش از ۲۰ سال برنامه‌نویس پایتون و توسعه‌دهندۀ وب هستم هم به‌سختی می‌توانم این همه محدودیت و جزئیات را به خاطر بسپارم.»

البته همین هم پیشرفتی است نسبت به یک هفتۀ پیش که مدل‌های قدرتمند کدنویسی اصلاً امکان اجرای کدی که به اینترنت دسترسی داشته باشد را نداشتند! حتی، اکنون، مدل «o1» نه می‌تواند به اینترنت متصل شود و نه کدی را اجرا کند. پس از منظر تأثیر اجتماعی هوش مصنوعی، چیزی که مهم‌تر از پیشرفت ذاتی مدل‌هاست، ساخت محصولاتی است که اجازه دهد مردم از همین قابلیت‌های کنونی بهترین استفاده را ببرند.

در نهایت، بُعد «پذیرش در جامعه» بسیار کندتر از بُعد «توسعۀ محصول» حرکت می‌کند. موانع مختلف انسانی، سازمانی و اجتماعی باعث می‌شود که حتی اگر محصول مناسب هم عرضه شود، تا تثبیت کاربرد آن در زندگی روزمره زمان زیادی لازم باشد. بنابراین افرادی که دغدغۀ آثار مثبت و منفی هوش مصنوعی را دارند، بهتر است بر فرایند شکل‌گیری محصولات و الگوهای پذیرش آن‌ها متمرکز شوند تا این‌که صرفاً در انتظار «نسل بعدی مدل» بنشینند.

جمع‌بندی

شاید دوران رشد ابعاد مدل‌های هوش مصنوعی به پایان رسیده باشد یا شاید ادامه داشته باشد؛ اما بدون شک این روند برای همیشه دوام نخواهد داشت. پایان این دوره نکات مثبتی به همراه دارد. از یک طرف، پیشرفت هوش مصنوعی دوباره نیازمند نوآوری و ایده‌های تازه است و تنها تکیه بر توان محاسباتی کافی نخواهد بود. از طرف دیگر، شرکت‌های بزرگ، استارت‌آپ‌ها و دانشگاه‌ها می‌توانند در یک زمینه رقابتی نسبتاً برابر شرکت کنند. همچنین، مقرراتی که قبلاً فقط بر میزان محاسبات در زمان آموزش تمرکز داشتند، دیگر قابل استدلال نخواهند بود؛ و بالاخره مشخص شده که مدل‌ها به تنهایی «محصول» محسوب نمی‌شوند، بلکه یک فناوری هستند که باید به شکل محصولات کاربردی عرضه شوند.

اما در مورد آیندۀ هوش مصنوعی باید بدانیم که حتی متخصصان حوزه نیز مانند بقیه افراد در حال حدس زدن آینده‌اند. بنابراین نباید بدون تردید به پیش‌بینی‌های مطمئن اما مبهم آن‌ها اعتماد کنیم؛ به‌ویژه زمانی که صحبت از تأثیرات اجتماعی می‌شود، چرا که در این زمینه حتی از جنبه‌های فنی هم اطلاعات کافی نداریم و علاقه‌مندی‌های اقتصادی و سایر منافع پشت بسیاری از اظهارات وجود دارد.

سپاسگزاری

از «زکری سی. سیگل[۳۶]» بابت بازخوردهای ارزشمندش روی پیش‌نویس این متن سپاسگزاریم.

پانوشت
۱۲- پیش‌تر زمزمه‌هایی از خزش محدود داده‌های یوتیوب توسط اوپن‌ای‌آی به گوش می‌رسید؛ اما سطح دسترسی بسیار ناچیزی بود و برای دستیابی به کامل‌ترین نسخه‌ی یوتیوب، بدون جلب رضایت گوگل، بعید است امکانی وجود داشته باشد.
۱۵- در تحلیلی زیبا از Epoch AI گفته شده بود که گسترش مدل تا سال ۲۰۳۰ ادامه می‌یابد، اما این گزارش در آگوست ۲۰۲۴ منتشر شد و خیلی دیرهنگام بود که بتوان گفت پایه‌ی اصلی روایت «Scaling» بوده است.
۲۲- DeepSeek R1
منابع
سایر مقالات