خانه » مقالات » ردپای پنهان؛ تصاویر هوش مصنوعی دنیای جدید را خلق می‌کنند
ردپای پنهان؛ تصاویر هوش مصنوعی دنیای جدید را خلق می‌کنند
چهار شنبه, ۲۶ آذر ۱۴۰۴
زمان تقریبی مطالعه ۵۶ دقیقه
هوش مصنوعی مولد تصویر، مثل دال‌ای و میدجنری، دنیا را تغییر داده و توانسته جمله‌های ساده را به تصاویر پیچیده و گاه عجیب تبدیل کند. اما پشت این تصاویر، چیزی بیش از الگوریتم‌ها نهفته است: انسان‌ها در هر مرحله نقش دارند — از افرادی که تصاویر و برچسب‌ها را دسته‌بندی می‌کنند تا کسانی که داده‌ها را منتشر می‌کنند یا با همان داده‌ها، خروجی های خلاقانه ایجاد می‌کنند. با وجود پیشرفت تکنولوژی، مدل‌های متن‌به‌تصویر هنوز با چالش‌هایی روبه‌رو هستند؛ از ابهام‌های زبانی و هم‌نویسه‌ها تا چالش‌های معنایی، که باعث می‌شود یک خفاش هم‌زمان هم حیوان و هم چوب بیسبال باشد. پرامپت‌نویسی به یک مهارت هنری و علمی تبدیل شده و نام هنرمندان و سبک‌ها اکنون به ابزارهایی برای هدایت هوش مصنوعی بدل شده‌اند. اما سؤال اصلی اینجاست: آیا تصاویر تولیدشده توسط هوش مصنوعی واقعاً «غیرانسانی» هستند، یا بازتابی از تمام انتخاب‌ها، سوگیری‌ها و خلاقیت‌های انسانی‌اند که در طول دهه‌ها جمع شده‌اند؟ وقتی هوش مصنوعی می‌تواند میلیون‌ها تصویر روزانه بسازد، جایگاه هنرمند، داستان‌گو و حتی مخاطب چه خواهد شد؟ و مهم‌تر از آن، ما چه چیزی از طریق این بازی عجیب و پیچیده بین انسان و ماشین می‌آموزیم؟

با پیشرفت تکنولوژی در عصر معاصر،هوش مصنوعی مولد، تبدیل به ماشینی شده که در حال تصاحب نقش انسان‌هاست — با این حال، انسان همچنان در اریکه قدرت است. هوش مصنوعی بدون اراده ما از کار خواهد افتاد . در واقع، این توسعه‌دهندگان و شرکت‌های بزرگ فناوری هستند که اختیار اصلی هوش مصنوعی را در دست دارند.

وقتی دوستانم چند دقیقه وقت آزاد دارند، معمولاً سراغ یک بازی گروهی جدید می‌روند و قرعه این دفعه بنام بازی تازه‌ای افتاد که مبتنی بر هوش مصنوعی ایجاد شده است. این بازی بر پایۀ بازی سوررئالیستی‌ به نام جسد شکوهمند[۱] است و در آن، پرامپت‌های کوتاه نوشته‌شده به سرعت به نقش تبدیل شده و در بستر بازی اجرا می‌شوند. یک گروه آن را فرهنگ لغت تلفن[۲] می‌نامند، گروهی دیگر نویسه‌-نقاشی[۳]. یک جستجوی ساده در اینترنت به من می‌گوید نام دیگرش (بخور و بازی کن گربه)[۴] است — نامی جذاب که از یکی از مراحل همین بازی الهام گرفته شده است.

تا همین سه سال پیش، دیدن اشتباه‌های ترجمه‌ای میان متن و تصویر[۵] در زندگی روزمره اتفاقی نادر بود و همین باعث می‌شد نتایج عجیب‌وغریب این بازی تازگی و جذابیت خاصی داشته باشد. اما حالا وارد دوران تازه‌ای از تصویرسازی شده‌ایم. با کمک مولدهای تصویری مبتنی بر هوش مصنوعی مانند دال‌ای 3[۶] و میدجنری[۷] و همچنین ابزارهای مولد موجود در مجموعۀ کلاود[۸]، می‌توان تنها در چند ثانیه یک جمله یا عبارت را به تصویری دقیق و پرجزئیات تبدیل کرد. همین‌طور برعکس، می‌توان از روی تصویر، متنی توصیفی تولید کرد. امروز هر کسی می‌تواند در اتاق خودش ( بخور و بازی کن گربه) بازی کند — این‌بار در همراهی با الگوریتم‌ها.

تابستان ۲۰۲۳ خودم این کار را امتحان کردم. از نسخۀ تحت مرورگر و یک برنامۀ هوش مصنوعی به نام کلیپ اینترگیتر[۹] استفاده کردم که هر تصویر را به یک «پرامپت» متنی تبدیل می‌کند. بازی تنها سه دقیقه طول کشید و دو دور انجامش دادم. با نوشتن عبارت (بخور و بازی کن گربه) در کادر (دستور خود را وارد کنید) بازی را شروع کردم و بعد روی (انتخاب تصویر) کلیک کردم.

اپ در پاسخ به هر پرامپت چهار تصویر می‌سازد. من کمی تقلب کردم و فقط آن یکی را که بیشتر دوست داشتم انتخاب کردم. از مرکز تصویر، یک گربه‌ راه‌راه نسبتاً واقعی با چشمان سبز درشت به من زل زده بود. دهانش باز بود و زبانی صورتی‌رنگ بیرون زده بود. پس‌زمینۀ خاکستری و بی‌روح بود و در پایین تصویر نوشته‌ای سفید و حبابی دیده می‌شد: «بازی کن، زود باش

آن تصویر را در کلیپ اینترگیتر انداختم و برنامه در پاسخ پرامپتی به من برگرداند با این مضمون:
«نمای نزدیک از گربه‌ای با چشمان سبز، متنی آبی، پس‌زمینۀ شهری حماسی، مدفوع، حاشیه سفید، پس‌زمینه سفید، زبان بیرون‌زده، پوستر حماسی، محیط اداری، توالت طلایی، کارتونی خنده‌دار، اِرین، گوهر زمردین، غذای نامرتب، تصویر قابل‌دستکاری، ترک دیوار، انگیزشی، شعر متحرک، توالت.»

در کنار رشد ابزارهای مولد، نوعی دستور زبان تازه برای ساخت پرامپت‌های تصویری پدید آمده است و پرامپت کلیپ اینترگیتر[۱۰] دقیقاً از همین ساختار لایه‌لایه جزئیات و سبک‌ها تقلید می‌کرد — گرچه این مورد خاص بیش‌ازحد نامفهوم بود، مثل روتوشی بی کیفیت از یک عکس قدیمی.

بعد از چند بار رفت‌وبرگشت دیگر، در نهایت تصویری از یک گربۀ سیاه‌ و قهوه‌ای روی یک توالت دیدم — توالتی که می‌توانست اثر فرانک لوید رایت باشد. تکه‌ای دستمال توالت از رول بالا افتاده و روی سر گربه افتاده بود، انگار کلاه گذاشته باشد. نتیجه کار شبیه به یک تابلوی نقاشی بود. سبک آن آشنا به نظر می‌رسید — اکسپرسیونیستی؟ اکسپرسیونیسم آلمانی؟ ساده‌نما؟ احتمالاً تحت تأثیر مودیلیانی، پیکاسوی اولیه و برخی از آثار متأخر نقاش واقع‌گرا لهستانی، آنری هایدن.

کلیپ اینترگیتر این تصویر را چنین توصیف کرد:

نقاشی از گربه‌ای نشسته بر توالت، صحنه‌ای از بازی پلی‌استیشن ۲، در سبک پاپ‌آرت، اثر ایگناسی ویتکیویچ، کارت تاروتِ احمق، الهام‌گرفته از فیل فاگلیو، پانک‌درون، آشپزی مولکولی، اپلیکیشن، بونگ، پرسونای ۵، روبوراک، دیستروی لانلی، سگ، ۱۸۲۴، طراحی کارت تاروت.”

بعد فهمیدم «دستروی لانلی[۱۱]» نام یک خوانندۀ مشهور از آتلانتاست، نه فرمانی برای نابودی تنهایی!  رابراک[۱۲] هم برند یک جاروبرقی رباتی است. فیل فاگلیو[۱۳] کارتونیستی است که بیشتر به خاطر طراحی‌های غیرعادی و طنزآمیزش برای مجیک: گسرینگ[۱۴] شناخته می‌شود. حضور «ویتکیویچ»، نویسنده و نقاش لهستانی قرن نوزدهم، حدس من را دربارۀ حس لهستانی تصویر تأیید می‌کرد.

استیبل دیفاشن [۱۵] ابزاری است کهتصاویر را با تبدیل پرامپت(دستور) به مجموعه‌ای از متغیرهای بصری تولید می‌کند، در حالی که کلیپ اینترگیتر برعکس، تصویر را به زبان تبدیل می‌کند. رشته‌های ظاهراً تصادفی از اسم‌ها و صفت‌ها که حاصل تلاش شبکه‌های عصبی برای «خواندن» تصویرند — به نوعی دیگر، تحلیل بخش‌هایی از پیکسل‌ها برای یافتن نشانه‌هایی که با واژه‌ها مرتبط می‌شوند، هرچند گاه به شکلی مبهم. ترجمه‌ پیکسل‌ها به عبارت «گربه‌ای نشسته روی توالت» روشن است، اما نشانه‌های مربوط به «کارت تاروت احمق» نه چندان.

چون برای ترسیم ساده‌ترین گربه در ساده‌ترین موقعیت، بی‌نهایت حالت ممکن وجود دارد، فرایندهای تبدیل متن به تصویر و تصویر به متن هرگز ترجمه‌های یک‌به‌یک نیستند. اگر چنین بودند، دیگر من و الگوریتم‌ها نمی‌توانستیم این بازی را انجام دهیم. اما بررسی دقیق همین پرامپت‌ها و تصاویر شوخی‌آمیز نیز سرنخ‌هایی از سازوکار پشت این عملیات به دست می‌دهد.

شکل  ۱. یک تصویر تولیدشده توسط هوش مصنوعی/ یک گربه که در یک اتاق نشیمن انتزاعی نشسته است، تولید شده توسط ریچل آسیپ با استفاده از استیبل دیفاشن

 

تلاش‌های اولیه برای تولید تصویر

در برخی از نخستین تلاش‌ها برای ساخت تصویر با هوش مصنوعی، پژوهشگران برای مقابله با چالش پیچیدگی و اندازه‌ی مجموعه‌داده‌ها، هم سبک تصویر و هم موضوع آن را محدود کردند. نویسندگان مقاله‌ تأثیرگذار سال ۲۰۱۶ با عنوان «تولید تصویر از متن به روش مولد» توضیح دادند که به طور مثال، مجموعه‌دادۀ پرندگان شامل ۱۱٬۷۸۸ تصویر از پرندگان بود که به ۲۰۰ گونۀ عمدتاً آمریکای شمالی تقسیم می‌شدند، همراه با ویژگی‌هایی مانند «شکل منقار»، «طرح شکم» و «رنگ زیرتنه». این تصاویر از سایت فلیکر[۱۶] گردآوری شدند و سپس توسط نیروی انسانی در پلتفرم مکانیکال ترک[۱۷] آمازون — سامانه‌ای برای برون‌سپاری کار که گاه از آن به عنوان «هوش مصنوعیِ مصنوعی» یاد می‌شود — دسته‌بندی و برچسب‌گذاری شدند.

اگرچه به نظر می‌رسد ابزارهای تبدیل متن به تصویر امروزی کاملاً خودکارند، اما در واقع ساختار و نگهداری آن‌ها به حجم عظیمی از کار انسانی وابسته است — از کارهای تکراری و کم‌درآمدی که عمدتاً در کشورهای جنوب جهانی انجام می‌شوند بگیر تا کارهای رایگان روزمره‌ای که ما هنگام پر کردن کپچاها انجام می‌دهیم. برای یادگیری، شبکه‌های عصبی نیاز به مجموعه‌ای اولیه از تصاویر برچسب‌خورده دارند، این برچسب‌گذاری را در ابتدا انسان‌ها باید انجام دهند. مثلاً در مورد گونه‌ای از مرغ دریایی به نام مرغ دریایی بال‌خاکستری[۱۸]»انسان‌ها باید موقعیت بخش‌هایی مانند «پشت»، «منقار»، «شکم»، «سینه» و ویژگی‌هایی مثل «طول منقار تقریباً برابر با سر» را در ۵۹ عکس مختلف مشخص می‌کردند. (مجموع تصاویر به شکلی ساده‌تر از قبل، با جست‌وجو در وب و گرفتن عکس گردآوری شده بودند.)

با آموزش شبکه‌های ‌مولد[۱۹] روی این مجموعه‌داده‌های محدود، نویسندگان مقاله توانستند تصاویری منحصربه‌فرد و تا حدی واقعی از پرندگان بسازند؛ مثلاً از جمله‌ «این پرنده‌ی کوچک منقاری کوتاه، تیز و نارنجی دارد و شکمی سفید» یا «این پرنده‌ی باشکوه تقریباً تماماً سیاه است با تاجی قرمز و لکه‌ای سفید روی گونه» برای تعریف پرامپت‌ها استفاده کردند .

از چهره‌هایی که وجود ندارند تا هوش مصنوعی‌ عام

چند سال بعد، اوایل ۲۰۱۹، شرکت آمریکایی انویدیا[۲۰] نسخه‌ی متن‌باز هوش مصنوعی (استایل‌گان[۲۱]) را منتشر کرد — مدلی که قادر است بی‌نهایت تصویر مصنوعی و منحصربه‌فرد از چهره‌ها تولید کند و به کاربر اجازه دهد ویژگی‌هایی مانند شکل صورت و مدل مو را تنظیم کند. (این مدل نیز با هزاران تصویر از فلیکر آموزش دیده بود و انویدیا ادعا کرد که فقط تصاویر دارای مجوز آزاد جمع‌آوری شده‌اند.)

کمی بعد، مهندس نرم‌افزاری به نام فیلیپ وانگ وب‌سایت طراحی خاصی را ساخت؛ سایتی که با هر بار تازه‌سازی، چهره‌ای مصنوعی و تصادفی تولید می‌کرد. بعد از آن، موجی از تقلیدها به راه افتاد و بسیاری نمونه‌های دیگر.

در حالی که بیش از یک سال بود اخبار درباره‌ی دیپ‌فیک‌ها تیتر رسانه‌ها را پر کرده بود، هجوم ناگهانی تصاویر «انسان‌هایی که وجود ندارند» به‌نوعی زنگ خطر جمعی را به صدا درآورد. این چهره‌های جعلی خیلی زود تهدیدی برای دموکراسی معرفی شدند . درخواست‌ها برای ساخت الگوریتم‌های تشخیص و برچسب‌گذاری تصاویر بالا گرفت. در همین حین، استایل‌گان حوزه‌ی کاری خود را گسترش داد و شروع به تولید پرتره‌های انیمه کرد. هرچند که نوع تصویر تغییر کرد، اما موضوع همچنان محدود باقی ماند.

در مقابل، پروژه‌ای به نام ایمیج‌نت که در سال ۲۰۰۶ به ابتکار دانشمند علوم کامپیوتر فی‌وی لی آغاز شد، هدف بلندپروازانه‌تری داشت: «نقشه‌برداری‌ از کل دنیای اشیاء». این مجموعه‌داده شامل بیش از ۱۴ میلیون تصویر برچسب‌خورده است که در بیش از ۱۰۰ هزار دسته‌ معنایی سازمان‌دهی شده‌اند و با کمک بیش از ۲۵ هزار کارگر در مکانیکال ترک ساخته شدند. با وجود این حجم، هنوز در مقایسه با پیچیدگی بی‌پایان جهان، ناچیز است.

اما ساده‌سازی بیش از حد و دسته‌بندی غیرمنعطف، به‌ویژه درباره‌ی انسان‌ها، همیشه خطرناک است . ایمیج نت بر اساس ساختار واژگانی‌ شکل گرفت که ریشه در دهه‌ی ۱۹۸۰ داشت و از منابع قدیمی‌تر وام گرفته بود. در نتیجه، با ساخته‌شدن هر مجموعه‌ جدید، منطق و سلسله‌مراتب داده‌های قبلی تکرار شد. پژوهشگر کیت کرافورد و هنرمند تروِر پَگلن نشان داده‌اند که نسخه‌ اولیه‌ی ایمیج نت شامل تصویر کودکی با برچسب «بازنده» بود و دسته‌هایی مانند «زن هرزه»، «روسپی» و «نژاد سیاه» را در بر داشت؛ همچنین «دوجنسه» را زیرمجموعه‌ «دوجنس‌گرا» قرار داده بود و آن را هم زیر شاخه‌ی «حس‌گرا»، در کنار واژه‌هایی مانند «شهوت» و «شکم‌پرست». در سال ۲۰۱۹، ایمیج نت بیش از ۶۰۰ هزار تصویر را که دارای برچسب‌های «ناامن»، «توهین‌آمیز» یا «حساس» بودند حذف کرد — تلاش در جهت اصلاح چارچوبی که از اساس معیوب بود. با این حال، در مقایسه با نسل‌های بعدی، دسته بندی های فعلی ایمیج نت منظم و محتاط به نظر می‌رسند.

هوش مصنوعی مولد به جریان اصلی می‌پیوندد

در ۵ ژانویه ۲۰۲۱، مؤسسه‌ی پژوهشیOpenAI  در سان‌فرانسیسکو از مدل دال ای رونمایی کرد و هم‌زمان کلیپ[۲۲](یکی از مدل‌های برتر و جدید هوش مصنوعی) را معرفی کرد — شبکه‌ای عصبی برای طبقه‌بندی تصاویر که در فرایند دال ای ادغام شده بود. در پستی خودستایانه در وبلاگ رسمیOpenAI  ، این برند از ایمیج‌نت هم انتقاد کرد؛ هم به خاطر پرهزینه بودنش از نظر زمان و نیروی انسانی و هم به دلیل محدودیت محتوایی آن. نویسندگان نوشتند:

در مقابل، کلیپ اینترگیتر از عکس‌ها و داده‌هایی که از قبل در اینترنت به‌صورت عمومی وجود دارند یاد می‌گیرد. شاید بپرسید که چقدر احتمال دارد که به مشکل بخورد؟ پاسخ روشن است ، بسیار کم ! باتوجه به حجم عظیمی از داده‌ها و تصاویر و محتوا که در اینترنت بازنشر شده اند، احتمالا این ابزار در یادگیری و الهام گرفتن ، دچار مشکل نخواهد شد.

می‌دانیم که کلیپ شامل هزاران اثر از هنرمندان، تصویرگران، عکاسان و طراحان گرافیک است، چون یکی از قابلیت‌های تشویق‌شده در دال ای این بود که از آن بخواهید تصویری «در سبک هنرمندی خاص» تولید کند. تابستان ۲۰۲۲، تقریباً یک سال پس از عرضه‌ نسخه‌ی عمومی به نام دال ای مینی[۲۳]، شبکه‌های اجتماعی پر شد از تصاویری با الگوی جدید، ترکیب موضوع و سبکی نامعمول:

کیم کارداشیان به سبک سالوادور دالی ، ساندویچ کره‌ی بادام‌زمینی به شکل مکعب روبیک و …

اما این تصاویر مصنوعی صرفاً «وصله‌پینه‌های دیجیتالی» از قطعات موجود در وب نیستند. مدل‌های هوش مصنوعی مولد مفاهیم کلی از نشانه‌ها، سبک‌ها و الگوهای بصری می‌سازند که با چیدمان‌ پیکسل‌ها همبستگی دارند. الگوریتم‌های یادگیری عمیق دال ای، چیدمان پیکسل‌های یک تصویر دیجیتال را در صدها محور متغیر رمزگشایی می‌کنند تا ساختار آن را بفهمند و سپس از این دانش برای ساخت تصاویر جدید و مشابه استفاده کنند. وقتی از مدلی مانند دال‌ای یا استیبل دیفاشن می‌خواهید تصویری را در سبک یک هنرمند خاص بسازد، در واقع آن هنرمند را کپی نمی‌کند، بلکه الگوهایش را بازتفسیر می‌کند — موضوعاتش، ترکیب‌بندی‌ها و استفاده از رنگ و فرم.

تنوع و تعداد تصاویری که از هر هنرمند در اینترنت وجود دارد، تأثیر مستقیمی بر کیفیت خروجی این مدل‌ها دارد: هرچه داده‌های بصری بیشتری از آثار یک هنرمند در دسترس باشد، مدل بهتر سبک او را بازتولید می‌کند. به همین ترتیب، هر ایده‌ی تصویری که بیشتر در وب دیده شود، احتمال تکرارش در خروجی‌ها بیشتر است. برای نمونه، چون در اینترنت تصاویر زیادی از «مردان سفیدپوست در نقش جراح» وجود دارد، ابزارهای هوش مصنوعی در سال ۲۰۲۳ در پاسخ به پرامپت «جراح» تصویری از یک مرد سفیدپوست تولید می‌کردند.(اغلب خروجی یکسان تولید می‌شد)

به جای رفع ایرادهای بنیادین در مجموعه‌داده‌ها، توسعه‌دهندگان این ابزارها سعی کردند با روش‌هایی مثل رفع سوگیری[۲۴] یا افزودن فیلترهای تنوع ظاهری، مشکل را بپوشانند — که همین باعث شد مدل جدید گوگل جمینای وقتی از آن خواسته شد «تصویر یک سرباز آلمانی در سال ۱۹۴۳» بسازد، «نازی‌های رنگین‌پوست» تولید کند!

هنر مرده است و ما قاتلش هستیم!

با پیشرفت سریع ابزارهای تبدیل متن به تصویر، فرضیات آشفته و ترسناکی حول محور این تکنولوژی شکل گرفت:

آیا هوش مصنوعی مولد همه چیز را تغییر می‌دهد»؛

آیا هوش مصنوعی هنرمندان را منقرض خواهد کرد؟»؛

آیا هوش مصنوعی پایان کار طراحان است؟»؛

هنر مرده است و ما قاتلش هستیم.”

برخی از این تیترها از سوی حامیان پرشور هوش مصنوعی بودند و برخی دیگر از جانب بدبینان و خود هنرمندان. در مه ۲۰۲۳، نامه‌ای سرگشاده با عنوان «محدود کردن استفاده از تصویرسازی هوش مصنوعی در نشر» در وب‌سایت مرکز «پژوهش هنری و گزارش‌گری» منتشر شد. نویسندگان آن، ماریسا مازریا کَتس (مدیر مرکز) و تصویرگر چپ‌گرای مشهور، مولی کربپل بودند.

این نامه رابطه‌ای رؤیایی میان روزنامه‌نگاری و تصویرسازی را توصیف می‌کند که «نه‌فقط به خبر، بلکه به جوهرۀ انسانیِ روایت پیوند خورده است». در مقابل، ابزارهای مولد در چند ثانیه «تصاویر دقیق و صیقل خورده‌ای تولید می‌کنند که پیش‌تر باید با دست کشیده می‌شدند» — تصاویری که یا رایگان‌اند یا با بهایی چند سِنتی در دسترس قرار می‌گیرند. نامه با دعوتی برای بستن پیمان در حمایت از «ارزش‌های انسانی و مخالفت با جایگزینی هنر انسانی با تصاویر مولد هوش مصنوعی» پایان می‌یابد. بیش از ۴۰۰۰ نفر از نویسندگان، روزنامه‌نگاران، هنرمندان و چهره‌های مشهور آن را امضا کردند.

دلایل زیادی برای احتیاط در استفاده از هوش مصنوعی مولد در روزنامه‌نگاری وجود دارد — از جمله سوگیری‌های درونی فناوری و ردپای عظیم انرژی آن. در اواخر ۲۰۲۳، استیبل دیفاشن نشان داد که در تصورش، «عراق» همواره میدان جنگ است، «کارگر خدمات اجتماعی» هرگز سفیدپوست نیست، اما آن مرد «ثروتمند و زیبا» سفیدپوست است و شخص «در حال نظافت» اغلب زن است. میدجنری هم وقتی از آن خواسته می‌شد «فردی هندی» بسازد، تقریباً همیشه پیرمردی ریش‌دار با عمامۀ نارنجی ترسیم می‌کرد و «خانه‌ای در نیجریه» را ساختمانی مخروبه با سقف فلزی یا حصیری می‌دید.

در همین حال، پژوهشی در نوامبر ۲۰۲۳ نشان داد که تولید تنها یک تصویر با هوش مصنوعی مولد تقریباً به اندازه‌ نیمه‌شارژ کردن یک تلفن همراه انرژی مصرف می‌کند — بسیار بیشتر از تولید متن — و هرچه مدل‌ها پیچیده‌تر و قدرتمندتر می‌شوند، مصرف انرژی آن‌ها نیز سر به فلک می‌کشد.

تهدیدهایی که دربارۀ «ارزش‌های انسانی» و «انسانیت» هنر مطرح می‌شوند، به نظرم اغراق‌آمیزند. انسان‌ها هستند که هوش مولد را می‌سازند – نه فقط کدها و سازوکارهای پشت فناوری. زیرساخت انسانی در هر مرحله از کار پیشتاز است: افرادی که در پلتفرم‌ها استخدام شده‌اند تا فقط و فقط تصاویر مربوط به پرندگان یا محیط زیست را برچسب گذاری کنند، آدم‌های گمنامی که در ایکس (توییتر سابق) مطالب بی‌ربط منتشر می‌کنند و ناظران محتوای کنیایی که ساعتی دو دلار می‌گیرند تا بدون فیلتر با تصاویر هولناک روبه‌رو شوند، فقط برای اینکه کسی نتواند به‌طور تصادفی با  دال‌ای تصاویر آزار جنسی کودکان بسازد. انتخاب‌ها، خطاها و تعصبات انسانی، شالوده‌ اصلی این ابزارها هستند. چیزی که بیشتر از هرچیز در هوش مولد[۲۵] مرا می‌ترساند، همین «انسانیت» آن است — همه‌ی فرض‌ها و سوگیری‌هایی که از تصاویر آموزشی‌اش به ارث برده، هر پیش‌داوری بازتولیدشده در مجموعه‌های برچسب‌گذاری‌شده و هر خستگی و شتاب کارگرانی که برای چند سنت کلیک می‌کنند و تصویرها را مرتب می‌سازند.

اما مسئلۀ معیشت هنرمندان چه می‌شود؟ درست است که «هیچ تصویرگری نمی‌تواند آن‌قدر سریع یا ارزان کار کند که با این ربات‌ها رقابت کند»، با این حال، اینکه بگوییم «اگر این فناوری بدون کنترل رها شود، چهرۀ روزنامه‌نگاری را به‌طور بنیادی دگرگون می‌کند»، تصویری بیش از حد خوش‌بینانه از این حوزه می‌دهد. آیندۀ تاریکی که آن‌ها از آن می‌ترسند – جایی که «فقط اقلیتی کوچک از هنرمندان می‌توانند دوام بیاورند و آثارشان به نماد تجمل تبدیل شود» – متأسفانه همین حالاست. بسیاری از نشریات (و حتی شاید بیشترشان) پرداخت دستمزد منصفانه برای خلق تصاویر سفارشی را هزینه‌ای غیرقابل‌توجیه می‌دانند. چرا باید پول بدهند وقتی هزاران عکس و تصویر استوک ارزان در دسترس است؟ یا میم‌هایی که می‌شود با راست‌کلیک برداشت، تصاویر متن‌بازی که از ویکی‌مدیا قابل دانلودند و طرح‌هایی که خیلی‌ها بی‌اجازه اسکرین‌شات می‌گیرند و استفاده می‌کنند؟

آن دسته از نشریات و کسب‌وکارهایی هم که هنوز سفارش کار تازه می‌دهند، سال‌هاست طراحی و تصویرسازی را از طریق پلتفرم‌های کار فریلنس ارزان‌قیمت مثل فایور[۲۶] برون‌سپاری می‌کنند – پلتفرم‌هایی که اساساً از مدل مکانیکال ترک الهام گرفته‌اند.

بهترین مسیر برای حفاظت از نیروی کار، احتمالاً این است که افرادی که در خلق تصاویر ارتباطی و اثرگذار مهارت دارند – تصویرگران، هنرمندان، عکاسان و ویراستاران عکس – خودشان بهترین استفاده‌کنندگان از این سیستم‌ها باشند. مجلۀ وایرد، نخستین نشریۀ آمریکایی با سیاست رسمی دربارۀ هوش مصنوعی، همین ایده را در راهنمایش تشریح کرده است. در آن آمده: «برخی از هنرمندان هوش مولد را همانند ابزارهای دیجیتال دیگر در فرآیند خلاقۀ خود به کار می‌گیرند. وایرد از این هنرمندان سفارش کار می‌پذیرد، به‌شرطی که کار شامل مشارکت خلاقانه‌ و چشمگیر هنرمند باشد و آشکارا از آثار موجود تقلید نکند یا حقوق مؤلف را نقض ننماید. در چنین مواردی، استفاده از هوش مولد افشا خواهد شد.» همچنین تأکید کرده که از هوش‌مولد[۲۷] برای جایگزینی عکس‌های استوک استفاده نخواهد کرد، چرا که فروش این تصاویر منبع اصلی درآمد بسیاری از عکاسان حرفه‌ای است. (بیانیه‌ روزنامه‌ گاردین دربارۀ سیاستش در قبال هوش مولد را نیز می‌توان در وب‌سایتش خواند.)

بهترین مسیر برای حفاظت از نیروی کار، احتمالاً این است که افرادی که در خلق تصاویر ارتباطی و اثرگذار مهارت دارند – تصویرگران، هنرمندان، عکاسان و ویراستاران عکس – خودشان بهترین استفاده‌کنندگان از این سیستم‌ها باشند.

مانند لپ‌تاپ، دوربین یا قلم‌مو، مدل‌های هوش مولد هم ابزارند و کارایی‌شان به مهارت و درک کاربر بستگی دارد. اما این ابزارها نیز ساخته و نگه‌داری‌شده به‌دست انسان‌اند؛ انسان‌هایی که باید حضورشان در زنجیرۀ تولید تصویر دیده و در مباحث مربوط به معیشت‌شان لحاظ شود. بنابراین، به‌جای اصطلاح «هوش مصنوعی»، من ترجیح می‌دهم از «هوش بیگانه» یا «هوش بی‌جایگاه‌شده» استفاده کنم. این هوش – این انسانیت! – جعلی نیست؛ فقط پنهان شده، برون‌سپاری و ادغام شده و در قالب الگوریتم‌هایی بازنویسی‌شده که بی‌صدا به بهبود و یادگیری ادامه می‌دهند.

البته می‌دانم مزریا کتز و کراب‌اپل چه احساسی دارند. اینکه الگوریتمی سبک شخصیِ پیچیده و منحصر‌به‌فرد تو را «بدزدد»، توهین‌آمیز است. دوست دارم باور کنم که چیزی محسوس و واقعی در تصاویر تولیدشده‌ هوش مصنوعی گم شده است – چیزی که به آن «دستِ هنرمند» می‌گوییم: همان ظرافت‌های انسانی، خطاهای کوچک و ردهای زندگی که روی اثر باقی می‌مانند. اما باید صادق باشم: من در بسیاری از آزمون‌های آنلاین تشخیص تصویر انسانی از تصویر تولیدشده توسط هوش مصنوعی شرکت کرده‌ام و اغلب نمره‌ام پایین بوده! البته این آزمون‌ها طوری طراحی می‌شوند که گمراه‌کننده باشند، اما با توجه به اینکه سابقۀ کار به‌عنوان طراح گرافیک، مدرس طراحی و دبیر مجلۀ هنری دارم، انتظار داشتم چشمی تیزبین‌تر داشته باشم. پس واقعاً نشانۀ نبودِ انسانیت چیست؟

در روزهای اولیۀ دال ای، استیبل دیفاشن و میدجنری، ایرادهای خاص هر سیستم – مثل انگشت‌های ناقص، تکرار عناصر، تمایل به ترکیب‌بندی مرکزی، یا خطاهای فیزیکی – راحت‌تر آن‌ها را لو می‌داد. اما با هر نسل جدید و آپدیت تازه، این نشانه‌ها کمتر و کمتر شدند.

دوران «مهندسی پرامپت»

ابزارهای تبدیل متن-به-تصویر (و بالعکس) بر پایۀ پردازش زبان طبیعی ساخته شده‌اند، اما زبانی که بیشترین خروجی مطلوب را می‌دهد، اغلب کمترین شباهت را به «زبان طبیعی» دارد. نحو و دستور زبانی که در پرامپت‌نویسی استفاده می‌شود، آن‌قدر خاص است که بازاری برای «مهندسان پرامپت» به‌وجود آمده و وبلاگ‌ها و ویدیوهای آموزشیِ پرامپت‌نویسی سر به فلک کشیده‌اند.

راهنماهای پرامپت‌نویسی معمولاً ساختاری سه‌جزئی پیشنهاد می‌کنند‌: سوژه، توصیف، و سبک/ زیبایی‌شناسی تصویر. سوژه عنوان کار است. مثل حرف زدن دربارۀ یک گربه یا یک سگ. توصیف مثل:

(گربه‌ای که قهوه می‌نوشد[۲۸]) یا (گرازی که در اقیانوس شنا می‌کند[۲۹]). اما وقتی نوبت به «سبک» می‌رسد، فهرست واژه‌ها پیچیده‌تر می‌شود. مثلاً «پوستر حماسی»، «کارتونی بامزه» یا «تصویر قابل استفاده برای میم» از سبک‌های رایج‌اند.

عباراتی مثل ریترو و پرداکت به واژگان پرامپت‌نویسی تبدیل شده‌اند. نام نرم‌افزارها و پلتفرم‌ها – از سینما چهار بعدی[۳۰] و اکتان[۳۱] گرفته تا آرت استیشن[۳۲] – یک‌شبه به صفت‌های تصویری بدل شده‌اند. نام هنرمندان نیز بیش از آنکه برای تقلید به‌کار روند، به‌عنوان میان‌بری برای دستیابی به سبک بصری‌شان استفاده می‌شوند. همان‌طور که در فرهنگ عمومی، نام‌هایی مثل لویی چهاردهم یا باوهاوس به یک دوره یا سبک خاص اشاره می‌کنند، زبان پرامپت این روند را شتاب داده است. امروزه وب‌سایت‌هایی وجود دارند که هزاران سبک تصویری را بر اساس نام هنرمندان فهرست کرده‌اند – عمدتاً هنرمندان دیجیتال و طراحان مفهومی.

نوشتن پرامپت خوب مستلزم یادگیری این واژه‌ها و درک مجموعۀ عظیمی از پدیده‌های بصری است. بااین‌حال، هنوز بخش‌های زیادی از عملکرد درونی الگوریتم‌های یادگیری عمیق ناشناخته‌اند. سم بومن، مدیر یک آزمایشگاه پژوهش هوش مصنوعی در دانشگاه نیویورک، گفته: حتی متخصصانی مانند خودش هم نمی‌دانند دقیقاً چه مفاهیم یا «قواعد استدلالی» درون این سیستم‌های پیچیده به کار می‌رود. او اعتراف کرده:

ما آن را ساختیم، ما آن را آموزش دادیم، اما نمی‌دانیم دارد دقیقاً چه می‌کند.”

نبود انسانیت یا انباشت آن؟

در اکتبر ۲۰۲۲، دال ای‌2 در درک سرنخ‌های متنی و ترتیب واژه‌ها ضعف داشت؛ به‌ویژه وقتی پای صفت‌ها و عبارت‌های توصیفیِ مربوط به اسم یا فعل وسط بود. مثلاً اگر به دال‌ای2 می‌گفتی (یک ماهی و یک شمش طلا[۳۳])، اغلب تصویری از یک ماهی طلایی تحویلت می‌داد — انگار تلاش می‌کرد نوعی بازی زبانی انجام دهد و «ماهیِ طلا» را با «ماهی و طلا» یکی بگیرد.

دال‌ای2 در برابر واژه‌های هم‌نویسه (کلماتی که املای یکسان اما معنای متفاوت دارند) کاملاً گیج می‌شد. یکی از نمونه‌های معروف — که پژوهشگران رویی راسین، شائولی راوفوگل و یواف گلدبرگ توضیح داده‌اند — پرامپتِ «یک بت[۳۴] بر فراز استادیوم پرواز می‌کند[۳۵]» بود. نتیجۀ تصویری کارتونی و شاد از یک استادیوم بیسبال بود که در آن هم خفاش (حیوان)، هم چوب بیسبال و هم توپ بیسبال، همگی در آسمان پرواز می‌کردند!

مشکل این است که برچسب «بت» در دیتا ست به دو الگوی تصویریِ متفاوت اشاره دارد و مدل نمی‌داند کدام را انتخاب کند، پس برای اطمینان، هر دو را در تصویر می‌گنجاند.

راسین و همکارانش این نوع آشفتگی در تبدیل زبان به تصویر را «نشت معنایی ویژگی‌ها» می‌نامند. در آن تصویر، دو نوع «خفاش» ظاهراً کنار هم در پروازند؛ شاید حتی خفاش (حیوان) چوب بیسبال را در دست گرفته باشد! لکۀ سفید اشکالی روی صورتش هم شبیه لبخند است، انگار حیوان دارد از پروازش لذت می‌برد. سمت چپ تصویر نیز یک تکه ابر خاکستری و صاعقه دیده می‌شود. نویسندگان مقاله توضیح زبانی دقیقی برای حضور صاعقه ارائه نمی‌دهند، اما حدس شخصی من این است که چون خفاش‌ها اغلب در تصاویر مربوط به جادوگرها و طلسم‌ها ظاهر می‌شوند، مدل هم به‌طور ناخودآگاه آن ارتباط را فعال کرده و صاعقه را اضافه کرده است.

صاعقه درواقع مثالی از چیزی است که راسین و همکارانش «محرک‌های درجه دوم» می‌نامند: یعنی شبکه‌ای از تداعی‌های زبانی و تصویری که معمولاً از آن‌ها آگاه نیستیم. وقتی از دال‌ای2 می‌خواهی «یک آرمادیلو در ساحل» بکشد، معمولاً چند صدف هم کنارش می‌گذارد. چرا؟ چون در خوشۀ واژگان مرتبط با «آرمادیلو»، کلماتی مثل «پستاندار»، «زره»، «توپ» و «صدف» هم دیده می‌شود. (برای مقایسه، اگر بگویی «سگی در ساحل»، تصویر دریا و ماسه را می‌سازی، اما نه صدف.)

این نشت معنایی ویژگی‌ها، گاهی باعث می‌شود تصویرها رنگی از طنز یا بی‌منطقی پیدا کنند — و منتقدان آن را نشانۀ ضعف هوش مولد بدانند. اما واقعیت این است که این پدیده بیش از آنکه نشان از خامی مدل باشد، نشان‌دهندۀ حساسیت پیچیدۀ آن نسبت به روابط معنایی است. مثلاً اگر بنویسی (پرنده‌ای بلندقد با پاها و گردن دراز در کنار یک کارگاه ساختمانی)، نتیجه معمولاً شامل پرنده درنا[۳۶] و جرثقیل[۳۷] خواهد بود. در نگاه اول شاید اشتباه به‌نظر برسد، اما درواقع نوعی درک پیشرفته از رابطه‌ واژگانی‌ست.

به این ترتیب، ابزارهای هوش‌مولد – با تمام سوگیری‌ها و الگوهایشان – نه‌فقط ضعف‌های زبان، بلکه ظرافت‌ها و ابهام‌های آن را هم به تصویر می‌کشند. آن‌ها بازتابی از چندگانگی و لغزش‌های درونی زبان‌اند؛ به‌ویژه در انگلیسی که سرشار از هم‌نویسه و هم‌صداست.

فناوری‌های جدید تولید تصویر — از چاپ گرفته تا عکاسی و تصویربرداری ماهواره‌ای — همیشه دید ما از جهان را تغییر داده‌اند و در نتیجه رفتارمان را هم دگرگون کرده‌اند. حالا پرسش این است: این تصاویر الگوریتمی دارند به ما چه یاد می‌دهند؟ چه چیزی را ببینیم، بگوییم و انجام دهیم؟

تا ژانویۀ ۲۰۲۴، ابزارهای تبدیل متن‌به‌تصویرِ هوش‌مولد روزانه ۳۴ میلیون تصویر تولید می‌کردند. این رقم هنوز از شمار عکس‌هایی که انسان‌ها روزانه می‌گیرند کمتر است، اما تا کی؟ از این‌جا به بعد، عاقلانه‌تر است که فرض کنیم هر تصویری که می‌بینیم، ممکن است ساختۀ هوش مولد باشد.

آنچه این تصاویر را متمایز می‌کند، نه «نبودِ انسانیت» در آن‌ها، بلکه انباشت بیش از اندازه‌ انسانیت درونشان است

هر پرامپت، زنجیره‌ای از همکاری‌های شبکه‌ای را میان هنرمندان، پژوهشگران، کارگران کلیک‌زن و کاربران ناشناس اینترنتی در سراسر زمان و مکان فعال می‌کند — یک بازی عظیم و بی‌پایان از ساختن زنجیره‌ تصاویر با توصیف‌های متوالی.

چه بخواهیم و چه نخواهیم، همه‌ ما — چه تصویرگران پیشاالگوریتمی باشیم، چه هنرمندانِ خودخوانده‌ هوش مصنوعی — ناچاریم یاد بگیریم در این بازی تازه، بازی کنیم.

منابع
سایر مقالات