با پیشرفت تکنولوژی در عصر معاصر،هوش مصنوعی مولد، تبدیل به ماشینی شده که در حال تصاحب نقش انسانهاست — با این حال، انسان همچنان در اریکه قدرت است. هوش مصنوعی بدون اراده ما از کار خواهد افتاد . در واقع، این توسعهدهندگان و شرکتهای بزرگ فناوری هستند که اختیار اصلی هوش مصنوعی را در دست دارند.
وقتی دوستانم چند دقیقه وقت آزاد دارند، معمولاً سراغ یک بازی گروهی جدید میروند و قرعه این دفعه بنام بازی تازهای افتاد که مبتنی بر هوش مصنوعی ایجاد شده است. این بازی بر پایۀ بازی سوررئالیستی به نام جسد شکوهمند[۱] است و در آن، پرامپتهای کوتاه نوشتهشده به سرعت به نقش تبدیل شده و در بستر بازی اجرا میشوند. یک گروه آن را فرهنگ لغت تلفن[۲] مینامند، گروهی دیگر نویسه-نقاشی[۳]. یک جستجوی ساده در اینترنت به من میگوید نام دیگرش (بخور و بازی کن گربه)[۴] است — نامی جذاب که از یکی از مراحل همین بازی الهام گرفته شده است.
تا همین سه سال پیش، دیدن اشتباههای ترجمهای میان متن و تصویر[۵] در زندگی روزمره اتفاقی نادر بود و همین باعث میشد نتایج عجیبوغریب این بازی تازگی و جذابیت خاصی داشته باشد. اما حالا وارد دوران تازهای از تصویرسازی شدهایم. با کمک مولدهای تصویری مبتنی بر هوش مصنوعی مانند دالای 3[۶] و میدجنری[۷] و همچنین ابزارهای مولد موجود در مجموعۀ کلاود[۸]، میتوان تنها در چند ثانیه یک جمله یا عبارت را به تصویری دقیق و پرجزئیات تبدیل کرد. همینطور برعکس، میتوان از روی تصویر، متنی توصیفی تولید کرد. امروز هر کسی میتواند در اتاق خودش ( بخور و بازی کن گربه) بازی کند — اینبار در همراهی با الگوریتمها.
تابستان ۲۰۲۳ خودم این کار را امتحان کردم. از نسخۀ تحت مرورگر و یک برنامۀ هوش مصنوعی به نام کلیپ اینترگیتر[۹] استفاده کردم که هر تصویر را به یک «پرامپت» متنی تبدیل میکند. بازی تنها سه دقیقه طول کشید و دو دور انجامش دادم. با نوشتن عبارت (بخور و بازی کن گربه) در کادر (دستور خود را وارد کنید) بازی را شروع کردم و بعد روی (انتخاب تصویر) کلیک کردم.
اپ در پاسخ به هر پرامپت چهار تصویر میسازد. من کمی تقلب کردم و فقط آن یکی را که بیشتر دوست داشتم انتخاب کردم. از مرکز تصویر، یک گربه راهراه نسبتاً واقعی با چشمان سبز درشت به من زل زده بود. دهانش باز بود و زبانی صورتیرنگ بیرون زده بود. پسزمینۀ خاکستری و بیروح بود و در پایین تصویر نوشتهای سفید و حبابی دیده میشد: «بازی کن، زود باش!»
آن تصویر را در کلیپ اینترگیتر انداختم و برنامه در پاسخ پرامپتی به من برگرداند با این مضمون:
«نمای نزدیک از گربهای با چشمان سبز، متنی آبی، پسزمینۀ شهری حماسی، مدفوع، حاشیه سفید، پسزمینه سفید، زبان بیرونزده، پوستر حماسی، محیط اداری، توالت طلایی، کارتونی خندهدار، اِرین، گوهر زمردین، غذای نامرتب، تصویر قابلدستکاری، ترک دیوار، انگیزشی، شعر متحرک، توالت.»
در کنار رشد ابزارهای مولد، نوعی دستور زبان تازه برای ساخت پرامپتهای تصویری پدید آمده است و پرامپت کلیپ اینترگیتر[۱۰] دقیقاً از همین ساختار لایهلایه جزئیات و سبکها تقلید میکرد — گرچه این مورد خاص بیشازحد نامفهوم بود، مثل روتوشی بی کیفیت از یک عکس قدیمی.
بعد از چند بار رفتوبرگشت دیگر، در نهایت تصویری از یک گربۀ سیاه و قهوهای روی یک توالت دیدم — توالتی که میتوانست اثر فرانک لوید رایت باشد. تکهای دستمال توالت از رول بالا افتاده و روی سر گربه افتاده بود، انگار کلاه گذاشته باشد. نتیجه کار شبیه به یک تابلوی نقاشی بود. سبک آن آشنا به نظر میرسید — اکسپرسیونیستی؟ اکسپرسیونیسم آلمانی؟ سادهنما؟ احتمالاً تحت تأثیر مودیلیانی، پیکاسوی اولیه و برخی از آثار متأخر نقاش واقعگرا لهستانی، آنری هایدن.
کلیپ اینترگیتر این تصویر را چنین توصیف کرد:
” نقاشی از گربهای نشسته بر توالت، صحنهای از بازی پلیاستیشن ۲، در سبک پاپآرت، اثر ایگناسی ویتکیویچ، کارت تاروتِ احمق، الهامگرفته از فیل فاگلیو، پانکدرون، آشپزی مولکولی، اپلیکیشن، بونگ، پرسونای ۵، روبوراک، دیستروی لانلی، سگ، ۱۸۲۴، طراحی کارت تاروت.”
بعد فهمیدم «دستروی لانلی[۱۱]» نام یک خوانندۀ مشهور از آتلانتاست، نه فرمانی برای نابودی تنهایی! رابراک[۱۲] هم برند یک جاروبرقی رباتی است. فیل فاگلیو[۱۳] کارتونیستی است که بیشتر به خاطر طراحیهای غیرعادی و طنزآمیزش برای مجیک: گسرینگ[۱۴] شناخته میشود. حضور «ویتکیویچ»، نویسنده و نقاش لهستانی قرن نوزدهم، حدس من را دربارۀ حس لهستانی تصویر تأیید میکرد.
استیبل دیفاشن [۱۵] ابزاری است کهتصاویر را با تبدیل پرامپت(دستور) به مجموعهای از متغیرهای بصری تولید میکند، در حالی که کلیپ اینترگیتر برعکس، تصویر را به زبان تبدیل میکند. رشتههای ظاهراً تصادفی از اسمها و صفتها که حاصل تلاش شبکههای عصبی برای «خواندن» تصویرند — به نوعی دیگر، تحلیل بخشهایی از پیکسلها برای یافتن نشانههایی که با واژهها مرتبط میشوند، هرچند گاه به شکلی مبهم. ترجمه پیکسلها به عبارت «گربهای نشسته روی توالت» روشن است، اما نشانههای مربوط به «کارت تاروت احمق» نه چندان.
چون برای ترسیم سادهترین گربه در سادهترین موقعیت، بینهایت حالت ممکن وجود دارد، فرایندهای تبدیل متن به تصویر و تصویر به متن هرگز ترجمههای یکبهیک نیستند. اگر چنین بودند، دیگر من و الگوریتمها نمیتوانستیم این بازی را انجام دهیم. اما بررسی دقیق همین پرامپتها و تصاویر شوخیآمیز نیز سرنخهایی از سازوکار پشت این عملیات به دست میدهد.

شکل ۱. یک تصویر تولیدشده توسط هوش مصنوعی/ یک گربه که در یک اتاق نشیمن انتزاعی نشسته است، تولید شده توسط ریچل آسیپ با استفاده از استیبل دیفاشن
تلاشهای اولیه برای تولید تصویر
در برخی از نخستین تلاشها برای ساخت تصویر با هوش مصنوعی، پژوهشگران برای مقابله با چالش پیچیدگی و اندازهی مجموعهدادهها، هم سبک تصویر و هم موضوع آن را محدود کردند. نویسندگان مقاله تأثیرگذار سال ۲۰۱۶ با عنوان «تولید تصویر از متن به روش مولد» توضیح دادند که به طور مثال، مجموعهدادۀ پرندگان شامل ۱۱٬۷۸۸ تصویر از پرندگان بود که به ۲۰۰ گونۀ عمدتاً آمریکای شمالی تقسیم میشدند، همراه با ویژگیهایی مانند «شکل منقار»، «طرح شکم» و «رنگ زیرتنه». این تصاویر از سایت فلیکر[۱۶] گردآوری شدند و سپس توسط نیروی انسانی در پلتفرم مکانیکال ترک[۱۷] آمازون — سامانهای برای برونسپاری کار که گاه از آن به عنوان «هوش مصنوعیِ مصنوعی» یاد میشود — دستهبندی و برچسبگذاری شدند.
اگرچه به نظر میرسد ابزارهای تبدیل متن به تصویر امروزی کاملاً خودکارند، اما در واقع ساختار و نگهداری آنها به حجم عظیمی از کار انسانی وابسته است — از کارهای تکراری و کمدرآمدی که عمدتاً در کشورهای جنوب جهانی انجام میشوند بگیر تا کارهای رایگان روزمرهای که ما هنگام پر کردن کپچاها انجام میدهیم. برای یادگیری، شبکههای عصبی نیاز به مجموعهای اولیه از تصاویر برچسبخورده دارند، این برچسبگذاری را در ابتدا انسانها باید انجام دهند. مثلاً در مورد گونهای از مرغ دریایی به نام مرغ دریایی بالخاکستری[۱۸]»انسانها باید موقعیت بخشهایی مانند «پشت»، «منقار»، «شکم»، «سینه» و ویژگیهایی مثل «طول منقار تقریباً برابر با سر» را در ۵۹ عکس مختلف مشخص میکردند. (مجموع تصاویر به شکلی سادهتر از قبل، با جستوجو در وب و گرفتن عکس گردآوری شده بودند.)
با آموزش شبکههای مولد[۱۹] روی این مجموعهدادههای محدود، نویسندگان مقاله توانستند تصاویری منحصربهفرد و تا حدی واقعی از پرندگان بسازند؛ مثلاً از جمله «این پرندهی کوچک منقاری کوتاه، تیز و نارنجی دارد و شکمی سفید» یا «این پرندهی باشکوه تقریباً تماماً سیاه است با تاجی قرمز و لکهای سفید روی گونه» برای تعریف پرامپتها استفاده کردند .
از چهرههایی که وجود ندارند تا هوش مصنوعی عام
چند سال بعد، اوایل ۲۰۱۹، شرکت آمریکایی انویدیا[۲۰] نسخهی متنباز هوش مصنوعی (استایلگان[۲۱]) را منتشر کرد — مدلی که قادر است بینهایت تصویر مصنوعی و منحصربهفرد از چهرهها تولید کند و به کاربر اجازه دهد ویژگیهایی مانند شکل صورت و مدل مو را تنظیم کند. (این مدل نیز با هزاران تصویر از فلیکر آموزش دیده بود و انویدیا ادعا کرد که فقط تصاویر دارای مجوز آزاد جمعآوری شدهاند.)
کمی بعد، مهندس نرمافزاری به نام فیلیپ وانگ وبسایت طراحی خاصی را ساخت؛ سایتی که با هر بار تازهسازی، چهرهای مصنوعی و تصادفی تولید میکرد. بعد از آن، موجی از تقلیدها به راه افتاد و بسیاری نمونههای دیگر.
در حالی که بیش از یک سال بود اخبار دربارهی دیپفیکها تیتر رسانهها را پر کرده بود، هجوم ناگهانی تصاویر «انسانهایی که وجود ندارند» بهنوعی زنگ خطر جمعی را به صدا درآورد. این چهرههای جعلی خیلی زود تهدیدی برای دموکراسی معرفی شدند . درخواستها برای ساخت الگوریتمهای تشخیص و برچسبگذاری تصاویر بالا گرفت. در همین حین، استایلگان حوزهی کاری خود را گسترش داد و شروع به تولید پرترههای انیمه کرد. هرچند که نوع تصویر تغییر کرد، اما موضوع همچنان محدود باقی ماند.
در مقابل، پروژهای به نام ایمیجنت که در سال ۲۰۰۶ به ابتکار دانشمند علوم کامپیوتر فیوی لی آغاز شد، هدف بلندپروازانهتری داشت: «نقشهبرداری از کل دنیای اشیاء». این مجموعهداده شامل بیش از ۱۴ میلیون تصویر برچسبخورده است که در بیش از ۱۰۰ هزار دسته معنایی سازماندهی شدهاند و با کمک بیش از ۲۵ هزار کارگر در مکانیکال ترک ساخته شدند. با وجود این حجم، هنوز در مقایسه با پیچیدگی بیپایان جهان، ناچیز است.
اما سادهسازی بیش از حد و دستهبندی غیرمنعطف، بهویژه دربارهی انسانها، همیشه خطرناک است . ایمیج نت بر اساس ساختار واژگانی شکل گرفت که ریشه در دههی ۱۹۸۰ داشت و از منابع قدیمیتر وام گرفته بود. در نتیجه، با ساختهشدن هر مجموعه جدید، منطق و سلسلهمراتب دادههای قبلی تکرار شد. پژوهشگر کیت کرافورد و هنرمند تروِر پَگلن نشان دادهاند که نسخه اولیهی ایمیج نت شامل تصویر کودکی با برچسب «بازنده» بود و دستههایی مانند «زن هرزه»، «روسپی» و «نژاد سیاه» را در بر داشت؛ همچنین «دوجنسه» را زیرمجموعه «دوجنسگرا» قرار داده بود و آن را هم زیر شاخهی «حسگرا»، در کنار واژههایی مانند «شهوت» و «شکمپرست». در سال ۲۰۱۹، ایمیج نت بیش از ۶۰۰ هزار تصویر را که دارای برچسبهای «ناامن»، «توهینآمیز» یا «حساس» بودند حذف کرد — تلاش در جهت اصلاح چارچوبی که از اساس معیوب بود. با این حال، در مقایسه با نسلهای بعدی، دسته بندی های فعلی ایمیج نت منظم و محتاط به نظر میرسند.
هوش مصنوعی مولد به جریان اصلی میپیوندد
در ۵ ژانویه ۲۰۲۱، مؤسسهی پژوهشیOpenAI در سانفرانسیسکو از مدل دال ای رونمایی کرد و همزمان کلیپ[۲۲](یکی از مدلهای برتر و جدید هوش مصنوعی) را معرفی کرد — شبکهای عصبی برای طبقهبندی تصاویر که در فرایند دال ای ادغام شده بود. در پستی خودستایانه در وبلاگ رسمیOpenAI ، این برند از ایمیجنت هم انتقاد کرد؛ هم به خاطر پرهزینه بودنش از نظر زمان و نیروی انسانی و هم به دلیل محدودیت محتوایی آن. نویسندگان نوشتند:
در مقابل، کلیپ اینترگیتر از عکسها و دادههایی که از قبل در اینترنت بهصورت عمومی وجود دارند یاد میگیرد. شاید بپرسید که چقدر احتمال دارد که به مشکل بخورد؟ پاسخ روشن است ، بسیار کم ! باتوجه به حجم عظیمی از دادهها و تصاویر و محتوا که در اینترنت بازنشر شده اند، احتمالا این ابزار در یادگیری و الهام گرفتن ، دچار مشکل نخواهد شد.
میدانیم که کلیپ شامل هزاران اثر از هنرمندان، تصویرگران، عکاسان و طراحان گرافیک است، چون یکی از قابلیتهای تشویقشده در دال ای این بود که از آن بخواهید تصویری «در سبک هنرمندی خاص» تولید کند. تابستان ۲۰۲۲، تقریباً یک سال پس از عرضه نسخهی عمومی به نام دال ای مینی[۲۳]، شبکههای اجتماعی پر شد از تصاویری با الگوی جدید، ترکیب موضوع و سبکی نامعمول:
کیم کارداشیان به سبک سالوادور دالی ، ساندویچ کرهی بادامزمینی به شکل مکعب روبیک و …
اما این تصاویر مصنوعی صرفاً «وصلهپینههای دیجیتالی» از قطعات موجود در وب نیستند. مدلهای هوش مصنوعی مولد مفاهیم کلی از نشانهها، سبکها و الگوهای بصری میسازند که با چیدمان پیکسلها همبستگی دارند. الگوریتمهای یادگیری عمیق دال ای، چیدمان پیکسلهای یک تصویر دیجیتال را در صدها محور متغیر رمزگشایی میکنند تا ساختار آن را بفهمند و سپس از این دانش برای ساخت تصاویر جدید و مشابه استفاده کنند. وقتی از مدلی مانند دالای یا استیبل دیفاشن میخواهید تصویری را در سبک یک هنرمند خاص بسازد، در واقع آن هنرمند را کپی نمیکند، بلکه الگوهایش را بازتفسیر میکند — موضوعاتش، ترکیببندیها و استفاده از رنگ و فرم.
تنوع و تعداد تصاویری که از هر هنرمند در اینترنت وجود دارد، تأثیر مستقیمی بر کیفیت خروجی این مدلها دارد: هرچه دادههای بصری بیشتری از آثار یک هنرمند در دسترس باشد، مدل بهتر سبک او را بازتولید میکند. به همین ترتیب، هر ایدهی تصویری که بیشتر در وب دیده شود، احتمال تکرارش در خروجیها بیشتر است. برای نمونه، چون در اینترنت تصاویر زیادی از «مردان سفیدپوست در نقش جراح» وجود دارد، ابزارهای هوش مصنوعی در سال ۲۰۲۳ در پاسخ به پرامپت «جراح» تصویری از یک مرد سفیدپوست تولید میکردند.(اغلب خروجی یکسان تولید میشد)
به جای رفع ایرادهای بنیادین در مجموعهدادهها، توسعهدهندگان این ابزارها سعی کردند با روشهایی مثل رفع سوگیری[۲۴] یا افزودن فیلترهای تنوع ظاهری، مشکل را بپوشانند — که همین باعث شد مدل جدید گوگل جمینای وقتی از آن خواسته شد «تصویر یک سرباز آلمانی در سال ۱۹۴۳» بسازد، «نازیهای رنگینپوست» تولید کند!
هنر مرده است و ما قاتلش هستیم!
با پیشرفت سریع ابزارهای تبدیل متن به تصویر، فرضیات آشفته و ترسناکی حول محور این تکنولوژی شکل گرفت:
آیا هوش مصنوعی مولد همه چیز را تغییر میدهد»؛
آیا هوش مصنوعی هنرمندان را منقرض خواهد کرد؟»؛
آیا هوش مصنوعی پایان کار طراحان است؟»؛
“هنر مرده است و ما قاتلش هستیم.”
برخی از این تیترها از سوی حامیان پرشور هوش مصنوعی بودند و برخی دیگر از جانب بدبینان و خود هنرمندان. در مه ۲۰۲۳، نامهای سرگشاده با عنوان «محدود کردن استفاده از تصویرسازی هوش مصنوعی در نشر» در وبسایت مرکز «پژوهش هنری و گزارشگری» منتشر شد. نویسندگان آن، ماریسا مازریا کَتس (مدیر مرکز) و تصویرگر چپگرای مشهور، مولی کربپل بودند.
این نامه رابطهای رؤیایی میان روزنامهنگاری و تصویرسازی را توصیف میکند که «نهفقط به خبر، بلکه به جوهرۀ انسانیِ روایت پیوند خورده است». در مقابل، ابزارهای مولد در چند ثانیه «تصاویر دقیق و صیقل خوردهای تولید میکنند که پیشتر باید با دست کشیده میشدند» — تصاویری که یا رایگاناند یا با بهایی چند سِنتی در دسترس قرار میگیرند. نامه با دعوتی برای بستن پیمان در حمایت از «ارزشهای انسانی و مخالفت با جایگزینی هنر انسانی با تصاویر مولد هوش مصنوعی» پایان مییابد. بیش از ۴۰۰۰ نفر از نویسندگان، روزنامهنگاران، هنرمندان و چهرههای مشهور آن را امضا کردند.
دلایل زیادی برای احتیاط در استفاده از هوش مصنوعی مولد در روزنامهنگاری وجود دارد — از جمله سوگیریهای درونی فناوری و ردپای عظیم انرژی آن. در اواخر ۲۰۲۳، استیبل دیفاشن نشان داد که در تصورش، «عراق» همواره میدان جنگ است، «کارگر خدمات اجتماعی» هرگز سفیدپوست نیست، اما آن مرد «ثروتمند و زیبا» سفیدپوست است و شخص «در حال نظافت» اغلب زن است. میدجنری هم وقتی از آن خواسته میشد «فردی هندی» بسازد، تقریباً همیشه پیرمردی ریشدار با عمامۀ نارنجی ترسیم میکرد و «خانهای در نیجریه» را ساختمانی مخروبه با سقف فلزی یا حصیری میدید.
در همین حال، پژوهشی در نوامبر ۲۰۲۳ نشان داد که تولید تنها یک تصویر با هوش مصنوعی مولد تقریباً به اندازه نیمهشارژ کردن یک تلفن همراه انرژی مصرف میکند — بسیار بیشتر از تولید متن — و هرچه مدلها پیچیدهتر و قدرتمندتر میشوند، مصرف انرژی آنها نیز سر به فلک میکشد.
تهدیدهایی که دربارۀ «ارزشهای انسانی» و «انسانیت» هنر مطرح میشوند، به نظرم اغراقآمیزند. انسانها هستند که هوش مولد را میسازند – نه فقط کدها و سازوکارهای پشت فناوری. زیرساخت انسانی در هر مرحله از کار پیشتاز است: افرادی که در پلتفرمها استخدام شدهاند تا فقط و فقط تصاویر مربوط به پرندگان یا محیط زیست را برچسب گذاری کنند، آدمهای گمنامی که در ایکس (توییتر سابق) مطالب بیربط منتشر میکنند و ناظران محتوای کنیایی که ساعتی دو دلار میگیرند تا بدون فیلتر با تصاویر هولناک روبهرو شوند، فقط برای اینکه کسی نتواند بهطور تصادفی با دالای تصاویر آزار جنسی کودکان بسازد. انتخابها، خطاها و تعصبات انسانی، شالوده اصلی این ابزارها هستند. چیزی که بیشتر از هرچیز در هوش مولد[۲۵] مرا میترساند، همین «انسانیت» آن است — همهی فرضها و سوگیریهایی که از تصاویر آموزشیاش به ارث برده، هر پیشداوری بازتولیدشده در مجموعههای برچسبگذاریشده و هر خستگی و شتاب کارگرانی که برای چند سنت کلیک میکنند و تصویرها را مرتب میسازند.
اما مسئلۀ معیشت هنرمندان چه میشود؟ درست است که «هیچ تصویرگری نمیتواند آنقدر سریع یا ارزان کار کند که با این رباتها رقابت کند»، با این حال، اینکه بگوییم «اگر این فناوری بدون کنترل رها شود، چهرۀ روزنامهنگاری را بهطور بنیادی دگرگون میکند»، تصویری بیش از حد خوشبینانه از این حوزه میدهد. آیندۀ تاریکی که آنها از آن میترسند – جایی که «فقط اقلیتی کوچک از هنرمندان میتوانند دوام بیاورند و آثارشان به نماد تجمل تبدیل شود» – متأسفانه همین حالاست. بسیاری از نشریات (و حتی شاید بیشترشان) پرداخت دستمزد منصفانه برای خلق تصاویر سفارشی را هزینهای غیرقابلتوجیه میدانند. چرا باید پول بدهند وقتی هزاران عکس و تصویر استوک ارزان در دسترس است؟ یا میمهایی که میشود با راستکلیک برداشت، تصاویر متنبازی که از ویکیمدیا قابل دانلودند و طرحهایی که خیلیها بیاجازه اسکرینشات میگیرند و استفاده میکنند؟
آن دسته از نشریات و کسبوکارهایی هم که هنوز سفارش کار تازه میدهند، سالهاست طراحی و تصویرسازی را از طریق پلتفرمهای کار فریلنس ارزانقیمت مثل فایور[۲۶] برونسپاری میکنند – پلتفرمهایی که اساساً از مدل مکانیکال ترک الهام گرفتهاند.
بهترین مسیر برای حفاظت از نیروی کار، احتمالاً این است که افرادی که در خلق تصاویر ارتباطی و اثرگذار مهارت دارند – تصویرگران، هنرمندان، عکاسان و ویراستاران عکس – خودشان بهترین استفادهکنندگان از این سیستمها باشند. مجلۀ وایرد، نخستین نشریۀ آمریکایی با سیاست رسمی دربارۀ هوش مصنوعی، همین ایده را در راهنمایش تشریح کرده است. در آن آمده: «برخی از هنرمندان هوش مولد را همانند ابزارهای دیجیتال دیگر در فرآیند خلاقۀ خود به کار میگیرند. وایرد از این هنرمندان سفارش کار میپذیرد، بهشرطی که کار شامل مشارکت خلاقانه و چشمگیر هنرمند باشد و آشکارا از آثار موجود تقلید نکند یا حقوق مؤلف را نقض ننماید. در چنین مواردی، استفاده از هوش مولد افشا خواهد شد.» همچنین تأکید کرده که از هوشمولد[۲۷] برای جایگزینی عکسهای استوک استفاده نخواهد کرد، چرا که فروش این تصاویر منبع اصلی درآمد بسیاری از عکاسان حرفهای است. (بیانیه روزنامه گاردین دربارۀ سیاستش در قبال هوش مولد را نیز میتوان در وبسایتش خواند.)
بهترین مسیر برای حفاظت از نیروی کار، احتمالاً این است که افرادی که در خلق تصاویر ارتباطی و اثرگذار مهارت دارند – تصویرگران، هنرمندان، عکاسان و ویراستاران عکس – خودشان بهترین استفادهکنندگان از این سیستمها باشند.
مانند لپتاپ، دوربین یا قلممو، مدلهای هوش مولد هم ابزارند و کاراییشان به مهارت و درک کاربر بستگی دارد. اما این ابزارها نیز ساخته و نگهداریشده بهدست انساناند؛ انسانهایی که باید حضورشان در زنجیرۀ تولید تصویر دیده و در مباحث مربوط به معیشتشان لحاظ شود. بنابراین، بهجای اصطلاح «هوش مصنوعی»، من ترجیح میدهم از «هوش بیگانه» یا «هوش بیجایگاهشده» استفاده کنم. این هوش – این انسانیت! – جعلی نیست؛ فقط پنهان شده، برونسپاری و ادغام شده و در قالب الگوریتمهایی بازنویسیشده که بیصدا به بهبود و یادگیری ادامه میدهند.
البته میدانم مزریا کتز و کراباپل چه احساسی دارند. اینکه الگوریتمی سبک شخصیِ پیچیده و منحصربهفرد تو را «بدزدد»، توهینآمیز است. دوست دارم باور کنم که چیزی محسوس و واقعی در تصاویر تولیدشده هوش مصنوعی گم شده است – چیزی که به آن «دستِ هنرمند» میگوییم: همان ظرافتهای انسانی، خطاهای کوچک و ردهای زندگی که روی اثر باقی میمانند. اما باید صادق باشم: من در بسیاری از آزمونهای آنلاین تشخیص تصویر انسانی از تصویر تولیدشده توسط هوش مصنوعی شرکت کردهام و اغلب نمرهام پایین بوده! البته این آزمونها طوری طراحی میشوند که گمراهکننده باشند، اما با توجه به اینکه سابقۀ کار بهعنوان طراح گرافیک، مدرس طراحی و دبیر مجلۀ هنری دارم، انتظار داشتم چشمی تیزبینتر داشته باشم. پس واقعاً نشانۀ نبودِ انسانیت چیست؟
در روزهای اولیۀ دال ای، استیبل دیفاشن و میدجنری، ایرادهای خاص هر سیستم – مثل انگشتهای ناقص، تکرار عناصر، تمایل به ترکیببندی مرکزی، یا خطاهای فیزیکی – راحتتر آنها را لو میداد. اما با هر نسل جدید و آپدیت تازه، این نشانهها کمتر و کمتر شدند.
دوران «مهندسی پرامپت»
ابزارهای تبدیل متن-به-تصویر (و بالعکس) بر پایۀ پردازش زبان طبیعی ساخته شدهاند، اما زبانی که بیشترین خروجی مطلوب را میدهد، اغلب کمترین شباهت را به «زبان طبیعی» دارد. نحو و دستور زبانی که در پرامپتنویسی استفاده میشود، آنقدر خاص است که بازاری برای «مهندسان پرامپت» بهوجود آمده و وبلاگها و ویدیوهای آموزشیِ پرامپتنویسی سر به فلک کشیدهاند.
راهنماهای پرامپتنویسی معمولاً ساختاری سهجزئی پیشنهاد میکنند: سوژه، توصیف، و سبک/ زیباییشناسی تصویر. سوژه عنوان کار است. مثل حرف زدن دربارۀ یک گربه یا یک سگ. توصیف مثل:
(گربهای که قهوه مینوشد[۲۸]) یا (گرازی که در اقیانوس شنا میکند[۲۹]). اما وقتی نوبت به «سبک» میرسد، فهرست واژهها پیچیدهتر میشود. مثلاً «پوستر حماسی»، «کارتونی بامزه» یا «تصویر قابل استفاده برای میم» از سبکهای رایجاند.
عباراتی مثل ریترو و پرداکت به واژگان پرامپتنویسی تبدیل شدهاند. نام نرمافزارها و پلتفرمها – از سینما چهار بعدی[۳۰] و اکتان[۳۱] گرفته تا آرت استیشن[۳۲] – یکشبه به صفتهای تصویری بدل شدهاند. نام هنرمندان نیز بیش از آنکه برای تقلید بهکار روند، بهعنوان میانبری برای دستیابی به سبک بصریشان استفاده میشوند. همانطور که در فرهنگ عمومی، نامهایی مثل لویی چهاردهم یا باوهاوس به یک دوره یا سبک خاص اشاره میکنند، زبان پرامپت این روند را شتاب داده است. امروزه وبسایتهایی وجود دارند که هزاران سبک تصویری را بر اساس نام هنرمندان فهرست کردهاند – عمدتاً هنرمندان دیجیتال و طراحان مفهومی.
نوشتن پرامپت خوب مستلزم یادگیری این واژهها و درک مجموعۀ عظیمی از پدیدههای بصری است. بااینحال، هنوز بخشهای زیادی از عملکرد درونی الگوریتمهای یادگیری عمیق ناشناختهاند. سم بومن، مدیر یک آزمایشگاه پژوهش هوش مصنوعی در دانشگاه نیویورک، گفته: حتی متخصصانی مانند خودش هم نمیدانند دقیقاً چه مفاهیم یا «قواعد استدلالی» درون این سیستمهای پیچیده به کار میرود. او اعتراف کرده:
“ما آن را ساختیم، ما آن را آموزش دادیم، اما نمیدانیم دارد دقیقاً چه میکند.”
نبود انسانیت یا انباشت آن؟
در اکتبر ۲۰۲۲، دال ای2 در درک سرنخهای متنی و ترتیب واژهها ضعف داشت؛ بهویژه وقتی پای صفتها و عبارتهای توصیفیِ مربوط به اسم یا فعل وسط بود. مثلاً اگر به دالای2 میگفتی (یک ماهی و یک شمش طلا[۳۳])، اغلب تصویری از یک ماهی طلایی تحویلت میداد — انگار تلاش میکرد نوعی بازی زبانی انجام دهد و «ماهیِ طلا» را با «ماهی و طلا» یکی بگیرد.
دالای2 در برابر واژههای همنویسه (کلماتی که املای یکسان اما معنای متفاوت دارند) کاملاً گیج میشد. یکی از نمونههای معروف — که پژوهشگران رویی راسین، شائولی راوفوگل و یواف گلدبرگ توضیح دادهاند — پرامپتِ «یک بت[۳۴] بر فراز استادیوم پرواز میکند[۳۵]» بود. نتیجۀ تصویری کارتونی و شاد از یک استادیوم بیسبال بود که در آن هم خفاش (حیوان)، هم چوب بیسبال و هم توپ بیسبال، همگی در آسمان پرواز میکردند!
مشکل این است که برچسب «بت» در دیتا ست به دو الگوی تصویریِ متفاوت اشاره دارد و مدل نمیداند کدام را انتخاب کند، پس برای اطمینان، هر دو را در تصویر میگنجاند.
راسین و همکارانش این نوع آشفتگی در تبدیل زبان به تصویر را «نشت معنایی ویژگیها» مینامند. در آن تصویر، دو نوع «خفاش» ظاهراً کنار هم در پروازند؛ شاید حتی خفاش (حیوان) چوب بیسبال را در دست گرفته باشد! لکۀ سفید اشکالی روی صورتش هم شبیه لبخند است، انگار حیوان دارد از پروازش لذت میبرد. سمت چپ تصویر نیز یک تکه ابر خاکستری و صاعقه دیده میشود. نویسندگان مقاله توضیح زبانی دقیقی برای حضور صاعقه ارائه نمیدهند، اما حدس شخصی من این است که چون خفاشها اغلب در تصاویر مربوط به جادوگرها و طلسمها ظاهر میشوند، مدل هم بهطور ناخودآگاه آن ارتباط را فعال کرده و صاعقه را اضافه کرده است.
صاعقه درواقع مثالی از چیزی است که راسین و همکارانش «محرکهای درجه دوم» مینامند: یعنی شبکهای از تداعیهای زبانی و تصویری که معمولاً از آنها آگاه نیستیم. وقتی از دالای2 میخواهی «یک آرمادیلو در ساحل» بکشد، معمولاً چند صدف هم کنارش میگذارد. چرا؟ چون در خوشۀ واژگان مرتبط با «آرمادیلو»، کلماتی مثل «پستاندار»، «زره»، «توپ» و «صدف» هم دیده میشود. (برای مقایسه، اگر بگویی «سگی در ساحل»، تصویر دریا و ماسه را میسازی، اما نه صدف.)
این نشت معنایی ویژگیها، گاهی باعث میشود تصویرها رنگی از طنز یا بیمنطقی پیدا کنند — و منتقدان آن را نشانۀ ضعف هوش مولد بدانند. اما واقعیت این است که این پدیده بیش از آنکه نشان از خامی مدل باشد، نشاندهندۀ حساسیت پیچیدۀ آن نسبت به روابط معنایی است. مثلاً اگر بنویسی (پرندهای بلندقد با پاها و گردن دراز در کنار یک کارگاه ساختمانی)، نتیجه معمولاً شامل پرنده درنا[۳۶] و جرثقیل[۳۷] خواهد بود. در نگاه اول شاید اشتباه بهنظر برسد، اما درواقع نوعی درک پیشرفته از رابطه واژگانیست.
به این ترتیب، ابزارهای هوشمولد – با تمام سوگیریها و الگوهایشان – نهفقط ضعفهای زبان، بلکه ظرافتها و ابهامهای آن را هم به تصویر میکشند. آنها بازتابی از چندگانگی و لغزشهای درونی زباناند؛ بهویژه در انگلیسی که سرشار از همنویسه و همصداست.
فناوریهای جدید تولید تصویر — از چاپ گرفته تا عکاسی و تصویربرداری ماهوارهای — همیشه دید ما از جهان را تغییر دادهاند و در نتیجه رفتارمان را هم دگرگون کردهاند. حالا پرسش این است: این تصاویر الگوریتمی دارند به ما چه یاد میدهند؟ چه چیزی را ببینیم، بگوییم و انجام دهیم؟
تا ژانویۀ ۲۰۲۴، ابزارهای تبدیل متنبهتصویرِ هوشمولد روزانه ۳۴ میلیون تصویر تولید میکردند. این رقم هنوز از شمار عکسهایی که انسانها روزانه میگیرند کمتر است، اما تا کی؟ از اینجا به بعد، عاقلانهتر است که فرض کنیم هر تصویری که میبینیم، ممکن است ساختۀ هوش مولد باشد.
“آنچه این تصاویر را متمایز میکند، نه «نبودِ انسانیت» در آنها، بلکه انباشت بیش از اندازه انسانیت درونشان است“
هر پرامپت، زنجیرهای از همکاریهای شبکهای را میان هنرمندان، پژوهشگران، کارگران کلیکزن و کاربران ناشناس اینترنتی در سراسر زمان و مکان فعال میکند — یک بازی عظیم و بیپایان از ساختن زنجیره تصاویر با توصیفهای متوالی.
چه بخواهیم و چه نخواهیم، همه ما — چه تصویرگران پیشاالگوریتمی باشیم، چه هنرمندانِ خودخوانده هوش مصنوعی — ناچاریم یاد بگیریم در این بازی تازه، بازی کنیم.