در سال 2009 میلادی، از شرکت نتفلیکس[۱] به دلیل انتشار دادههای رتبهبندی فیلم نیم میلیون مشترک – که فقط با شماره شناسه منحصربهفرد قابلشناسایی بودند- شکایت شد. نتفلیکس این دادهها را برای درخواست ساخت یک الگوریتم جدید و کارا جهت توصیه فیلم در قالب یک مسابقه منتشر کرد؛ اما محققان دانشگاه تگزاس متوجه شدند که برای شناسایی هویت کاربران میتوان از رتبهبندی فیلمها و امتیازی که هر کاربر به فیلم داده است استفاده کرد. به این منظور تنها با داشتن داده 6 رتبهبندی اخیر یک کاربر هویت او مشخص میشد. این پرونده به دنبال شکایت یک زن که هویت او فاش شده بود در سال 2010 حلوفصل شد. پرونده نتفلیکس، مشکل مهمی را آشکار میکند که بهتازگی سبب نگرانی کاربران اینترنت شده است؛ هرچند تحلیل گران داده و متخصصان کامپیوتر سالها است که از آن مطلع هستند. در مجموعه با دادههای ناشناس که خصوصیات فردی مانند نام، ایمیل و آدرس از آنها حذفشده است، به همراه تعداد انگشتشماری از اطلاعاتِ بهظاهر بیاهمیت میتوان هویت اشخاص را شناسایی کرد. وقتی این دادهها برای ارائه تبلیغات دیجیتال یا شخصیسازیِ توصیههای محصولات فروشگاههای اینترنتی استفاده میشوند، امکان شناسایی هویت کاربر تا حدودی بیضرر است. این استفاده هنگامی خطرناک میشود که میتوان با استفاده از تحلیل داده بهپیش فرضهایی از رفتار آینده یا استنباط از زندگی خصوصی افراد دستیافت.
در یک پروژه تحقیقاتی که اخیراً در نشریه Nature Communications به چاپ رسید مشخص شد که شناسایی کاربران در فضای مجازی چقدر آسان است. یک الگوریتم رایانهای طراحیشده میتواند با میزان دقت 99.98 درصد آمریکاییها را فقط با دانستن 15 ویژگی شخصی، ازجمله نام کاربری شناسایی کند. پیشازاین نیز، مطالعاتی در سال 2012 نشان داد که متخصصان تحلیل داده فقط با بررسی لایک های حساب فیسبوک یک کاربر میتوانند با ضریب اطمینان 95 درصد نژاد و تبار، با دقت 93 درصد جنسیت، با دقت 88 درصد گرایش جنسی، با دقت 70 درصد اعتیاد به الکل و با دقت 65 درصد اعتیاد به مواد مخدر را تشخیص دهند. این واقعیتها برای فعالین صنعت تحلیل دادهها اخبار جدیدی نیست، اما مردم عادی را شوکه میکند. کوین ورباخ[۲]، استاد حقوق و اخلاق تجارت و نویسنده کتاب معروف “بلاکچین و معماری نوین اعتماد” معتقد است که اکثر مردم متوجه نیستند که حتی اگر اطلاعات شخصی سرقت نشوند و یا بهطور مستقیم جمعآوری نشوند، میتوان با همبستگی اطلاعات با سایر مجموعههای اطلاعات، دادهها را با هویت شخصی کاربر تطبیق داد. اینیک مسئله چالشبرانگیز است؛ زیرا استفادههای مختلفی از دادهها میتوان انجام داد. بهعنوانمثال، بر اساس مقالهای که سال 2019 در VICE Magazine منتشر شد، شرکتهای مخابراتی بهطورمعمول اطلاعات موقعیت جغرافیایی تلفنهای همراه گیرندگان خدمات را به مراکز تجمیع دادهها میدهند و آنها نیز این اطلاعات را به خریداران اطلاعات میفروشند. این مشتریان داده میتوانند شرکتهای تاکسی اینترنتی، شرکتهای کاریابی، شرکتهای تبلیغاتی و حتی سازمانهای جاسوسی باشند. یک تجمیعکننده داده[۳] قادر به یافتن نام و آدرس کامل یک شخص و همچنین کنترل مستمر موقعیت او هست. مقاله مذکور بیان میکند: این یافتهها نشان میدهند این میزان از سهولت در جمعآوری دادههایی که تلفنهای همراه تولید میکند، باعث آن میشود که حتی شهروندان عادی، مجرمان و هکرها بهراحتی به آنها دسترسی داشته باشند، هویت فردی را شناسایی کنند و او را تحت نظر قرار دهند.
مایکل کرنز[۴]، استاد علوم کامپیوتر[۵] و نویسند کتاب “الگوریتم اخلاقی”[۶] بیان میکند: دادههایی که هر فرد تولید میکند، چه دادههای ناشی از فعالیت آنلاین و چه اطلاعاتی که توسط کارفرما، پزشک، بانک و دیگران دریافت و نگهداری میشود، بهصورت آنلاین ذخیرهشده و ممکن است در مواردی تجمیع یا اشتراکگذاری شود. این دادهها همچنین دستهبندیشده و به اشخاص ثالث، یا شبکههای تبادل آگهی[۷] فروخته میشوند. او معتقد است افراد در زندگی روزمره دادههایی را از خود بهجای میگذارند، چه با موقعیت جغرافیایی که طرد میکنند و چه با فعالیتهای آنلاینی که در شبکههای اجتماعی انجام میدهند. غافل از این که همه این اطلاعات در حال ردیابی و ذخیرهسازی هستند.
کارتیک هوزنگر[۸]، متخصص عملیات، اطلاعات و تصمیمات[۹] و نویسنده کتاب “راهنمای انسان برای هوش ماشینی: الگوریتمها چگونه زندگی ما را شکل میدهند”[۱۰] بیان میکند که درگذشته شرکتها یا نهادهای دیگر که اطلاعات و داده در اختیار داشتند، سعی میکردند مجموعه دادهها را به شکل ناشناس نگهدارند. یک روش معمول، آن بود که اطلاعاتِ منحصربهفرد افراد مانند نام و تاریخ تولد را حذف میکردند. این رویکرد مؤثر بود و قبلاً بهخوبی کار میکرد؛ اما امروز نگرانی فزایندهای وجود دارد که بیانگر آن است که این شیوهها دیگر بههیچوجه مؤثر نیستند. بهویژه اگر تجمیعکنندههای داده از مجموعه دادههای مختلف استفاده کنند؛ مثلاً دادهکاوی در نظرسنجیهای متداول در شبکههای اجتماعی؛ بنابراین اگر کسی اطلاعات کافی از افراد داشته باشد و الگوریتمهای پیچیده یادگیری ماشین[۱۱] را اعمال کند، شناسایی مجدد افراد امکانپذیر خواهد بود.
بر اساس دانش ریاضی، شناسایی افراد با استفاده از اطلاعات غیرخصوصی نیز کار چندان دشواری نیست. یک متخصص ریاضی توضیح میدهد فرض کنید به دنبال شخصی میگردیم که با یک ماشین قرمز رانندگی میکند و از سیستمعامل مک استفاده میکند. یک تحلیلگر داده میداند که فقط 10 درصد مردم از ماشین قرمز استفاده میکنند و درنتیجه 90 درصد دیگر را نادیده میگیرد. فرض را بر این قرار میدهیم که نیمی از 10 درصد باقیمانده از مک و نیمی از رایانه شخصی استفاده میکنند. مجدد نیمی از 10 درصد حذف میشود و فقط 5 درصد باقی میماند. به همین ترتیب ادامه میدهیم تا فرد موردنظر را شناسایی کنیم. هر ویژگی بخش اعظمی از گروه باقیمانده را حذف میکند و بنابراین بهسرعت به تعداد انگشتشماری از افراد میرسیم. این دقیقاً همان اتفاقی است که در پرونده نتفلیکس افتاد. محققان توانستند مشترکان را با بررسی امتیازاتی که هنگام مشاهده فیلمها دادهاند، شناسایی کنند. سپس این دادهها را با رتبهبندی فیلمها در وبسایت IMDB[۱۲] – که افراد از نام خود استفاده میکنند- تطبیق دادند. نتفلیکس گمان میکرد برای محافظت از حریم خصوصی کاربران بهاندازه کافی تلاش کرده است، اما باز هم هویت کاربران افشا شد. آرون روت[۱۳]، استاد علوم کامپیوتر و اطلاعات[۱۴] معتقد است حتی مقدار نسبتاً کمی از اطلاعات غیرمتعارف برای شناسایی هویت افراد کافی است. مشکل اساسی در شیوه ناشناس کردن اطلاعات است. اساساً این روش کارساز نیست.
آرون روت بیان میکند: افراد هر بار که دکمه پسندیدن را در فیسبوک یا اینستاگرام فشار میدهند، چیزی را در گوگل جستجو میکنند، از فروشگاههای آنلاین خرید میکنند، در رسانههای اینترنتی فیلمی تماشا میکنند، متنی در پیامرسانها ارسال میکنند و یا عملیاتی بانکی با تلفن همراه خود انجام میدهند، میلیونها اطلاعات ارزشمند از خود تولید میکنند. وقتی از اینترنت استفاده میکنید، دائماً داده تولید میشود و این فرایند خیلی سریع میتواند زنجیرهای از ویژگیهای منحصربهفرد شخصی را تشکیل دهد. این مجموعههای داده مانند صفحه اکسل هستند که در آن ردیفها و ستونها با نقاط مختلف اطلاعات مطابقت دارند. بهعنوانمثال، ردیفهای مجموعه داده نتفلیکس نشاندهنده رتبهبندی فیلمها توسط 500000 مشترک است. درحالیکه ستونها 18 میلیون رتبهبندی فیلم را در IMDB تشکیل میدهد. ممکن است این حجم از اطلاعات زیاد به نظر برسد، اما برای دانشمندان تحلیل داده این مجموعه اصلاً بزرگ نیست. فیسبوک و گوگل مجموعهای از داد های میلیونها کاربر رادارند که هرکدام هزاران ویژگی منحصربهفرد دارند و همگی بهراحتی قابلتحلیل است.
وقتی تجمیعکنندگان داده این اطلاعات را جمعآوری میکنند معمولاً علاقهمند به سوابق افراد نیستند. نتفلیکس هیچ علاقهای به سوابق تماشای فیلم کاربران خود ندارد، این خصوصیات آماری مجموعه دادهها است که مهم است و بهوسیله آن میتواند پیشبینی کند چه کسی چه فیلمی دوست دارد. روش این پیشبینی آن است که به الگوریتم یادگیری ماشین اجازه داده میشود تا دادهها را مرور کند و از آنها یاد بگیرد. پس از این آموزش، الگوریتم میتواند از آنچه آموخته است برای پیشبینی چیزهایی در مورد افراد استفاده کند، مانند فیلمهایی که دوست دارد تماشا کند، رستورانهایی که دوست دارد برود، چیزهایی که دوست دارد بخرد یا شغلی که به دنبال آن میگردد. این دادهها برای بازاریابهایی که از این اطلاعات برای ارائه تبلیغات دیجیتالی مرتبط به مصرفکننده استفاده میکنند، بسیار ارزشمند است. بسیاری از دادههایی که از طریق اینترنت از فعالیت افراد جمعآوری میشود، کاربرد تبلیغاتی دارد. درآمد هنگفتی از تبلیغات اینترنتی به دست میآید. بهعنوانمثال فیسبوک یا گوگل – که خدماتی رایگان هستند- از طریق تبلیغات کسب درآمد میکنند و تمام این حجم عظیم از داده که جمعآوری میکنند، در خدمت بهبود پیشبینی تبلیغات به کار میگیرند؛ زیرا هرچه آنها بهتر بتوانند کاربر را هدف تبلیغات مناسبتر و مرتبطتری قرار دهند، درآمد بیشتری از سفارشدهندگان تبلیغ کسب میکنند. این شیوه اکثریت میزان درآمد آنها را تشکیل میدهد.
برای شرکتی مانند آمازون تبلیغات، شیوه اصلی کسب درآمد نیست. با وجود این شروع به تمرکز بر روی آن کرده است. آمازون تمام اطلاعاتی را که میتواند از کاربر کسب کند، مورد تحلیل قرار میدهد تا تبلیغات و توصیه محصولات را شخصیسازی کند؛ بنابراین، بسیاری از این دادهها برای اهداف تجاری استفاده میشوند که لزوماً با منافع مصرفکننده مغایرت ندارند. همه افراد ترجیح میدهند که از توصیههای بهتر و مناسبتر برخوردار باشند؛ اما مشکل هنگامی رخ میدهد که دامنه این کاربریها گسترش یابد. بهعبارتدیگر، زمانی که قرار است این دادهها برای اهداف تجاری و راحتی مصرفکننده در دریافت تبلیغات مناسب استفاده شوند، درجاهای دیگر نیز از آنها استفاده میشود.
خطر اصلی هنگامی ظهور میکند که از دادهها برای توصیف نیمرخ[۱۵] افراد استفاده میشود. ممکن است افراد بگویند که اهمیتی نمیدهند که مثلاً فیسبوک یا گوگل در مورد آنها چه دادههایی جمعآوری کرده است. ولیکن این دادههای بیضرر منجر به شناسایی منحصربهفرد افراد میشود و میتواند سبب استنباطهای ناخواسته درباره آنها شود. الگوریتمها همانند سازندگان انسانی خود از خطا مصون نیستند.
در عصر مدرن داده محور، وقتی از مدلسازی آماری و یادگیری ماشین در همهجا و برای همه کار ها استفاده میشود، بفهمیم یا نه مرتباً اشتباهاتی رخ میدهد؛ اما اشتباه در ارائه یک تبلیغ بیفایده یکچیز است و اشتباهی که منجر به یک آسیب سیستماتیک میشود، چیز دیگری است. برای مثال، اگر کلیشه یک الگوریتم به محکومین به حبس از یک نژاد خاص، احتمال بیشتری برای تکرار مجدد جرم بدهد، میتواند به هیئت آزادی مشروط پیشنهاد دهد که زندانی با این ترکیب نژادی را آزاد نکند. این اشتباه دارای پیامدهای جبرانناپذیر و خطرناکی در مقایسه با نمایش یک تبلیغ اشتباه است. دانشمندان در حال آگاه شدن از این مخاطرات هستند و درصدد طراحی مدلها و الگوریتمهای بهتری هستند که گرچه همچنان کامل نیستند، اما سعی در کاهش آسیب سیستماتیک دارند. این چالش، ایجاد عدالت بهوسیله ریاضی است.
در مقوله مهمی همچون حریم خصوصی دادهها که نسل جدید حقوق اساسی کاربران اینترنت است، حاکمیت قانون بسیار حائز اهمیت است. مدافعان حریم خصوصی و متخصصین تحلیل داده متعتقدند در کشوری همچون ایالات متحده آمریکا که از مدعیان پیشروی حمایت از حریم خصوصی است، هیچ قانون جامعی برای حفاظت از حریم خصوصی دادهها در سطح فدرال وجود ندارد. مقررات حریم خصوصی ایالت کالیفرنیا که نسبتا گسترده است، از مقررات عمومی حفاظت از داده اتحادیه اروپا (GDPR)[۱۶] الگوبرداری شده است؛ اما قانونی به این شکل در سطح ملی وجود ندارد. قوانین حریم خصوصی آمریکا جسته گریخته است و هیچ مقررات کلی درباره حریم خصوصی وجود ندارد. دکتر ورباخ معتقد است قوانین حریم خصوصی در آمریکا نیاز به اصلاح و تقویت دارد. پس از رسوایی فیسبوک در پرونده Cambridge Analytica لوایح متعددی در خصوص حمایت از حریم خصوصی در کنگره ارائه شدند. ورباخ معتقد است برای آنکه این لوایح بتوانند به قوانینی کارآمد تبدیل شوند و یک محافظت قوی از دادهها صورت بگیرد، باید قوانین فراتر از محدود کردن انواع خاصی از تجمیع کردن داده باشد و یک تفکر گسترده درباره حفاظت از دادهها و حقوق مردم در ابراز موافقت یا مخالفت با جمع آوری دادههای خصوصی در روح قوانین شکل بگیرد.
تاکنون رویکرد حقوقی آمریکا در محافظت از حریم خصوصی اطلاعات مبتنی بر رضایت کاربر بوده است. شیوهای که شرکتها و تجمیعکنندگان داده باید در مورد آنچه انجام می دهند، شفاف باشند و رضایت کاربر را دریافت کنند؛ اما امروز به وضوح ثابت شده است که این کسب رضایت، کافی نیست. این رضایتنامه به شکلی در متن توافقنامه شرایط خدمات قرار داده میشود که کاربر به آن توجهی نکرده و این چیزی نیست که یک فرد معمولی بتواند به راحتی آن را بخواند و بفهمد. امتناع از موافقت با شرایط خدمات نیز برای اکثر کاربران واقعبینانه نیست؛ به ویژه اگر خدمات دریافتی مانند گوگل یا فیسبوک رایگان باشد. بنابراین کاربران برای محافظت از حریم خصوصی خود چه کاری می توانند انجام دهند؟ راهحلی که هیچ از آن استفاده نخواهد شد، این است که فعالیت آنلاین بسیار محدود شود. از خدمات بزرگ و گستردهای مثل گوگل استفاده نشود. مسلما این راه حل غیر معقول و غیر ممکن است. این منصفانه نیست که کاربر را از خدمات محروم کرد. او باید گزینههایی برای امتناع یا محدودیت درباره نحوه جمعآوری و کاربری دادههای خصوصی خود داشته باشد. ما به ترکیبی از مقررات و قوانین نظارتی احتیاج داریم تا شرکت ها متوجه شوند که برای حفظ منافع خود باید با مسئولیتپذیری بیشتری رفتار کنند.