خانه » مقالات » با اطلاعات علنی کاربران چه کارهایی می‌توان انجام داد؟
با اطلاعات علنی کاربران چه کارهایی می‌توان انجام داد؟
چالش‌های داده‌های عمومی در فضای مجازی
شنبه, ۱ آبان ۱۳۹۹
زمان تقریبی مطالعه ۳۰ دقیقه
یک الگوریتم رایانه‌ای طراحی‌شده می‌تواند با میزان دقت 99.98 درصد آمریکایی‌ها را فقط با دانستن 15 ویژگی شخصی، ازجمله نام کاربری شناسایی کند. این واقعیت‌ها برای فعالین صنعت تحلیل داده‌ها اخبار جدیدی نیست، اما مردم عادی را شوکه می‌کند.

در سال 2009 میلادی، از شرکت نتفلیکس[۱] به دلیل انتشار داده‌های رتبه‌بندی فیلم نیم میلیون مشترک – که فقط با شماره شناسه منحصربه‌فرد قابل‌شناسایی بودند- شکایت شد. نتفلیکس این داده‌ها را برای درخواست ساخت یک الگوریتم جدید و کارا جهت توصیه فیلم در قالب یک مسابقه منتشر کرد؛ اما محققان دانشگاه تگزاس متوجه شدند که برای شناسایی هویت کاربران می‌توان از رتبه‌بندی فیلم‌ها و امتیازی که هر کاربر به فیلم داده است استفاده کرد. به این منظور تنها با داشتن داده 6 رتبه‌بندی اخیر یک کاربر هویت او مشخص می‌شد. این پرونده به دنبال شکایت یک زن که هویت او فاش شده بود در سال 2010 حل‌وفصل شد. پرونده نتفلیکس، مشکل مهمی را آشکار می‌کند که به‌تازگی سبب نگرانی کاربران اینترنت شده است؛ هرچند تحلیل گران داده و متخصصان کامپیوتر سال‌ها است که از آن مطلع هستند. در مجموعه با داده‌های ناشناس که خصوصیات فردی مانند نام، ایمیل و آدرس از آن‌ها حذف‌شده است، به همراه تعداد انگشت‌شماری از اطلاعاتِ به‌ظاهر بی‌اهمیت می‌توان هویت اشخاص را شناسایی کرد. وقتی این داده‌ها برای ارائه تبلیغات دیجیتال یا شخصی‌سازیِ توصیه‌های محصولات فروشگاه‌های اینترنتی استفاده می‌شوند، امکان شناسایی هویت کاربر تا حدودی بی‌ضرر است. این استفاده هنگامی خطرناک می‌شود که می‌توان با استفاده از تحلیل داده به‌پیش فرض‌هایی از رفتار آینده یا استنباط از زندگی خصوصی افراد دست‌یافت.
در یک پروژه تحقیقاتی که اخیراً در نشریه Nature Communications به چاپ رسید مشخص شد که شناسایی کاربران در فضای مجازی چقدر آسان است. یک الگوریتم رایانه‌ای طراحی‌شده می‌تواند با میزان دقت 99.98 درصد آمریکایی‌ها را فقط با دانستن 15 ویژگی شخصی، ازجمله نام کاربری شناسایی کند. پیش‌ازاین نیز، مطالعاتی در سال 2012 نشان داد که متخصصان تحلیل داده فقط با بررسی لایک های حساب فیس‌بوک یک کاربر می‌توانند با ضریب اطمینان 95 درصد نژاد و تبار، با دقت 93 درصد جنسیت، با دقت 88 درصد گرایش جنسی، با دقت 70 درصد اعتیاد به الکل و با دقت 65 درصد اعتیاد به مواد مخدر را تشخیص دهند. این واقعیت‌ها برای فعالین صنعت تحلیل داده‌ها اخبار جدیدی نیست، اما مردم عادی را شوکه می‌کند. کوین ورباخ[۲]، استاد حقوق و اخلاق تجارت و نویسنده کتاب معروف “بلاک‌چین و معماری نوین اعتماد” معتقد است که اکثر مردم متوجه نیستند که حتی اگر اطلاعات شخصی سرقت نشوند و یا به‌طور مستقیم جمع‌آوری نشوند، می‌توان با همبستگی اطلاعات با سایر مجموعه‌های اطلاعات، داده‌ها را با هویت شخصی کاربر تطبیق داد. این‌یک مسئله چالش‌برانگیز است؛ زیرا استفاده‌های مختلفی از داده‌ها می‌توان انجام داد. به‌عنوان‌مثال، بر اساس مقاله‌ای که سال 2019 در VICE Magazine منتشر شد، شرکت‌های مخابراتی به‌طورمعمول اطلاعات موقعیت جغرافیایی تلفن‌های همراه گیرندگان خدمات را به مراکز تجمیع داده‌ها می‌دهند و آن‌ها نیز این اطلاعات را به خریداران اطلاعات می‌فروشند. این مشتریان داده می‌توانند شرکت‌های تاکسی اینترنتی، شرکت‌های کاریابی، شرکت‌های تبلیغاتی و حتی سازمان‌های جاسوسی باشند. یک تجمیع‌کننده داده[۳] قادر به یافتن نام و آدرس کامل یک شخص و همچنین کنترل مستمر موقعیت او هست. مقاله مذکور بیان می‌کند: این یافته‌ها نشان می‌دهند این میزان از سهولت در جمع‌آوری داده‌هایی که تلفن‌های همراه تولید می‌کند، باعث آن می‌شود که حتی شهروندان عادی، مجرمان و هکرها به‌راحتی به آن‌ها دسترسی داشته باشند، هویت فردی را شناسایی کنند و او را تحت نظر قرار دهند.
مایکل کرنز[۴]، استاد علوم کامپیوتر[۵] و نویسند کتاب “الگوریتم اخلاقی”[۶] بیان می‌کند: داده‌هایی که هر فرد تولید می‌کند، چه داده‌های ناشی از فعالیت آنلاین و چه اطلاعاتی که توسط کارفرما، پزشک، بانک و دیگران دریافت و نگهداری می‌شود، به‌صورت آنلاین ذخیره‌شده و ممکن است در مواردی تجمیع یا اشتراک‌گذاری شود. این داده‌ها همچنین دسته‌بندی‌شده و به اشخاص ثالث، یا شبکه‌های تبادل آگهی[۷] فروخته می‌شوند. او معتقد است افراد در زندگی روزمره داده‌هایی را از خود به‌جای می‌گذارند، چه با موقعیت جغرافیایی که طرد می‌کنند و چه با فعالیت‌های آنلاینی که در شبکه‌های اجتماعی انجام می‌دهند. غافل از این که همه این اطلاعات در حال ردیابی و ذخیره‌سازی هستند.
کارتیک هوزنگر[۸]، متخصص عملیات، اطلاعات و تصمیمات[۹] و نویسنده کتاب “راهنمای انسان برای هوش ماشینی: الگوریتم‌ها چگونه زندگی ما را شکل می‌دهند”[۱۰] بیان می‌کند که درگذشته شرکت‌ها یا نهادهای دیگر که اطلاعات و داده در اختیار داشتند، سعی می‌کردند مجموعه داده‌ها را به شکل ناشناس نگه‌دارند. یک روش معمول، آن بود که اطلاعاتِ منحصربه‌فرد افراد مانند نام و تاریخ تولد را حذف می‌کردند. این رویکرد مؤثر بود و قبلاً به‌خوبی کار می‌کرد؛ اما امروز نگرانی فزاینده‌ای وجود دارد که بیانگر آن است که این شیوه‌ها دیگر به‌هیچ‌وجه مؤثر نیستند. به‌ویژه اگر تجمیع‌کننده‌های داده از مجموعه داده‌های مختلف استفاده کنند؛ مثلاً داده‌کاوی در نظرسنجی‌های متداول در شبکه‌های اجتماعی؛ بنابراین اگر کسی اطلاعات کافی از افراد داشته باشد و الگوریتم‌های پیچیده یادگیری ماشین[۱۱] را اعمال کند، شناسایی مجدد افراد امکان‌پذیر خواهد بود.
بر اساس دانش ریاضی، شناسایی افراد با استفاده از اطلاعات غیرخصوصی نیز کار چندان دشواری نیست. یک متخصص ریاضی توضیح می‌دهد فرض کنید به دنبال شخصی می‌گردیم که با یک ماشین قرمز رانندگی می‌کند و از سیستم‌عامل مک استفاده می‌کند. یک تحلیل‌گر داده می‌داند که فقط 10 درصد مردم از ماشین قرمز استفاده می‌کنند و درنتیجه 90 درصد دیگر را نادیده می‌گیرد. فرض را بر این قرار می‌دهیم که نیمی از 10 درصد باقی‌مانده از مک و نیمی از رایانه شخصی استفاده می‌کنند. مجدد نیمی از 10 درصد حذف می‌شود و فقط 5 درصد باقی می‌ماند. به همین ترتیب ادامه می‌دهیم تا فرد موردنظر را شناسایی کنیم. هر ویژگی بخش اعظمی از گروه باقی‌مانده را حذف می‌کند و بنابراین به‌سرعت به تعداد انگشت‌شماری از افراد می‌رسیم. این دقیقاً همان اتفاقی است که در پرونده نتفلیکس افتاد. محققان توانستند مشترکان را با بررسی امتیازاتی که هنگام مشاهده فیلم‌ها داده‌اند، شناسایی کنند. سپس این داده‌ها را با رتبه‌بندی فیلم‌ها در وب‌سایت IMDB[۱۲] – که افراد از نام خود استفاده می‌کنند- تطبیق دادند. نتفلیکس گمان می‌کرد برای محافظت از حریم خصوصی کاربران به‌اندازه کافی تلاش کرده است، اما باز هم هویت کاربران افشا شد. آرون روت[۱۳]، استاد علوم کامپیوتر و اطلاعات[۱۴] معتقد است حتی مقدار نسبتاً کمی از اطلاعات غیرمتعارف برای شناسایی هویت افراد کافی است. مشکل اساسی در شیوه ناشناس کردن اطلاعات است. اساساً این روش کارساز نیست.
آرون روت بیان می‌کند: افراد هر بار که دکمه پسندیدن را در فیس‌بوک یا اینستاگرام فشار می‌دهند، چیزی را در گوگل جستجو می‌کنند، از فروشگاه‌های آنلاین خرید می‌کنند، در رسانه‌های اینترنتی فیلمی تماشا می‌کنند، متنی در پیام‌رسان‌ها ارسال می‌کنند و یا عملیاتی بانکی با تلفن همراه خود انجام می‌دهند، میلیون‌ها اطلاعات ارزشمند از خود تولید می‌کنند. وقتی از اینترنت استفاده می‌کنید، دائماً داده تولید می‌شود و این فرایند خیلی سریع می‌تواند زنجیره‌ای از ویژگی‌های منحصربه‌فرد شخصی را تشکیل دهد. این مجموعه‌های داده مانند صفحه اکسل هستند که در آن ردیف‌ها و ستون‌ها با نقاط مختلف اطلاعات مطابقت دارند. به‌عنوان‌مثال، ردیف‌های مجموعه داده نتفلیکس نشان‌دهنده رتبه‌بندی فیلم‌ها توسط 500000 مشترک است. درحالی‌که ستون‌ها 18 میلیون رتبه‌بندی فیلم را در IMDB تشکیل می‌دهد. ممکن است این حجم از اطلاعات زیاد به نظر برسد، اما برای دانشمندان تحلیل داده این مجموعه اصلاً بزرگ نیست. فیس‌بوک و گوگل مجموعه‌ای از داد های میلیون‌ها کاربر رادارند که هرکدام هزاران ویژگی منحصربه‌فرد دارند و همگی به‌راحتی قابل‌تحلیل است.
وقتی تجمیع‌کنندگان داده این اطلاعات را جمع‌آوری می‌کنند معمولاً علاقه‌مند به سوابق افراد نیستند. نتفلیکس هیچ علاقه‌ای به سوابق تماشای فیلم کاربران خود ندارد، این خصوصیات آماری مجموعه داده‌ها است که مهم است و به‌وسیله آن می‌تواند پیش‌بینی کند چه کسی چه فیلمی دوست دارد. روش این پیش‌بینی آن است که به الگوریتم یادگیری ماشین اجازه داده می‌شود تا داده‌ها را مرور کند و از آن‌ها یاد بگیرد. پس از این آموزش، الگوریتم می‌تواند از آن‌چه آموخته است برای پیش‌بینی چیزهایی در مورد افراد استفاده کند، مانند فیلم‌هایی که دوست دارد تماشا کند، رستوران‌هایی که دوست دارد برود، چیزهایی که دوست دارد بخرد یا شغلی که به دنبال آن می‌گردد. این داده‌ها برای بازاریاب‌هایی که از این اطلاعات برای ارائه تبلیغات دیجیتالی مرتبط به مصرف‌کننده استفاده می‌کنند، بسیار ارزشمند است. بسیاری از داده‌هایی که از طریق اینترنت از فعالیت افراد جمع‌آوری می‌شود، کاربرد تبلیغاتی دارد. درآمد هنگفتی از تبلیغات اینترنتی به دست می‌آید. به‌عنوان‌مثال فیس‌بوک یا گوگل – که خدماتی رایگان هستند- از طریق تبلیغات کسب درآمد می‌کنند و تمام این حجم عظیم از داده که جمع‌آوری می‌کنند، در خدمت بهبود پیش‌بینی تبلیغات به کار می‌گیرند؛ زیرا هرچه آن‌ها بهتر بتوانند کاربر را هدف تبلیغات مناسب‌تر و مرتبط‌تری قرار دهند، درآمد بیشتری از سفارش‌دهندگان تبلیغ کسب می‌کنند. این شیوه اکثریت میزان درآمد آن‌ها را تشکیل می‌دهد.
برای شرکتی مانند آمازون تبلیغات، شیوه اصلی کسب درآمد نیست. با وجود این شروع به تمرکز بر روی آن کرده است. آمازون تمام اطلاعاتی را که می‌تواند از کاربر کسب کند، مورد تحلیل قرار می‌دهد تا تبلیغات و توصیه محصولات را شخصی‌سازی کند؛ بنابراین، بسیاری از این داده‌ها برای اهداف تجاری استفاده می‌شوند که لزوماً با منافع مصرف‌کننده مغایرت ندارند. همه افراد ترجیح می‌دهند که از توصیه‌های بهتر و مناسب‌تر برخوردار باشند؛ اما مشکل هنگامی رخ می‌دهد که دامنه این کاربری‌ها گسترش یابد. به‌عبارت‌دیگر، زمانی که قرار است این داده‌ها برای اهداف تجاری و راحتی مصرف‌کننده در دریافت تبلیغات مناسب استفاده شوند، درجاهای دیگر نیز از آن‌ها استفاده می‌شود.
خطر اصلی هنگامی ظهور می‌کند که از داده‌ها برای توصیف نیم‌رخ[۱۵] افراد استفاده می‌شود. ممکن است افراد بگویند که اهمیتی نمی‌دهند که مثلاً فیس‌بوک یا گوگل در مورد آن‌ها چه داده‌هایی جمع‌آوری کرده است. ولیکن این داده‌های بی‌ضرر منجر به شناسایی منحصربه‌فرد افراد می‌شود و می‌تواند سبب استنباط‌های ناخواسته درباره آن‌ها شود. الگوریتم‌ها همانند سازندگان انسانی خود از خطا مصون نیستند.
در عصر مدرن داده محور، وقتی از مدل‌سازی آماری و یادگیری ماشین در همه‌جا و برای همه کار ها استفاده می‌شود، بفهمیم یا نه مرتباً اشتباهاتی رخ می‌دهد؛ اما اشتباه در ارائه یک تبلیغ بی‌فایده یک‌چیز است و اشتباهی که منجر به یک آسیب سیستماتیک می‌شود، چیز دیگری است. برای مثال، اگر کلیشه یک الگوریتم به محکومین به حبس از یک نژاد خاص، احتمال بیشتری برای تکرار مجدد جرم بدهد، می‌تواند به هیئت آزادی مشروط پیشنهاد دهد که زندانی با این ترکیب نژادی را آزاد نکند. این اشتباه دارای پیامدهای جبران‌ناپذیر و خطرناکی در مقایسه با نمایش یک تبلیغ اشتباه است. دانشمندان در حال آگاه شدن از این مخاطرات هستند و درصدد طراحی مدل‌ها و الگوریتم‌های بهتری هستند که گرچه همچنان کامل نیستند، اما سعی در کاهش آسیب سیستماتیک دارند. این چالش، ایجاد عدالت به‌وسیله ریاضی است.
در مقوله مهمی همچون حریم خصوصی داده‌ها که نسل جدید حقوق اساسی کاربران اینترنت است، حاکمیت قانون بسیار حائز اهمیت است. مدافعان حریم خصوصی و متخصصین تحلیل داده متعتقدند در کشوری همچون ایالات متحده آمریکا که از مدعیان پیشروی حمایت از حریم خصوصی است، هیچ قانون جامعی برای حفاظت از حریم خصوصی داده‌ها در سطح فدرال وجود ندارد. مقررات حریم خصوصی ایالت کالیفرنیا که نسبتا گسترده است، از مقررات عمومی حفاظت از داده اتحادیه اروپا (GDPR)[۱۶] الگوبرداری شده است؛ اما قانونی به این شکل در سطح ملی وجود ندارد. قوانین حریم خصوصی آمریکا جسته گریخته است و هیچ مقررات کلی درباره حریم خصوصی وجود ندارد. دکتر ورباخ معتقد است قوانین حریم خصوصی در آمریکا نیاز به اصلاح و تقویت دارد. پس از رسوایی فیسبوک در پرونده Cambridge Analytica لوایح متعددی در خصوص حمایت از حریم خصوصی در کنگره ارائه شدند. ورباخ معتقد است برای آنکه این لوایح بتوانند به قوانینی کارآمد تبدیل شوند و یک محافظت قوی از داده‌ها صورت بگیرد، باید قوانین فراتر از محدود کردن انواع خاصی از تجمیع کردن داده باشد و یک تفکر گسترده درباره حفاظت از داده‌ها و حقوق مردم در ابراز موافقت یا مخالفت با جمع آوری داده‌های خصوصی در روح قوانین شکل بگیرد.
تاکنون رویکرد حقوقی آمریکا در محافظت از حریم خصوصی اطلاعات مبتنی بر رضایت کاربر بوده است. شیوه‌ای که شرکت‌ها و تجمیع‌کنندگان داده باید در مورد آن‌چه انجام می دهند، شفاف باشند و رضایت کاربر را دریافت کنند؛ اما امروز به وضوح ثابت شده است که این کسب رضایت، کافی نیست. این رضایت‌نامه به شکلی در متن توافق‌نامه شرایط خدمات قرار داده می‌شود که کاربر به آن توجهی نکرده و این چیزی نیست که یک فرد معمولی بتواند به راحتی آن را بخواند و بفهمد. امتناع از موافقت با شرایط خدمات نیز برای اکثر کاربران واقع‌بینانه نیست؛ به ویژه اگر خدمات دریافتی مانند گوگل یا فیسبوک رایگان باشد. بنابراین کاربران برای محافظت از حریم خصوصی خود چه کاری می توانند انجام دهند؟ راه‌حلی که هیچ از آن استفاده نخواهد شد، این است که فعالیت آنلاین بسیار محدود شود. از خدمات بزرگ و گسترده‌ای مثل گوگل استفاده نشود. مسلما این راه حل غیر معقول و غیر ممکن است. این منصفانه نیست که کاربر را از خدمات محروم کرد. او باید گزینه‌هایی برای امتناع یا محدودیت درباره نحوه جمع‌آوری و کاربری داده‌های خصوصی خود داشته باشد. ما به ترکیبی از مقررات و قوانین نظارتی احتیاج داریم تا شرکت ها متوجه شوند که برای حفظ منافع خود باید با مسئولیت‌پذیری بیشتری رفتار کنند.

 

پانوشت
نویسندگان
سایر مقالات