
بهگفته کایل کروان[۱]، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهدهپذیری داده بیگآی[۲]، تعداد کمی از شرکتها منابع موردنیاز برای توسعۀ ابزارهایی مانند مشاهدهپذیری دادهها در مقیاسهای کلان را دارند. درنتیجه، بسیاری از شرکتها اساساً چشم خود را بر حقایق میبندند و وقتی مشکلی پیش میآید بهجای رسیدگی به کیفیت دادهها، فقط واکنش نشان میدهند. این درحالی است که هزینۀ پاکسازی داده برای کسبوکارها به مراتب بیشتر از ایجاد منطقهای امن و جلوگیری از آلودهشدن به دادههای کثیف است. درواقع اعتماد به دادهها یک چارچوب قانونی برای مدیریت دادههای بهاشتراک گذاشتهشده ارائه میدهد. این مهم، همکاریها را ازطریق قوانین مشترک برای امنیت دادهها، حریم خصوصی و محرمانهبودن ارتقا میدهد و سازمانها را قادر میسازد تا بهطور ایمن منابع داده خود را در مرکز مشترک دادهها به هم متصل کنند.
در این راستا شرکت بیگآی مهندسان داده، تحلیلگران، دانشمندان و سهامداران را گرد هم میآورد تا به دادهها اعتماد ایجاد کند. پلتفرم بیگآی به شرکتها کمک میکند تا نظارت و تشخیص ناهنجاریها را خودکار کرده و یک قرارداد سطح خدمات [۳](SLA) ایجاد کنند تا از کیفیت داده و خطوط انتقال آن اطمینان حاصل کنند. درواقع تیمهای داده میتوانند با دسترسی کامل به واسط برنامهنویسی [۴](API)، یک رابط کاربرپسند و سفارشیسازی خودکار و درعینحال انعطافپذیر، بر کیفیت دادهها نظارت کنند، بهطور فعال مشکلات را شناسایی و حل کنند و اطمینان حاصل کنند که هر کاربر میتواند به دادهها اعتماد کند.
تجربۀ اوبر[۵]
ایدۀ تشکیل بیگآی از آنجا نشأت گرفت که دو عضو اولیۀ تیم داده در اوبر یعنی کروان و گریاژنف[۶] (بنیانگذار و مدیر ارشد فناوری بیگآی) تصمیم گرفتند از آنچه در مقیاس اوبر یاد گرفتهاند برای ایجاد ابزارهای اجارۀ نرمافزار[۷] با قابلیت استقرار آسانتر برای مهندسین داده استفاده کنند. کروان یکی از اولین دانشمندان داده اوبر و اولین مدیر محصول ابرداده بود. گریازنوف نیز یک مهندس در سطح کارکنان بود که انبار دادهای در اوبر را مدیریت کرد و چندین ابزار و چارچوب مهندسی دادۀ داخلی را توسعه داد. آنها متوجه شدند که تیمهایشان ابزارهایی را برای مدیریت منابع دادههای عظیم اوبر میسازند و هزاران کاربر داخلی داده از آنچه برای اکثر تیمهای مهندسی داده در دسترس بود بسیار جلوتر هستند. باید توجه داشت که نظارت و شناسایی خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول انبارهای داده، کار سادهای نیست. شرکتهایی مانند داکر[۸] و بیگآی از کلابهوس[۹] استفاده میکنند تا فرایند تجزیهوتحلیل و یادگیری ماشین خود را بهطور مستمر ادامه دهند.
یک میدان درحال رشد
درواقع کروان و گریاژنف با تأسیس بیگآی در سال ۲۰۱۹، مشکل روبهرشدی را تشخیص دادند که شرکتها در بهکارگیری دادهها در موارد استفاده با بازگشت سرمایۀ بالا مانند گردش کار عملیات، محصولات و خدمات مبتنی بر یادگیری ماشین، تصمیمگیری مبتنی بر هوش تجاری و تجزیهوتحلیل استراتژیک با آن مواجه هستند. نکتۀ قابلتوجه آنکه برخلاف وجود چندین شرکت فعال در فضای مشاهدهپذیری دادهها در سال ۲۰۲۱، بیگآی با ارائۀ قابلیت ارزیابی خودکار کیفیت دادههای مشتری با بیش از ۷۰ معیار منحصربهفرد کیفیت داده، خود را از آن مجموعه جدا کرد. این معیارها با هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده میشوند تا اطمینان حاصل شود که مشکلات کیفیت داده -حتی سختترین آنها- هرگز از سوی مهندسان داده بدون پاسخ نخواهد ماند.
این روند روبهرشد همچنان ادامه دارد بهنحوی که در سال گذشته، حداقل ۱۰ شرکت نوپای مشاهدهپذیری دادهها که گردشهای مالی قابلتوجهی را اعلام کردند، وارد صحنه شدند. کروان پیشبینی کرد که امسال نیز روند توجه و اولویتدهی به فرایند مشاهدهپذیری دادهها با رشد مواجه خواهد بود، زیرا آنها بهدنبال متعادلکردن تقاضای مدیریت دستگاههای پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان انتقال آن هستند.
ازجمله ویژگیهای بیگآی این است که افراد نمیتوانند خودشان الگوریتمهای نرمافزاری را تغییر دهند. همچنین، این شرکت از مدلهای اختصاصی خودش برای تشخیص ناهنجاریهای مختلف دادهها استفاده میکند. درواقع هرچند بیگآی یکی از طرفداران بزرگ (پروپاقرص) رویکردهای بهاصطلاح متن باز است، اما تصمیم گرفته تا گزینههای خود را برای دستیابی به اهداف عملکرد تعیینشده داخلی توسعه دهد.
خلاصۀ راهحل
ازجمله ویژگیهای بیگآی این است که افراد نمیتوانند خودشان الگوریتمهای نرمافزاری را تغییر دهند. همچنین، این شرکت از مدلهای اختصاصی خودش برای تشخیص ناهنجاریهای مختلف دادهها استفاده میکند. درواقع هرچند بیگآی یکی از طرفداران بزرگ (پروپاقرص) رویکردهای بهاصطلاح متن باز[۱۰] است، اما تصمیم گرفته تا گزینههای خود را برای دستیابی به اهداف عملکرد تعیینشده داخلی توسعه دهد. علاوهبراین، یادگیری ماشین در چند مسئلۀ کلیدی استفاده میشود تا ترکیبی منحصربهفرد از معیارها را در هر جدول در منابع داده متصل مشتری به ارمغان بیاورد. مدلهای تشخیص ناهنجاری بر روی هریک از آن معیارها برای تشخیص رفتار غیرعادی آموزش داده شدهاند. البته برخی از ویژگیهای درجۀ سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشۀ راه هستند و عملیاتی نشدهاند.
علاوهبر آنچه بیان گردید، سه ویژگی داخلی بهطور خودکار مسائل مربوط به کیفیت دادهها را شناسایی کرده و ضمن اعلام هشدار، قرارداد سطح خدمات کیفیت داده را فعال میکند: نخست، دلتا[۱۱]، مقایسه و اعتبارسنجی چند نسخه از هر مجموعه داده را آسان میکند؛ ویژگی بعدی، هشدارهای متعدد را در یک جدول زمانی واحد با زمینۀ ارزشمند درمورد مسائل مرتبط با هم قرار میدهد. این باعث میشود که مستندسازی اصلاحات گذشته و بالابردن کیفیت و وضوح آسانتر شود؛ و سومی، داشبورد، نمای کلّی از سلامت دادهها را ارائه میدهد و به شناسایی نقاط مهم کیفیت دادهها، بستن شکافها در پوشش نظارت و تعیین کمّیت ارتقای یک تیم در قابلیت اطمینان کمک میکند.
همۀ این ویژگیها بدین خاطر پیشبینی و طراحی شده که مشاهدهپذیری دادهها، مستلزم آگاهی دائمی و کاملی است از آنچه درون همۀ جداول و خطوط انتقال داده اتفاق میافتد. این شبیه به همان چیزی است که تیمهای مهندسی قابلیت اطمینان سایت و DevOps[۱۲] از آن برای کارکردن برنامهها و زیرساختها در شبانهروز استفاده میکنند. اما این قابلیت برای دنیای مهندسی داده و علم داده دوباره مورد توجه قرار گرفته است.
درحالیکه کیفیت دادهها و قابلیت اطمینان دادهها برای چندین دهه یک موضوع چالشی به شمار میرفته است، اما درحال حاضر برنامههای کاربردی داده برای تعداد زیادی از کسبوکارهای پیشرو بسیار مهم هستند، چراکه هرگونه ازدستدادن، قطع یا تخریب دادهها میتواند بهسرعت منجر به ازدستدادن مشتریان و درنتیجه کاهش درآمد شود. درواقع، بدون مشاهدهپذیری دادهها، فروشندههای داده باید دائماً به مسائل مربوط به کیفیت داده واکنش نشان دهند و مجبورند هنگام استفاده از دادهها، آنها را درگیر کنند. راهحل بهتر، شناسایی پیشگیرانۀ مسائل و رفع علل ریشهای است.
چگونه اعتماد بر دادهها تأثیر میگذارد؟
نکتۀ قابلتوجه اینکه عمدتاً مشکلات بهوسیلۀ ذینفعان مانند مدیرانی که به پیشخوان غالباً خراب خود اعتماد ندارند، کشف میشوند. همچنین بعید نیست که کاربران خودشان نتایج گیجکنندهای را از مدلهای یادگیری ماشین حین کار با محصول دریافت کنند. ازاینرو، اگر به مهندسان داده زودتر هشدار داده شود، همیشه یک قدم از مسائل جلوترند و بهتر میتوانند مشکلات را برطرف کنند و از تأثیرات منفی تجاری آن جلوگیری کنند.
این فناوری با چه چالشهایی روبهروست؟
اما این فناوری با چالشهایی در رابطه با کشف و مدیریت دادهها، ردیابی و مدیریت هزینه، کنترلهای دسترسی نحوۀ مدیریت تعداد روزافزون پرسوجوها، مسائل داشبوردها و ویژگیها و مدلهای آنها روبهروست. البته قابلیت اطمینان و زمان بهروزرسانی، مهمترین چالشهایی هستند که بسیاری از تیمهای DevOps مسئولیت آنها را بر عهده دارند. اما آنها اغلب با جنبههای دیگری مانند سرعت توسعهدهنده و ملاحظات امنیتی نیز همراه هستند. در این دو حوزه، مشاهدهپذیری دادهها، تیمهای داده را قادر میسازد تا بدانند که آیا دادهها و خطوط دادهشان بدون خطا هستند یا خیر.
در این رابطه، کروان معتقد است که سیستمهای قابلمشاهده مؤثر دادهها باید در جریان کار تیم داده ادغام شوند. این مسئله به آنها امکان میدهد تا بهجای واکنش مداوم به مسائل داده و خاموشکردن آتشِ دادهها، روی رشد پلتفرمهای داده خود تمرکز کنند. بااینحال، یک سیستم مشاهدهپذیری داده با تنظیم ضعیف، میتواند منجر به امید و اعتماد کاذب شود. یک سیستم دادۀ موثر همچنین باید با تطبیق خودکار با تغییرات کسبوکار، بخش زیادی از تعمیر و نگهداری را از آزمایش مسائل مربوط به کیفیت دادهها حذف کند. بااینحال، یک سیستم مشاهدهپذیری دادهای که بهینه نشده، ممکن است تغییرات در کسبوکار را اصلاح نکند یا برای تغییرات کسبوکار بیشازحد تصحیح انجام دهد که نیاز به تنظیم دستی دارد و البته این امر میتواند زمانبر باشد