حفاظت از حريم شخصي در سيستمهاي دادهكاوي
نويسندگان: فان ژانگ - وي ژائو؛ ترجمه: امين كلانتري
اشاره :
طرح پايه
تأمينكنندگان داده اطلاعات شخصي خود را به سرور انبار داده (data warehouse server) ارسال ميكنند. اين سرور كه لايه مياني به حساب ميآيد، از فرايندهاي تحليل آنلاين دادهها، پشتيباني ميكند و از طريق تبديل دادههاي خام كاربران به دادههاي گروهي، اطلاعاتي را براي سرورهاي دادهكاوي فراهم ميكند كه امكان پردازش سريعتر آنها فراهم است.
سرورهاي انبار داده، با جمعآوري داده با يك نظم فيزيكي خاص، نظير استفاده از ساختار مكعبيِ چندبعدي و استفاده از توابع جمعي نظير Sum ،Average ،Max و Min پيشمحاسبههاي مختلفي از دادهها فراهم ميكند. براي يك سيستم آنلاين از نوع survey، پاسخدهندگان در اصل تأمينكنندگان داده هستند كه دادههاي خود را به سرور انبار داده تحليل از نوع survey، ارسال ميكنند.
ميانگين سن پاسخدهندگان به برنامه، ميتواند يك نمونه از اجماع دادهها در سيستم به حساب آيد. پردازش دادههاي حاصل از توابع اجماع در سرور خيلي آسانتر از پردازش دادههاي خام ارسالي توسط تهيهكنندگان داده است.
سرورهاي دادهكاوي، در بالاترين لايه قرار ميگيرند كه كار اصلي در زمينه دادهكاوي توسط آنها انجام ميشود. در يك سيستم دادهكاوي كه اصول حفاظت از حريم شخصي را رعايت كرده باشد، اين سرورها، نميتوانند آزادانه به همه دادههاي ذخيرهشده در انبارهاي داده دسترسي داشته باشند.
براي مثال، در يك سيستم بيمارستاني، اداره حسابداري بايد فقط بتواند به دادههاي مالي بيماران دسترسي داشته باشد و به هيچ عنوان نبايد به ركوردهاي ثبت شده در مورد سوابق پزشكي آنها دسترسي داشته باشد. توسعه و ايجاد قوانين مؤثر براي دسترسي درست سرورهاي دادهكاوي به دادههاي انبارهاي داده، يكي از مشكلاتي است كه تحقيق در مورد آن به صورت ارسال و دريافت گسترده پيشنهادها، در حال انجام است.
به علاوه، يك سرور دادهكاوي ممكن است با ايجاد مدلهاي دادهكاوي روي سرور انبار داده، دادههاي آن را با سرورهاي دادهكاوي ديگر در سيستمهاي ديگر به اشتراك بگذارد. انگيزه اصلي از به اشتراك گذاشتن داده در اين مدلها، ايجاد مدلهاي مشابه براي دادهكاوي در بين سيستمها است.
براي مثال، شركتهاي اجارهدهنده سرور، ممكن است بخواهند روشهاي دادهكاوي خود روي ركوردهاي مشتريان را به اشتراك بگذارند تا به اين ترتيب يك مدل جهاني دادهكاوي در مورد رفتار مشتريان ايجاد كنند كه به نفع همه شركتها خواهد بود. همانطوركه شكل 1 نشان ميدهد، به اشتراك گذاشتن داده در بالاترين لايه رخ ميدهد كه در آن هر سرور دادهكاوي از مدل دادهكاوي مخصوص خود استفاده ميكند. بنابراين در اينجا «به اشتراك گذاشتن» به معني به اشتراك گذاشتن مدلهاي دادهكاوي محلي است، نه به اشتراك گذاشتن دادههاي خام.
حداقلهاي ضروري براي رعايتشدن اصول پايه طراحي
بيشتر نظريهپردازان تفسير عبارت «حريم شخصي در مدلسازي داده» را به اين صورت در نظر ميگيرند كه مالك داده به صورت پيشفرض اجازه افشاي دادههاي شخصي خود را نداده است؛ مگر اينكه براي اجراي دادهكاوي حتماً به آن دادهها نياز باشد.
اين فرض به همراه تعريف مورد قبول براي حفاظت از اطلاعات، مباني پايه و اصول پايه طراحي سيستمهاي دادهكاوي با رعايت حريم شخصي را ايجاد ميكنند:
در يك سيستم دادهكاوي، اطلاعات شخص افشا شده بايد شامل حداقل دادههايي باشد كه در دادهكاوي به آنها نياز است.
در نوشتار حاضر منظور و معيار براي كلمه «حداقل»، كيفيت اطلاعات است، نه كميت آن. از آنجا كه معيار كّمي براي اندازهگيري افشاي اطلاعات شخصي، در سيستمهاي مختلف فرق ميكند، پس حداقل ديد مشترك اين است كه نبايد هيچ يك از اطلاعات شخصي غيرضروري افشا شود (در اين نوشته منظور از غيرضروري، به سطح دقت مورد نياز در نتايج حاصلي از سيستمهاي دادهكاوي بستگي دارد.). بنابراين كلمه «حداقل» به اين معني است كه افشاي حريم شخصي، بر مبناي نياز به داده صورت ميگيرد. خيلي از قوانين از جمله HIPPA، تبعيت از قانون حداقل نيازهاي ضروري را الزامي ميدانند.
پروتكلهاي حريم شخصي
1- جمعآوري داده (Data collection) كه در هنگام انتقال داده از توليدكنندگان داده به سرورهاي انباره داده، از حريم شخصي دادهها، حفاظت ميكند.
2- كنترل نتيجه (Infereace control) كه حفاظت از حريم شخصي را هنگام انتقال داده از انبارهاي داده به سرورهاي دادهكاوي مديريت ميكند.
3- به اشتراكگذاري اطلاعات (information sharing) دادههاي به اشتراك گذاشته شده بين سرورهاي دادهكاوي در سيستمهاي مختلف را كنترل ميكند.
با در نظر گرفتن قانون «حداقلهاي ضروري»، بايد هدف مشترك اين سيستمها، ساختن مدلهاي دادهكاوي دقيق، با انتقال حداقل داده شخصي مورد نياز براي دادهكاوي باشد. در عمل، ساختن سيستمي كه در عين كارايي بتواند به خوبي از دادههاي شخصي محافظت كند، در اكثر موارد كار سختي است.
شکل1- معماري پايه براي حفاظت از حريم شخص در فرآيندهاي داده کاوي. اين معماري بهطور کلي شامل سه لايه است: تهيه کنندههاي داده، که مالک داده هستند. سرورهاي انبار داده، که از فرآيندهاي تحليلي آنلاين پشتيباني ميکنند و سرورهاي داده کاوي که کارهاي داده کاوي را انجام ميدهند و اطلاعات خود را به اشتراک ميگذارند. هدف اصلي کنترل کردن دادههاي محرمانهاي است که بين اين موجوديتها رد و بدل ميشود؛ بدون آن که مانع فرآيند داده کاوي شويم.
به اين ترتيب ميبينيم كه هميشه يك رابطه معكوس، بين ايجاد يك سيستم دادهكاوي دقيق يا ايجاد يك سيستم امن از نظر حفاظت از دادههاي شخصي، وجود دارد. اين پروتكلها، مبتني بر متدهاي اثباتشدهاي هستند كه طراح سيستم ميتواند براي برآوردهكردن نيازهاي خاصي، آنها را در نظر گيرد و در مورد نسبت افشاي دادههاي شخصي به دقت دادهكاوي، حالتي را انتخاب كند كه بيشترين نفع را براي او داشته باشد. براي مثال، پروتكل «جمعآوري داده» ميتواند از يكي از دو روش معمول براي جمعآوري داده استفاده كند كه هر يك منافع و معايب خاصي دارد.
پروتكل جمعآوري داده
پروتكل جمعآوري داده از چندين فاكتور ايجاد شده است. اولين فاكتور ضروري، مقياسپذير بودن (قابل اندازهگيري) داده است؛ زيرا سرور انبار داده ميتواند همانند سيستمهاي نوع survey، با صدها هزار تهيهكننده داده در ارتباط باشد. ثانياً هزينههاي محاسباتي براي تهيهكنندگان داده بايد كم باشد؛ زيرا آنها در مقايسه با سرورهاي انبار داده، قدرت محاسباتي خيلي كمتري دارند و در نتيجه هزينه محاسباتي بالا ميتواند آنها را از مشاركت در پروژههاي دادهكاوي منصرف كند.
در نهايت، اين پروتكل بايد درست، ساده و مطمئن باشد. يعني بتواند در عين حفاظت از حريم شخصي ارسال كننده داده، نتايج نسبتاً دقيقي را نيز ايجاد كند؛ حتي اگر ارسالكنندههاي مختلف به صورت متفاوت با سيستم برخورد كنند. براي مثال، اگر بعضي از تهيهكنندگان داده در يك سيستم survey، از پروتكل سوءاستفاده كنند يا دادههاي بيمعني ارسال كنند، پروتكل جمعآوري داده بايد تأثيرات ناشي از اين برخورد غلط با سيستم را كنترل كند و تضمين كند كه نتايج نهايي حاصل از دادهكاوي به اندازه كافي دقيق بمانند.
شكل 2 ساختار درختي مربوط به پروتكلها و زيرپروتكلهاي جمعآوري داده را نشان ميدهد. همانطور كه ميبينيد پروتكل جمعآوري داده دو نوع اصلي را شامل ميشود.
شکل2- ساختار درختي پروتکلهاي جمعآوري داده. يک طراح بايد تصميم بگيرد که از کدام روش استفاده کند؛ روشهاي مبتني بر ارزش يا ابعاد، تا راهکارهاي متناسب با آن روش به بهترين شکل با طراحي مورد استفاده تناسب داشته باشد.
روش مبتني بر ارزش
روش مبتني بر آشفته كردن براي دادههاي اختياري مناسب است. در حالي كه روش مبتني بر اجماع، به دانش سيستم در مورد سلسله مراتب مربوط به داده بستگي دارد و در عوض ميتواند در تضمين مبهم ماندن داده نيز كمك كند. براي مثال، ابهام -k يعني آنكه دادههاي هر ركورد دادهاي آشفتهشده از دادههاي 1-k ركورد ديگر، غيرقابل تشخيص است.
روش مبتني بر ارزش فرض ميكند كه رسيدن به دادههاي شخصي از طريق بررسي دادههاي دستكاري شده براي سرورهاي انباره داده ناممكن يا حداقل خيلي سخت است، ولي سرور ميتواند دادههاي اصلي را از روي توزيع دادههاي آشفته موجود بازيابي كند و در نتيجه امكان ايجاد مدلهاي دادهكاوي دقيق را فراهم آورد.
روش مبتني بر ابعاد
روش مبتني بر block اين كار را از طريق جداسازي بعضي از صفات شخصي انجام ميدهد و اين دسته از دادهها را در اختيار سرور انبار داده قرار نميدهد، ولي اين روش ممكن است باعث از دست دادن داده شود، ولي سرورهاي دادهكاوي نتوانند از روي اين دسته از دادهها، نتايج دقيقي به دست آورند.
مدل پيچيدهتري با نام مدل مبتني بر Projection دادههاي اصلي را روي زير فضاهايي با ابعاد كمتر منعكس ميكند. اين زيرفضاها با دقت زيادي طراحي شدهاند تا تنها حداقل دادههاي مورد نياز براي ايجاد مدلهاي دادهكاوي دقيق را شامل شوند.
مزايا و معايب
تا كنون تحقيقات نتوانسته است يك مدل كلي و قابل استفاده از الگوي مبتني بر Projection براي همه برنامهها ايجاد كند. با اين وجود باز هم اين روش از لحاظ نسبت كاهش دقت به افشاي اطلاعات شخصي، در مقايسه با روش مبتني بر ارزش مزيتهاي زيادي دارد.
بيشتر روشهاي مبتني بر ارزش، با صفات مختلف، به روشهاي مستقل و متفاوتي برخورد ميكنند. در نتيجه بعضي از صفاتي كه در دادهكاوي اهميتي ندارند نيز در همان سطح افشاي دادههاي مهم، براي سرور انباره داده، ارسال ميشوند. مطالعات اخير نشان ميدهد كه در صورت استفاده از روش آشفتهسازي تصادفي، سرور انباره داده ميتواند با نقض تكنيكهاي حفظ حريم شخصي، آشفتگيها را از دادههاي آشفته حذف كند و به اين ترتيب حداقل بخشي از دادههاي محرمانه را به دست آورد.
در روش مبتني بر projection به خاطر بررسي رابطه بين صفات و ارايه دادههاي صرفاً ضروري براي دادهكاوي از مشكلات معمول در سيستم روش مبتني بر ارزش خبري نيست.
همچنين از طريق دريافت اطلاعات در مورد دادههاي ضروري، ميتواند از ارايه اطلاعات شخصي غيرضروري جلوگيري كند و به اين ترتيب عملكرد آشفتهسازي داده را بهبود بخشد. من و يكي از همكارانم در يكي از پروژههاي سابق، الگويي را ارايه كرديم كه بر مبناي دريافت راهنماييهاي لازم و كاهش ابعاد داده متناسب با راهنماييهاي دريافتي، پايهريزي شده بود.
اين روش براي سيستمهاي پويا نظير سيستمهاي survey طراحي شده بود كه در آنها تهيهكنندگان داده به صورت ناهمزمان به سيستم متصل شده و دادههاي مورد نظر ما را تأمين ميكنند. در اين الگو براي راهنمايي تهيهكنندگان داده كه هنوز دادههاي خود را ارسال نكردهاند، ابتدا دادههاي جمعآوريشده از اعضاي قبلي بررسي ميشود و سپس با تحليل آنها، دادههاي ضروري براي دادهكاوي شناسايي و از تهيه كننده داده درخواست ميشود. سپس سيستم درخواست دريافت صفات مورد نياز را ارسال ميكند. نمونههاي قبلي نشان ميدهد كه الگوها و برنامههاي داراي راهنما، از الگوهايي كه فاقد راهنما باشند بهتر عمل ميكنند.
پروتكل كنترل نتيجه
براي طراحي و پيادهسازي پروتكل كنترل نتيجه، چندين پيشنياز وجود دارد. يكي از اين نيازها، داشتن امكان جلوگيري از ارسال نتايج است. اگر سرور دادهكاوي يك سرور مشكوك يا رقيب باشد، در اين صورت سعي ميكند با استفاده از نتايج پرسوجوهاي قبلي خود به دادههاي شخصي و محرمانه دست پيدا كند. مثالي از اين روش در شكل 3 ارايه شده است.
شکل3- نتيجهگيريهايي که اطلاعات محرمانه را افشا ميکنند. اگر سرور داده کاوي قصد نفود داشته باشد، ميتواند از طريق پاسخ پرسوجوهاي ارسالي و دادههاي مربوط به بعضي از سلولهاي دادهاي (که با نام Known يا شناخته شده، نشان داده شدهاند)، تعداد DVDهاي فروخته شده توسط فروشنده در ماه ژوئن را محاسبه کند (فرض بر ا ين است که اين دادهها، محرمانه هستند و نبايد افشا شوند). اگر Q1 تا Q8 به ترتيب نتيجه پرسوجوهاي ارسالي باشند، کافي است براي يافتن تعداد DVDهاي فروخته شده، عبارت زير را محاسبه کنيم:
Q1+Q8=(Q5+Q6)=88-72=16
به علاوه، پروتكل كنترل نتيجه بايد به اندازه كافي كارايي داشته باشد تا به درخواستهاي انجام شده از سرورهاي انبار داده در مدت زمان منطقي پاسخ دهد. يعني بايد زمان پاسخگويي يا همان مدت زمان بين درخواست از سرور و پاسخ سرور به درخواست، در يك بازه معقول قرار گيرد. زماني كه پروتكل كنترل نتيجه صرف ميكند نيز جزو زمان پاسخگويي سرور به حساب ميآيد. پس اين زمان نيز بايد همواره كنترل شود تا زمان پاسخگويي سرور انباره داده بتواند هميشه در حد معقولي باقي بماند.
براي رسيدن به اين نيازها، پروتكلهاي كنترل نتيجه بايد اطلاعات قرار گرفته در پاسخ پرسوجوها را محدود كنند تا سرورهاي دادهكاوي نتوانند از طريق بررسي پاسخ پرسوجوهاي ارسالي، به دادههاي شخصي افراد دسترسي پيدا كنند.
شكل 4 ساختار درختي قوانين كنترل نتيجه را نشان ميدهد كه شامل دو روش براي كنترل نتيجه است.
شکل4- ساختار درختي پروتکلهاي کنترل نتيجه. طراح ميتواند با توجه به نياز خود بررسي کند که کدام يک از روشها پرسوجوگرا يا دادهگرا براي او مناسبتر است.
روش پرسوجوگرا
بنابراين كنترل نتيجه به روش پرسوجوگرا به اين معني است كه وقتي سرور انباره داده يك درخواست داده يا پرسوجو را دريافت كند، تنها در صورتي به آن پاسخ خواهد داد كه نتوان از تركيب نتيجه آن پرسوجو و مجموعه پرسوجوهاي ذخيرهشده در تاريخچه پرسوجوهاي ذخيره شده (يعني پرسوجوهايي كه قبل از اين به آنها پاسخ داده شده است)، به اطلاعات خصوصي افراد دسترسي پيدا كرد.
در اين حالت ميگوييم كه پرسوجوي ارسالي، امن است. در رابطه با كنترل نتيجه به روش پرسوجوگرا، در پايگاههاي داده آماري، كنترل نتيجه در اين گونه انبارهاي داده نياز به بررسي حجم عظيمي از داده را شامل ميشود. در نتيجه بار كاري اين نوع سرورها با كنترل نتيجه به روش استفاده و بررسي پرسوجوهاي قبلي بسيار كمتر ميشود و در نتيجه كارايي سيستم افزايش مييابد.
از آنجا كه تشخيص پوياي مجموعه پرسوجوهاي امن (بررسي آني تاريخچه پرسوجوهاي انجامشده)، يك فرآيند زمانبر است، در نتيجه استفاده از حالتهاي غيرپوياي كه معادل با اين روش باشند، مناسبتر است. حالت استاتيك قبل از اتصال به شبكه، مجموعهاي از پرسوجوهاي امن را مشخص ميكند (قبل از آنكه هر گونه پرسوجويي را دريافت كند).
اگر يك مجموعه از پرسوجوها امن باشند، در اين صورت هر زيرمجموعهاي از آن پرسوجوها نيز امن به حساب ميآيد. در هنگام اجرا و زماني كه سرور انباره داده، يك پرسوجو را دريافت ميكند، تنها در صورتي به آن پاسخ ميدهد كه آن پرسوجو در يكي از مجموعه پرسوجوهاي امن از قبل تعريف شده قرار داشته باشد. در غير اين صورت، آن پرسوجو مردود ميشود.
از طرف ديگر، روش پرسوجوهاي امن ولي ثابت، در توليد مجموعه پرسوجوهاي امن، خيلي محتاط و محافظهكار است و در نتيجه ممكن است بعضي از پرسوجوها را مردود كند. در حالي كه مردود كردن آن ها ضروري نيست.
روش دادهگرا
روش دادهگرا، فرض ميكند كه با آشفتهسازي ميتواند از افشاي دادههاي محرمانه، جلوگيري كند و بدون هيچ محدوديتي و بر مبناي دادههاي آشفته به همه پرسوجوها پاسخ دهد. تحقيقات نشان ميدهد كه پاسخهاي حاصل شده با استفاده از دادههاي آشفته هنوز هم براي ايجاد مدلهاي دادهكاوي نسبتاً دقيق، مناسب هستند.
مزايا و معايب
مزيت روش پرسوجوگرا در اين است كه در مقايسه با روش دادهگرا، پاسخهاي دقيقي توليد ميكند. وقتي سرور انباره داده به يك پرسوجو پاسخ ميدهد، جواب ارايه شده هميشه دقيق و درست است. در حالي كه در روش دادهگرا دقت پاسخ به پرسوجوها هميشه حالت تقريبي دارد و به همين سبب ممكن است براي دادهكاوي خيلي هم مناسب نباشد؛ به ويژه در جاهايي كه نياز به ايجاد خروجي خيلي دقيق وجود دارد.
كارايي و سرعت بالا، يكي از مزيتهاي مهم روش پرسوجوگرا از نوع غيرپويا است؛ زيرا در اين روش به علت پيشمحاسبه خيلي از فرايندهاي محاسباتي زمانبر، هزينه زماني پاسخ به پرسوجو و به عبارتي زمان پاسخ به پرسوجو خيلي كوتاهتر است.
مدل پويا از نظر كارايي عملكرد ضعيفتري دارد و در عوض به تعداد بيشتري پرسوجو، پاسخگو است. با دريافت تعداد بيشتري پرسوجو سرور دادهكاوي بايد زمان بيشتري را براي بررسي تاريخچه پرسوجوهاي كامل شده صرف كند. روش دادهگرا هم كارايي كمي دارد؛ زيرا سربار محاسباتي ناشي از تخمين پاسخ پرسوجوها ميتواند چندين برابر مدت پاسخگويي به خود پرسوجو وقت تلف كند.
يك راه براي كارايي پروتكلهاي بهبود كنترل نتيجه، تركيب كردن روشهاي پرسوجوگرا و دادهگرا است. با معرفي الگوي پاسخدادن يا رد يك پرسوجو به روشهاي دادهگرا، روش تركيبي حاصل، به سرور انبار داده اجازه ميدهد بعضي از پرسوجوهاي نقضكننده حريم شخصي (نظير پرسوجوي Q3 در شكل3) را مردود كند.
در نتيجه، اين كار به طور مؤثري نياز به آشفتهسازي در دادهها را كاهش ميدهد و در عين حال همان سطح از حفاظت از دادهها، ارايه ميشود. چون دادهها به صورت آشفته ذخيره شده است، در نتيجه سرور موظف است پرسوجوهاي كمتري را مردود كند و از طرفي ميتواند براي اكثر پرسوجوها جواب تقريباً درستي ايجاد كند و در همان حال از دادههاي خصوصي افراد نيز حفاظت كند.
پروتكل به اشتراك گذاري اطلاعات
براي حفاظت از حريم شخصي در سيستمهاي دادهكاوي محلي، بايد مكانيزمهايي وجود داشته باشد تا جلوي افشاي اطلاعات اختصاصي از مدلهاي دادهكاوي محلي گرفته شود. اين مكانيزم را پروتكل به اشتراكگذاري اطلاعات مينامند كه دوباره براي رعايت اصل «ارايه حداقل نيازهاي ضروري»، پيريزي شده است.
هدف از اين پروتكل اين است كه سرورهاي دادهكاوي در سيستمهاي مختلف بتوانند در ايجاد يك مدل دادهكاوي مشترك سهيم شوند و براي رسيدن به اين هدف نيز حداقل دادههاي اختصاصي خود را در مورد مدلهاي دادهكاوي محلي در زمينه به اشتراكگذاري اطلاعات در آن پلتفرم مشترك استفاده كنند.
تعداد زيادي پروتكل به اشتراك گذاري اطلاعات براي استفاده در برنامههايي كه وظيفهاي جز دادهكاوي دارند، ارائه شده است؛ نظير برنامههاي تعامل بين پايگاههاي داده. به اشتراكگذاري اطلاعات براي بسياري از سيستمهاي توزيع شده، اهميتي حياتي دارد و بيشتر برنامهها نيز روي طراحي پروتكلهاي ويژه به اشتراكگذاري اطلاعات براي فعاليتهاي دادهكاوي متمركز است.
يكي از مهمترين نگرانيها در ايجاد سيستمهاي به اشتراكگذاري داده، ايجاد امكان دفاع در برابر سيستمهاي نفوذياي است كه با استفاده از اختيارت، كاملاً به طور دلخواه و متناسب با نيازهاي خود، عمل ميكنند. مدل دفاع، به مدل نفوذ (مجموعهاي از فرضيات در مورد هدف نفودگر و نحوه عمل يا رفتار او) بستگي دارد. دو مدل از انواع معروف نفوذ، با نام روش semihonest (دورو) و beyond semihonest (فراتر از دو رو) شناخته ميشود.
نفوذ به روش semihonest
ثابت شده است كه رمزنگاري به روش cryptographic ميتواند بهطور مؤثري جلوي نفوذ به روش semihonest را سد كند. در اين روش هر سرور دادهكاوي، مدلدادهكاوي مربوط به خود را رمزنگاري ميكند و مدل رمزنگاري شده را با ساير سرورهاي دادهكاوي مبادله ميكند.
ويژگيهاي بعضي از الگوهاي رمزنگاري نظير سيستمهاي مبتني بر الگوريتم RSA يا Rivest-Shaminr-Adleman، اين امكان را فراهم ميآورد تا بتوان براي سرورهاي دادهكاوي، الگوريتمهايي ايجاد كرد كه بعضي از وظايف دادهكاوي معين را انجام دهند و بدون اطلاع از كليد خصوصي ساير موجوديتها، بعضي از وظايف تعريفشده براي آنها بهعنوان يك سرور دادهكاوي را عملياتي كنند. اين وظايف شامل دستهبندي، همراه كردن قوانين دادهكاوي، clustering دادهها، فيلتركردن تعاملي، استفاده از عملگرهايي نظير intersection ،union و element reductionاست.
از آنجا كه در اين روش بدون دانستن كليدهاي private، دسترسي به مدلهاي دادهكاوي اصلي، با استفاده از مقادير رمزنگاري شده موجود امكانپذير نيست، ميتوان از اين روش بهعنوان دفاعي امن در برابر نفوذهاي semihonest استفاده كرد. چندي است كه محققان دستهبندي روشهاي رمزنگاري cryptographic را براي استفاده در سيستمهايي با تنظيمات مختلف، كاملكردهاند.
نفوذ به روش beyond semihonest
يكي از اين مدلها، روش نفوذ هدفدار است كه براي نفوذ، اهداف مورد نظر را با هم تركيب كرده و با تركيب ميكند نتايج با اطلاعات محرمانه موجود در مورد ساير موجوديتها، از فرايند دادهكاوي، نتايج دقيقي را به دست ميآورد. سپس يك روش برنامهريزيشده طراحي ميشود تا در برابر نفوذهايي كه بر مبناي نتايج دقيق حاصل از دادهكاوي و تركيب آن با اطلاعات محرمانه موجود، طرحريزي شده است، مقابله شود.
ايده اصلي اين است كه پروتكلي براي به اشتراك گذاشتن دادهها ايجاد شود. به نحوي كه هيچ نفوذگري نتواند در آن واحد از فرايند دادهكاوي هم به نتايج دقيقي دست پيدا كند و هم به حريم اطلاعات محرمانه سرورهاي ديگر دسترسي پيدا كند. با اين روش، نفوذگرهايي كه بيشتر تمركز خود را روي دقت نتايج حاصل از دادهكاوي متمركز كردهاند، نميتوانند براي ايجاد دقت مورد نظر به اطلاعات محرمانه ساير سرورها، دسترسي پيدا كنند.
زمينههاي موجود براي بررسي بيشتر
پيادهسازي و يكپارچگي پروتكلها
نيازمنديهاي يك سيستم ايجاد شده با سطوح دسترسي متفاوت براي رعايت اصول حريم شخصي
روشهاي حفظ حريم شخصي در تكنيكهاي دادهكاوي، به رعايت اصول درجهبندي حفاظت از حريم شخصي متناسب با نياز تأمينكنندگان داده بستگي دارد. بيشتر تحقيقات كنوني در مورد حفظ حريم شخصي در سيستمهاي شبيه به هم و معمول استوار است، كه در آنها همه مالكان داده به يك اندازه به حفاظت از دادههاي مرتبط با حريم شخصي نياز دارند.
همچنين فرض ميشود كه سطح محافظت در مورد همه دادهها نيز يكسان است. چنين فرضيهاي كاملاً غيرواقعي است و در عمل ممكن است به كاهش كارايي سيستمها منجر شود. طراحي و پيادهسازي تكنيكهايي كه نيازمنديهاي يك سيستم با سطوح مختلف رعايت حريم شخصي را رعايت كند، يكي از زمينههايي است كه نتايج بالقوه زيادي براي آن پيشبيني شدهاست.
ارزيابي حريم شخصي
1- تنظيمات سيستم را در نظر بگيرد (علاقمندي نفوذگرها به مقدار دادهاي مربوط به صفات دادهاي متفاوت، در سطوح متفاوتي قرار دارد. مثلاً علاقه زيادي به شناسايي بيماراني وجود دارد كه بيماريهاي واگيردار دارند).
2- بايد سطوح حفاظتي متعددي كه توسط هر تهيه كننده داده در مورد هر يك از عناصر دادهاي درخواست ميشود، در نظر گرفته شود(براي مثال بعضيها ممكن است كه اطلاعات مربوط به سن خود را بهعنوان داده محرمانه در نظر گيرند. در حاليكه ديگران تمايل داشته باشند، اين اطلاعات افشا شود).
3- مانند همه موارد قبل بايد از قانون «حداقل نيازهاي ضروري» تبعيت شود.
يك مطالعه كامل در زمينه ارزيابي حفظ حريم شخصي نشان ميدهد كه هر سه پروتكل مذكور نقش زيادي در بهبود حفظ حريم شخصي در تكنيكهاي دادهكاوي دارند.
شناسايي بينظميها (anomaly)
تحقيق روي آنومالي، يكي از زمينههاي مهم در سيستمهاي دادهكاوي است و ميتواند به ايجاد قوانين متفاوتي در زمينه امنيت، امور مالي و امور پزشكي بيانجامد. بهطور كلي سرمايهگذاري در زمينههايي نظير طراحي تكنيكهاي محافظت از حريم شخصي براي شناسايي anomaly در سيستمهاي دادهكاوي، زمينه كاري بسيار مفيدي به حساب ميآيد.
سطوح محافظتي چندگانه
بيشتر تحقيقات كنوني، روي محافظت در اولين سطح متمركز هستند و فرض ميكنند كه مقدار فاكتور دوم براي همه مدخلها مشخص است. البته تحقيقاتي نيز انجام شده است تا نحوه محافظت از اطلاعات محرمانه در سطح دوم و حتي سطوح بعد نيز مشخص شود.
جمعبندي
براي پيادهسازي سيستمهاي حفاظت از حريم شخصي روي سيستمهاي واقعي، به مطالعات زيادي نياز است تا بتوان با تكيه بر آن نگراني مالكان داده در مورد حفظ حريم شخصي را كاملاً برطرف كرد. البته زمينههاي كاري حساستر به ايجاد و مديريت برنامههايي مربوط ميشود كه در زمينه بهداشت و درمان، تحليل بازار و امور مالي استفاده خواهند شد. اميدواريم كساني هم پيدا شوند كه به كار و بررسي در مورد اين زمينهها بپردازند.
منبع:ماهنامه شبکه ، شماره 78
/س