آماده سازي داده ها براي داده کاوي
مقدمه :
امروزه ديگر مشکل کمبود داده و اطلاعات روبرو نيستيم و به جاي آن با مسأله داده ها و اطلاعات درست ، از ميان حجمي انبوه از داشته ها روبروييم. از آن جا که درک روابط و ساختار حاکم بر داده ها واطلاعات، مي تواند دانشي گرانبها ارايه نمايد؛ نيازمند استفاده از مکانيسمي هستيم تا به بهترين وجهي عصاره اين انبوه داشته ها تهيه شده و به کار گرفته شود. از اين رو استفاده گسترده از تکنيک ها ومکانيسم هاي داده کاوي 1، متن کاوي 2، وب کاوي 3 و دانش کاوي 4؛ بيش از پيش در کانون توجه قرار گرفته است. از آنجا که؛ دستيابي به نتايج واقعي و مؤثر از اين مکانيسم ها؛ بدون برخورداري از ورودي هاي صحيح ، قابل اعتماد و مؤثر، ممکن نيست؛ پيش از هر تحليلي بايستي از صحت و تناسب داده ها و اطلاعات موجود اطمينان داشته باشيم. اين موضوع حياتي سبب شده تا ، آماده سازي داده و اطلاعات پيش از به کارگيري واقعي آن ها سنگ بناي تحليل قابل اعتنايي باشد. با توجه به گستردگي اين بحث ،در ادامه تنها بخشي از بحث آماده سازي داده ها ارايه شده و تشريح ساير موارد و ابزارهاي موجود براي اين کار به بعد موکول شده است.آماده سازي داده ها 5 براي داده کار :
اهميت آماده سازي داده ها :
کارهاي عمده در آماده سازي يا پيش پردازش داده ها :
2-پاک سازي داده: اين مرحله شامل؛ پر کردن داده هاي گم شده، هموار کردن نويزها، شناخت و حذف داده هاي پرت و بر طرف کردن ناسازگاري هاست.
3- يکپارچه سازي داده: اين موضوع، معمولاً به هنگام تلفيق چندين پايگاه داده يا فايل اهميت مي يابد. مسايلي هم چون افزونگي داده ها در اين دسته قرار مي گيرند.
4-تبديل داده: در اين مرحله از پيش پردازش داده ها، با عملياتي همچون نرمال سازي، تغيير و تجميع داده ها روبرو هستيم.
5-کاهش داده و کاهش بعد: هدف از اين مرحله آن است که به حجم کوچک تري از داده ها دست يابيم. نکته مهم در اين مرحله از آماده سازي داده ها، آن است که دست يابي به نتايج تحليلي مشابه با اصل و تمام داده ها تضمين گردد؛ چرا که در غير اين صورت اين کاهش اثر مثبتي براي ما در پي نخواهد داشت.
از آن جا که، هر يک از موضوعات مطرح شده در پيش پردازش داده ها، نيازمند بحثي مفصل و طولاني در مفاهيم ودر تکنيک هاي اجرايي است؛ ارايه آن ها در اين مجموعه نمي گنجد.
از اين رو، با توجه به اهميت موضوع پاک سازي داده ها و عموميت آن در هر نوع عمليات آماده سازي براي داده آمايي، در ادامه، بيشتر اين مبحث را مورد توجه قرار داده و ساير موارد را به مقالات ديگري موکول خواهيم کرد.
پاک سازي داده ها:
وظايف پاک سازي داده:
الف)اکتساب داده و فراداده:
ب)پر کردن داده هاي گم شده/مفقوده:
*داده ها هنگام ورود حايز اهميت نبوده اند.
*در تجهيزات ثبت داده ها ايراد وجود دارد.
*به خاطر دشواري فهم، داده وارد نشده است.
*داده مورد نظر، با داده ديگر ناسازگار بوده و به ناچار حذف شده است.
حال بايد ديد که چگونه بايد با اين مشکل برخورد کرد. انتخاب روش برخورد با داده ها که وجود ندارد؛ بستگي به شرايط مسأله دارد. يکي از شرايط موثر در اين تصميم گيري ها آن است که دريابيم چه عاملي دليل فقدان داده ها بوده است.
برخي داده ها مفقوده کاملاً از نظر آماري غير وابسته به داده هايي است که تا کنون مشاهده شده ان ؛ اين داده ها را مفقود شده ي کاملاً تصادفي 9 مي گويند. در برخي موارد نيز مقادير مفقوده، تصادفي 10 هستند و به تعدادي از متغيرها يا طبقه داده هاي پيش بيني کننده مشروط مي باشند. دسته اي ديگر از داده هاي مفقوده نيز، غير قابل چشم پوشي 11 هستند؛ به اين معنا که اين نوع داده هاي مفقوده به کمک داده هاي مشاهده شده قبل از خود قابل نقل هستند. اين قبيل تفاوت ها سبب مي شود که روش هاي متفاوتي براي برخورد با مقادير مفقوده مورد استفاده قرار گيرد.
حذف رکورد: اين روش براي عمليات دسته بندي و بر روي داده هاي طبقه اي صورت مي گيرد. نکته اي که بايد مد نظر باشد آن است که اگر تعداد داده هاي مفقوده زياد باشد؛ استفاده از اين روش سبب مي شود که حجم نمونه به شدت کاهش يابد. اين مشکل به شکل ويژه هنگامي اثرات خود را بر نتايج نشان مي دهد که برخي از نمونه داده ها بسيار نادر و کم بوده و حذف رکورد مربوط به آن ها، سبب از دست دادن نمونه اي با ارزش شود. از اين رو حذف رکورد بايستي در موارد خاص انجام گيرد.
حذف مشاهده:
اين انتخاب زماني روي مي دهد که رکورد داراي مقدارمفقوده، مورد نياز باشد؛ چرا که در غير اين صورت بود يا نبود مقدار براي ما مهم نيست. البته در صورت نياز به استفاده از اين روش بايد به ياد داشته باشيم که محاسبات انجام شده براي مقادير آمار توصيفي؛ از قبيل ميانگين، واريانس و کواريانس به اندازه هاي متفاوت نمونه مربوط خواهد شد که تأثير آن بايد مد نظر باشد.
پر کردن به صورت دستي:
پرکردن با مقدار ثابت سراسري:
پرکردن با ميانگين ويژگي:
پرکردن با مقادير با احتمال بيشتر:
باز هم بايستي يادآوري کنيم که ، نوع داده ها و شناخت آن ها قبل از پرکردن مقادير مفقوده ضروري است. مثلاً نمي توان داده طبقه اي را با روش ميانگين ويژگي پرکرد، چرا که ميانگين براي اين نوع داده ها قطعاً بي معنا خواهد بود. درک اين موارد در مواجهه با اين قبيل مشکلات اهميتي حياتي دارد.
ج)حل مشکل افزونگي(در عمليات تجميع داده ها):
براي اين گونه مسايل روش هاي متعددي وجود دارد که برخي از آن ها هم چونه افزونگي 12 معمول در پايگاه داده ها را با آزمون هاي مختلف آماري مي توان حل کرد.
د)يکسان سازي فرمت ها:
ه) تصحيح داده هاي ناسازگار:
اما مشکل عمده اي که با آن مواجه مي شويم و تشخيص آن بسيار مشکل است؛تعيين ناسازگاري هاي نهفته است. به عنوان مثال اگر به دنبال کشف الگو در مورد مسائل مربوط به هتل داري باشيد و قيمت مربوط به هتل هاي دنيا را از منابع مختلف جمع آوري کنيد، جداي از بحث تبديل نرخ ها و رفع ناسازگاري مربوط به مسايل خاص ارزي هر کشور، باز هم قيمت هتل ها نمي تواند ملاک مناسبي باشد؛ چرا که لازم است تا خدماتي همچون، صبحانه رايگان، استخر و ساير خدماتي را که در جاهاي مختلف به شيوه هاي مختلف ارايه مي شود، مد نظر داشت. به عبارتي قيمت هر شب اقامت در هتل در کنار نوع، شيوه و مقدار ارايه خدمات جانبي آن معنا پيدا مي کند.
روش عمده و اصلي در حل ناسازگاري ها درک ماهيت داده ها است. اما در مواردي نيز ناسازگاري ها را که حاصل تجميع چند منبع مختلف بوده و بيانگر افزونگي داده هاست؛ مي توان با کمک روش هاي آماري بر طرف کرد.
و) مواجهه با داده هاي نويز؛ داده هاي پرت؛ و هموار کردن اغتشاشات داده ها:
*استفاده از ابزارهاي معيوب جمع آوري داده
*مسائا و مشکلات حين ورود داده
*محدوديت فناوري.
قبل از بيان روش هاي مواجهه با اين گونه اغتشاشات داده اي، به ياد داشته باشيد که تشخيص نويز يا پرت بودن مهم تر از حل اين مشکل است! تشخيص اشتباه همواره درمان اشتباه به همراه دارد. از اين رو بايستي مطمئن شد که اولاً آن چه گمان مي کنيم مثلاً داده نويز است؛ واقعاً داده نويز باشد تا مبادا به عنوان انجام اصلاح در داده، داده اي با ارزش را تغيير دهيم.
براي مواجهه با داده نويز و هموار کردن داده ها، روش هاي مختلفي وجود دارد، که از جمله مي توان به گسسته سازي 15 داده ها، رگرسيون، خوشه بندي و روش هاي ترکيبي بازرسي ماشين و انسان 16 اشاره کرد. البته برخي از اين روش ها، هم چون استفاده از رگسيون و خوشه بندي در داده هاي پرت نيز به کابرد دارد. از اين رو آن ها را تنها يک مرتبه توضيح مي دهيم.
تلخيص توصيفي داده ها:
نتايج حاصل از تلخيص توصيفي داده ها مي تواند به شکل گرافيکي درآمده و درک و توصيف داده ها را ميسر سازد. از جمله گراف هايي که براي نمايش گرافيکي تلخيص توصيفي داده ها استفاده مي شود مي توان به؛ هيستوگرام، چندک18،چندک چندک، نمودارپراکندگي نمودار لويس 19 ،نمودار جعبه 20 ،نمودار ميله اي اين ها اشاره کرد. نرم افزارهاي مختلف آماري بسياري از نرم افزارهاي کاربردي داده کاوي با فراهم کردن امکان نمايش گرافيکي داده هاي توصيفي تلخيص شده، در عمليات آماده سازي داده ها سهيم شده اند.گسسته سازي:
هدف از اين روش آن است که داده ها را بر حسب قواعدي در دسته بندي هايي قرار دهيم؛ و دسته اي را که تعداد داده هاي موجود در آن بسيار کم باشد، کنار مي گذاريم. توجيه آن است که اين داده ها با ديگر داده ها تفاوت داشته و بنا به اشتباهاتي به وجود آمده اند. فراموش نکنيم که اين روش نبايستي حذف نمونه هاي ارزشمند را در تشخيص الگوها به همراه داشته باشد. از اين رو تأکيد مي کنيم که تشخيص نويز يا پرت بودن داده؛ از حل مشکل آن مهم تر است. رگسيون: رگسيون تنها روشي است که در صورت مهيا بودن شرايط استفاده، علاوه بر مشخص نمودن داده مغشوش براي آن مقدار هم پيشنهاد مي دهد. رگسيون بر روي تعداد مختلف ويژگي قابل اجراست. در صورتي که بر روي دو محور متعامد تنها دو ويژگي را در نظر داشته باشيم خروجي رگسيون برازش خطي براي تطبيق نقاط اين دو ويژگي است که به آن رگسيون خطي مي گويند. در صورتي که تعداد بيشتري متغير و با انواع ارتباط خطي و غير خطي داشته باشيم رگسيون ما يک رگسيون چند متغيره و يا غير خطي خواهد بود. قبل از استفاده از روش رگسيون بهتر است تا ويژگي هايي را که پيش بيني کننده خوبي براي متغير وابسته هستند؛ انتخاب کنيم. اين کار يا بر اساس نظر خبره و يا به کمک تست هاي مختلف آماري از قبيل تست هاي جهت و ميزان همبستگي صورت مي گيرد. مسأله مهم براي استفاده از رگسيون آن است که اين روش به داده هاي پرت حساس است. از اين رو مي توان با تعيين اوليه برخي نقاط پرت توسط اين روش يا هر روش ديگر و حذف آن ها دوباره رگسيون را تکرار کرد تا در حرحله تعدادي داده مغشوش مشخص و مقادير پيش بيني شده آن با نظر خبره تأييد گردد. نکته مهم ديگر آن که، دامنه استفاده از رگسيون محدود به داده هاي عددي نيست و با انجام مقدماتي مي توان براي داده هاي گسسته طبقه اي و ترتيبي نيز مورد استفاده قرار گيرد. از اين قبيل موارد ميتوان به رگسيون لجستيک و پواسون اشاره کرد که بيان جزييات مربوط به آن ها در اين مقوله نمي گنجد. خوشه بندي: از خوشه بندي نيز مي توان براي تعيين داده ها و خوشه هايي که مي تواند پرت بوده و يا براي مسأله مورد بررسي ما کاربرد نداشته باشد استفاده کرد. به عبارتي يکي از کاربردهاي خوشه بندي تعيين داده هاي فضاي مسأله مورد بررسي است. همان گونه که مي دانيد در خوشه بندي، مجموعه اي از داده ها که بر اساس ويژگي هاي مختلف بيشترين شباهت دارند در کنار يکديگر قرار مي گيرند. همان گونه که در شکل زير نيز مي بينيد؛ برخي داده ها بيرون خوشه ها قرار گرفته و مي توان آن ها را کنار گذارد. البته همواره بايستي احتياط هاي لازم را مد نظر داشت.نتيجه گيري
موضوعات مختلفي براي انجام آماده سازي داده ها وجود دارد. از جمله اين موضوعات، پاک سازي داده ها، کاهش داده ها، کاهش ابعاد و مواردي از اين قبيل است. هر يک از موضوعات مطرح شده در پيش پردازش داده ها داراي مفاهيم و تکنيک هاي اجرايي مختلفي است که نيازمند تشريح و تفصيلي گسترده است.
از اين در اين مقاله موضوع پاک سازي داده ها، انواع مشکلات و روش هاي مواجهه با آن ها مورد توجه قرار گرفت و بررسي ساير موارد به مقالات آتي موکول شد. با اين وجود، به کارگيري عملي اين موارد؛ نيازمند کسب تجربه و تکرار است.
منابع:
1-Data Mining: Concepts and Techniques on the base of jiawei han lecture materials, PHD. T.shatovskaya software department PhD.T.shatovskaya software department
2-Data Preparation , Part 1: Exploratory Data Analysis&Data Cleaning, Missing Data , CAS 2007 Ratemaking Seminar ,Louise Francis,
FCAS , Francis Analytics and Actuarial Data Mining, Inc. www.data-mines.com , Louise_francis@msn.com
3-Data Mining: Concepts and Techniques, San Francisco,CA:Morgan Kaufmann, Han, j ;Kamber , M.(2006
4- Chapter 3.Data PreParation and Screening, in Principles and Practice of Structural Equation Modeling, NY:Guilford Press,R.B. Kline, 2005,pp.45-62
5-http://healthdata.tbzmed.ac.ir/statistics/online%20education/chart/chart3.htm
6-http://www.wisegeek.com/what-is-data-scrubbing.htm
7-Spatial data mining implementation Alternatives and performances Nadjim Chelghoum-arine Zeitouni PRISM Laboratory, University of Versailles- France
8-IMPROVING DATA INTEGRATION FOR DATA WAREHOUSE:A DATA MINING APPROACH Kalinka Mihaylova Kaloyanova "St.Kliment Ohridski" University of Sofia, Faculty of Mathematics and Informatics Sofia 1164,Bulgaria kkaloyanova@fmi.uni-sofia.bg, 2005
9-Data Mining: Concepts, Models, Methods, and Algorithms, Mehmed Kantardzic , John Wiley & Sons,2003,Chapter 2AND CHAPTER 3: Preparing the Data
(Footnotes)
1-Data Mining
2-Text Mining
3-Web Mining
Knowledge Mining
5-Data Preparation
6-Pre Proccessing
7-No quality data, no quality mining results
8-Garbage in Garbage Out
9-Missing Completely at Random (MCAR
10-Missing at Random
11-No Ignorable Missing Data (NMD
12-Redundancy
13-Inconsistent Data
14-Outlier
15-Binning or Discretization
16-Combined Computer and Human Inspection
17-Descriptive data summarization
18-Quantile
19-Loess Curve
20-Box Plot
ماهنامه ي رايانه شماره 188