گردآوري داده هاي خوب

نويسنده: ديويد هند
برگردان: بصير والي

داده هاي خام هم مثل سيب زميني هاي خام براي استفاده بايد پاک شوند.
رونالد اي تيستد
داده پنجره اي است رو به دنيا اما نکته ي مهم اينجاست که اين پنجره بايد ديد شفاف و واضحي داشته باشد. پنجره اي با شيشه هاي کثيف و کدر يا با مارک ها و علايم فراوان، مي تواند به راحتي ما را درباره ي آنچه پشت پنجره در جريان است به اشتباه بياندازد. اين چيزي است که درباره ي داده ها نيز کاملاً صادق است. اگر داده ها تحريف شده و گمراه کننده باشند، نتايج اشتباه امري بديهي است. در حالت کلي هم همه ي داده ها با کيفيت نيستند. در واقع مي خواهم پا را فراتر گذاشته و بگويم به ندرت با مجموعه اي از داده ها مواجه مي شويم که به نوعي مشکل کيفيت نداشته باشد. اگر در جايي با چنين مجموعه اي از داده ها برخورد کرديم ( مجموعه اي که ادعا مي شد بي نقص است ) بايد به اين گفته شک کنيم. احتمالاً اين سؤال برايتان پيش مي آيد که قبل از پردازش داده ها چه اعمالي روي آنها انجام مي دهيم تا کاستي هايشان را از بين ببريم. بعداً به اين سؤال بر مي گرديم.
کتاب هاي درسي استاندارد آمار که معمولاً روش هاي آماري در آنها تشريح مي شود، در ابتدا داده ها را بدون مشکل فرض مي کنند. ( آمار دادن ها اين داده ها را، داده هاي پاک و عکس آن را داده هاي ناپاک (1) مي نامند ). البته اين موضوع چندان هم دور از ذهن نيست. چرا که هدف در اين کتاب ها، ارائه ي روش هاست. اگر نقص داده ها را در نظر بگيريم، شفافيت روش ها و توضيح آنها کم مي شود. با اين حال اين کتاب اندکي متفاوت برخورد مي کند. چون قصدم از اين کتاب تدريس مکانيزم روش هاي آماري نيست بلکه فقط مي خواهم ضمن ارائه ي شماي کلي اين نظام، نشان دهم نظام واقعي آمار از عهده ي داده هاي ناپاک بر مي آيد.
براي ادامه ي بحث بايد بدانيم منظور از داده ي بد چيست؟ چگونه مي توان آن را تشخيص داد و پس از تشخيص چه کاري بايد براي آن انجام دهيم. متأسفانه داده ها هم مثل انسان ها، با بي نهايت روش مي توانند بد باشند، با اين حال خيلي از آنها را مي توان در دو دسته ي ناقص و نادرست جاي داد.

داده هاي ناقص

وقتي بعضي از مشاهدات و داده هاي مربوط به آنها از دست بروند يا اصلاً وجود نداشته باشند، مجموعه ي داده ها ناقص مي شود. داده مي تواند به طور تصادفي و به دلايل کاملاً بي ربط به مطالعات ما، ناقص باشند. مثلاً ظرف آزمايش يک شيمي دان در آزمايشگاه از دستش مي افتد و مي شکند، بيماري به علت تأخير وقت درماني خود را از دست داده و اطلاعاتش ثبت نمي شود يا مثلاً يکي از شرکت کنندگان نظرسنجي محل زندگي خود را تغيير داده و براي ادامه ي پرسش ها نمي توان او را پيدا کرد. اما گاهي همين فقدان داده نيز براي ما حاوي اطلاعات است. مثلاً امکان دارد شخص بخواهد مطلبي را در نظرسنجي پنهان نگه دارد و ترجيح مي دهد به جاي ارائه اطلاعات دروغ محل سؤال موردنظر را خالي نگه دارد. يا امکان دارد افرادي با يک نقطه نظر خاص تمايل بيشتري به پاسخ گويي به بعضي سؤالات داشته باشند. مثلاً وقتي از افراد درباره ي خدماتي که دريافت مي کنند نظرسنجي مي کنيد معمولاً افراد ناراضي مشارکت بيشتري دارند. اگر اين موارد را در تحليل ها لحاظ نکنيم به ديد درستي نسبت به نظر مشتريان نمي رسيم. تخمين ها و آمار اينترنتي از اين جهت بسيار آسيب پذيرند چرا که هيچ کنترلي روي شرکت کننده ها و اينکه چه ميزان بيانگر جمعيت واقعي هستند نداريم. حتي نمي توانيم تعداد افرادي را که چندين بار در نظرسنجي شرکت مي کنند تشخيص دهيم.
موارد ديگري هم از اين دست وجود دارد. مثلاً بيماري که در پروسه ي درمان او بر روي داروهايش تحقيق مي کنيم، به علت اينکه احساس سلامتي مي کند ديگر براي ادامه ي درمان مراجعه نمي کند و لذا تأثير خوب اين دارو از نظر دور مي ماند.
از بهترين نمونه هاي اين مشکل در سال 1936 در آمريکا رخ داد، زماني که مجله ي Literary Digest به اشتباه پيش بيني کرد لاندون به راحتي رزولت را در انتخابات رياست جمهوري شکست خواهد داد. سرچشمه ي اين خطا هم اينجا بود که فرم هاي پرسشنامه فقط براي افراد ي که هم تلفن و هم خودرو داشتند ارسال شده بود و اين افراد در آن زمان قشر ثروتمند جامعه را مي ساختند. يعني افرادي که براي نظرسنجي انتخاب شده بودند بيانگر کل جامعه ي آمريکا نبودند. سرانجام هم بخش عمده ي اقشار ديگر از رزولت حمايت کردند.
يکي ديگر از اتفاقات بدي که به علت ناقص بودن داده ها رخ داد، ماجراي شاتل چلنجر (2) بود که در سال 1986 در هنگام فرود دچار سانحه شد و در پي آن تمام سرنشينانش از بين رفتند. شب قبل از فرود، جلسه اي برگزار شد مبني بر اينکه در شرايط فعلي چه بايد کرد؟ چرا که دماي پيش بيني شده ي زمان فرود به طور غير قابل قبولي کم بود. نتيجه ي بررسي داده هايي که تا آن زمان مورد مطالعه قرار گرفته بودند اين بود که، رابطه اي ميان دما و آسيب ديدن موشک وجود ندارد. اما متأسفانه اين داده ها ناقص بودند. اغلب آزمايشاتي که طي آن شاتل در هنگام فرود سالم مانده بود در دماي بالا صورت گرفته بودند. اما نموداري شامل همه ي داده ها نشان مي داد. رابطه ي روشني بين آسيب ديدن شاتل در هنگام فرود با دما ( آن هم دماهاي پايين ) وجود دارد.

مثال پاياني:

افرادي را در نظر بگيريد که براي گرفتن وام بانکي، کارت اعتباري، يا از اين دست مسائل درخواست خود را به بانک ارائه کرده اند. هر کدام از اين افراد، عددي به عنوان اعتبار دريافت مي کنند که نشان مي دهد با چه احتمالي امکان دارد در بازپرداخت دچار مشکل شوند. اين تخمين ها بر اساس مدل هاي آماري که از داده هاي مشتريان قبلي بهره مي گيرند به دست مي آيد. يعني داده هاي افرادي که موفق به بازپرداخت شده اند يا آنهايي که موفق به اين کار نشده اند. اما مشکل اينجاست که مشتريان قبلي، کاملاً معرف متقاضيان فعلي وام نيستند. علاوه بر اين مشتريان قبلي افرادي هستند که زماني به علت اينکه ريسک حضورشان کم تشخيص داده شده، صلاحيتشان توسط بانک تأييد شده است. متقاضياني که به خودي خود ريسک بالا دارند در نگاه اول حذف مي شوند و در مجموعه ي داده ها قرار نمي گيرند. هر مدل آماري هم که بر اساس اين مجموعه ناقص از داده ها بنا شود احتمالاً در نهايت منجر به نتيجه گيري هاي اشتباه مي شود که در اين مورد خاص ممکن است به ورشکستگي بانک بيانجامد.
اگر در هر مجموعه از داده ها فقط چند مقدار ناقص داشتيم ( مثلاً چند سؤال از سؤالات پرسشگرها پاسخ داده نشده بودند ). در اين صورت دو راه حل مرسوم اوليه براي تحليل داريم. اول اينکه از تمام مجموعه هاي داده که ناقصند صرف نظر کنيم که دو خطر يا ضعف بالقوه دارد. اول اينکه ممکن است به نتيجه ي جانبدارانه اي منجر شود که در بالا بحث شد. مثلاً اگر مجموعه ي داده ي مربوط به يک دسته ي خاص از افراد بيشتر از بقيه نقص داشته باشد در اين صورت حذف مجموعه ي مربوط به اين دسته باعث مي شود مجموعه ي داده ها گمراه کننده باشد. اما خطر جدي دوم اين است که بدين ترتيب با کاهش جدي داده ها رو به رو مي شويم. مثلاً اگر پرسشنامه اي با 100 پرسش داشته باشيم، بسيار بعيد است کسي به تمام سؤالات آن پاسخ دهد و حتي يک سؤال را هم بي جواب نگذاشته باشد. در اين صورت همه ي داده ها حذف خواهند شد، يعني حذف داده ي ناقص به معني حذف تمام داده هاست.
روش دوم مرسوم کار با داده هاي ناقص اين است که اگر داده اي وجود نداشت از يک عدد جايگزين براي آن استفاده کنيم. مثلاً اگر در فرم هاي پرسشنامه جوابي براي ميزان سن افراد وجود نداشت، مي توان ميانگين سن به دست آمده از ديگر پرسشنامه ها را براي اين جاهاي خالي در نظر گرفت. اگر چه به کمک اين راه حل مجموعه ي داده ها کامل مي شود، اما به نوبه ي خود اشکالاتي هم توليد مي کند.
اگر به اين مسئله مشکوک بوديم که فقدان پاسخ براي بعضي از سؤالات ( يا مقدار براي داده ها ) ربطي به مقداري داشته که مي توانسته به خود بگيرد ( مثلاً ممکن است افراد مسن علاقه ي کمتري به ذکر سن خود داشته باشند )، در اين صورت بايد از تکنيک هاي آماري پيشرفته تري استفاده کرده و مدل هاي آماري براي احتمال فقدان داده يا ديگر خصوصيات آن به دست آوريم.
لازم به ذکر است که گاهي اوقات فقدان داده را مي پذيريم. در اين مواقع با استفاده از يک سري نمادها، کمبود داده را نشان مي دهيم مثلاً نماد N/A به معني « در دسترس نيست ». گاهي اوقات هم از کدهاي عددي استفاده مي کنيم. مثلاً وقتي براي داده ي سن، مقداري نداريم عدد 9999 را جايگزين مي کنيم. در اين صورت اگر مطلب را به درستي به کامپيوتر اطلاع نداده باشيم و کامپيوتر اين عدد را در محاسبات خود به عنوان سن مورد استفاده قرار داده باشد.
احتمالاً به نتايج عجيبي مي رسيم. تصور کنيد تخميني از سن براي جامعه اي به دست آورده ايم که تعداد زيادي عدد 9999 در محاسبات آن منظور شده است.
در حالت کلي بايد بگويم راه حل کامل و جامعي براي حل مشکل داده هاي ناقص وجود ندارد و از هر روشي هم که براي کار با آنها استفاده کنيم بايد فرض هاي اضافي مدنظر قرار دهيم. شايد بهترين راه حل براي اين مشکل، کوچک کردن مسئله در مرحله ي جمع آوري داده باشد.

داده هاي نادرست (3)

داده هاي ناقص يکي از مشکلات مربوط به داده هاست. اما داده ها ممکن است به بي نهايت دليل و بي نهايت راه، نادرست باشند ( و نه ناقص ). هم دليل هاي پيش پا افتاده هم دليل هاي اساسي براي بروز چنين مشکلاتي وجود دارند.
يکي از اين دلايل اساسي، سختي تصميم گيري درباره ي تعاريف مناسب و فراگير است ( که در همه ي دنيا مورد قبول باشند ). ميزان جرم و جنايت که به آن اشاره شد مثال خوبي است. نرخ خودکشي هم مثال ديگري است. از آنجا که خودکشي امري شخصي است معمولاً فرد ديگري نمي تواند به طور قطع بگويد که از بين رفتن کسي خودکشي بوده است يا نه. گاه به نوشته اي در محل حادثه مواجه مي شويم که البته در همه ي موارد وجود ندارد. در اين صورت بايد با مدرک ثابت کنيم اين مورد خودکشي بوده يا نه که کار ساده اي هم نيست. سؤالي که در اينجا مطرح مي شود اين است که چه مدرکي مي تواند اين موضوع را ثابت کند و چقدر مي توان به آن اعتماد کرد. علاوه بر اين خيلي از اوقات فردي که دست به خودکشي مي زند سعي مي کند به دلايلي اين مطلب را مخفي نگه دارد، مثلاً براي اينکه خانواده اش به راحتي بتواند از بيمه ي عمر او استفاده کنند.
به عنوان يک مثال پيچيده تر سازمان ملي سلامت بيماران (4) در انگلستان مسئول پيگيري گزارشاتي است که در مورد حوادث بيمارستان ها ارائه مي شود. اين سازمان تلاش مي کند تا اين گزارشات و حوادث را دسته بندي کرده و نکات مشترک آن ها را براي جلوگيري از تکرار آنها در آينده کشف کند. اما سختي کار اينجاست که اين حوادث معمولاً توسط تعداد زيادي از افراد گزارش مي شوند که هر کدام به طريقي آن را تشريح مي کنند. حتي امکان دارد يک حادثه ي مشخص به چندين طريق متفاوت بيان شود.
در سطحي پايين تر، اغلب اشتباهات توسط دستگاه هاي اندازه گيري و ثبت مقادير ايجاد مي شوند. مثلاً يکي از خواص دستگاه هاي اندازه گيري اين است که تمايل دارند عدد اندازه گيري شده را به نزديکترين عدد کامل و صحيح ( با توجه به دقتشان ) رند مي کنند. به عنوان مثال توزيع فشارخون که توسط دستگاه هاي اندازه گيري قديمي ( غير الکترونيکي ) به دست آمده به وضوح نشان مي دهد تعداد اعداد ثبت شده در مقادير 60، 70 يا 80، به نسبت اعداد همسايه مثل 69 يا 72 بيشتر است. از جمله ديگر خطاهاي ثبت اندازه گيري اين است که جاي ارقام به اشتباه جا به جا شود ( مثلاً به جاي 82 عدد 28 ثبت شود ). در مورد ارقام دست نويس هم ممکن است در زبان انگليسي رقم 7 با 1 اشتباه شود. يا ممکن است داده ها در ستون هاي اشتباه نوشته شده و يک داده ي اشتباه اتفاقاً در 10 ضرب شود. مورد ديگر، تفاوت ميان ثبت تاريخ به روش امريکايي ( سال / روز/ ماه ) با سبک اروپايي ( سال / ماه/ روز ) است که باعث سردرگمي مي شود و بسياري ديگر از مشکلات از اين قبيل، در سال 1796 ستاره شناس سلطنتي انگلستان بنام نويل ماسکلين، دستيارش ديويد کينه بروک را به علت خطاي زياد محاسباتش براي زمان عبور ستاره اي خاص از نصف النهار تلسکوپي در گرينويچ از کار بر کنار کرد. اهميت مسئله اينجا بود که دقت ساعت گرينويچ به دقت اندازه گيري زمان گذر ستاره ي فوق، تخمين موقعيت کشتي ها به دقت ساعت گرينويچ و قدرت امپراتوري انگلستان هم به کشتي هايش وابسته بودند. توجه کنيد که مجموعه ي بزرگ تري از داده ها به اين معني است که افراد بيشتري در جمع آوري و تفسير آن دست داشتند. همين طور فرآيند پردازش آنها طولاني تر بوده و در نتيجه احتمالاً شامل خطاهاي بيشتري هم هست.
خطاهاي پيش پا افتاده ي ديگري هم هستند که معمولاً از واحدهاي اندازه گيري نشأت مي گيرند. مثلاً اگر به جاي بيان اندازه ي قد بر حسب فوت آن را بر حسب متر بيان کنيم يا وزن را به جاي پوند بر حسب کيلوگرم ثبت کنيم مسلماً منجر به چنين خطاهايي خواهد شد. در سال 1999 يک ماهواره هواشناسي پس از اينکه بر اثر اختلاف بين اندازه گيري فشار بر حسب پوند و نيوتن دچار سردرگمي شد، از کنترل خارج شده و نتوانست وارد جو مريخ شود. مثال ديگر از زمينه ي پزشکي انتخاب شده است، جايي که خانم مسني داراي سطح کلسيوم خون نرمال در محدوده 8/6 تا 9/1 بود که ناگهان اندازه گيري ها سقوط آن را تا 4/8 نشان دادند. پرستار مسئول تصميم داشت به بيمار کلسيوم تزريق کند که دکتر سالواتوره بن ونگا متوجه شد اين افت ناگهاني به خاطر تغييري بوده که آزمايشگاه در واحدهاي اندازه گيري داده و نتايج را بر حسب واحدهاي جديدي گزارش کرده است.

انتشار خطا

خطاها به محض ايجاد شدن مي توانند در سيستم منتشر شوند که ممکن است عواقب جدي هم به دنبال داشته باشد. مثلاً در سال 2006 در اينديانا کسري بودجه و آمار بيکاري فقط به خاطر اشتباه در يک رقم، غلط اعلام شدند. بدين ترتيب خانه اي که ارزش آن 121,900 $ بود 400,000,00$ارزش گذاري شد و متأسفانه اين خطا در محاسبه ي ميزان فعاليت ها مورد استفاده قرار گرفت.
مورد ديگر گزارشي است که در تاريخ دوم دسامبر 2004 در روزنامه ي تايمز آمده است. در اين گزارش چگونگي حذف تصادفي چيزي حدود 66,500 کارگاه از ليست 170,000 کارگاهي که نرخ رسمي توليدات انگلستان بر اساس آن ها تخمين زده مي شود شرح داده شده است. اين اتفاق باعث شد ميزان توليدات در سه ماهه ي اول به جاي افزايش نيم درصدي، به اشتباه 2/6% درصد کاهش را نشان دهد. براي سه ماهه ي دوم به جاي 2/1% افزايش توليدات که عدد واقعي بود، عدد 5/3% رشد توليدات ارائه شد.

پيش پردازش

احتمالاً تا اينجا کاملاً روشن شده که يکي از اجزاي هر تحليل آماري بررسي داده ها، يافتن و در صورت امکان رفع خطاهاي موجود در آنهاست. حتي گاهي اوقات اين مرحله ي مقدماتي از مرحله ي تحليل و کار با داده ها طولاني تر مي شود.
يکي از مفاهيم اصلي در پاکسازي داده ها مفهوم داده ي پرت (5) است. داده ي پرت، داده اي است که با داده هاي ديگر بسيار متفاوت است يا از آن چيزي که انتظار داريم بسيار فاصله دارد. اين داده معمولاً در قسمت هاي انتهايي و دم يک توزيع قرار مي گيرد. بعضي وقت ها واقعاً چنين داده ي عجيبي بر حسب اتفاق رخ مي دهد. مثلاً با اينکه هوا نسبتاً معتدل است اما گاهي با تندبادهاي شديد مواجه مي شويم. اما زمان هايي هم وجود دارند که اين داده هاي غير عادي به خاطر انواع خطاهايي که قبلاً ذکر شد به دست مي آيند و در حقيقت خطا هستند. مثلاً وقتي بادسنجي را بررسي مي کنيم مي بينيم حدود نيمه شب تندبادي ناگهاني و بزرگ را گزارش مي کند که از قضا همان زماني است که اين دستگاه به صورت اتوماتيک در حال کاليبره شده است. در حقيقت فرآيند کاليبره شدن موجب بروز خطا ( داده ي پرت ) است. با اين حساب يکي از استراتژي هاي کلي خوب براي کشف اين خطاها، بررسي داده ها براي يافتن داده هاي پرت است. اگر چنين داده اي وجود داشت، در اين صورت علت وجود آن توسط نيروي انساني بررسي مي شود. اين داده هاي پرت مي توانند مربوط به حالت يک متغيره ( مثلاً سن کسي 210 سال گزارش شده باشد ) يا چند متغيره باشند. که در هر صورت وجودشان امري غير عادي است ( مثلاً گزارش شده دختري پنج ساله سه فرزند دارد ).
البته يافتن داده هاي پرت راه حل هميشگي براي پيدا کردن خطاي داده ها نيست. گذشته از اين گاهي اوقات خطا در داده ها به شکلي اتفاق مي افتد که موجب بروز داده ي پرتي نمي شود و داده ظاهراً کاملاً صحيح است. مثلاً جنسيت شخصي به جاي زن، مرد گزارش مي شود. بهترين راه فراهم کردن شرايط جمع آوري و وارد کردن داده ها در گزارش به نحوي است که کمترين ميزان خطا اتفاق بيفتد. بعداً بيشتر در اين باره صحبت خواهد شد.
به هر حال اگر به خطايي برخورديم بايد ببينيم درباره ي اين خطا چه مي توان کرد. مي توانيم از مقدار آن صرف نظر کنيم به اين معني که با آن به عنوان داده اي مفقود رفتار کنيم و با آن با يکي از فرآيندهايي که قبلاً براي داده هاي بدون مقدار اشاره شد رفتار کنيم. گاه به طور هوشمندانه مي توان حدس زد که اين داده در حقيقت چه مقداري بايد مي داشت. مثلاً فرض کنيد سن تعدادي از دانش آموزان را بدين شرح ثبت کرده ايم: 18، 19، 17، 21، 23، 19، 210، 18، 18، 23. وقتي اين اعداد را بررسي مي کنيم حدس مي زنيم احتمالاً عدد 210 اشتباه وارد شده و در واقع سن اين دانش آموز 21 سال بوده است. ضمناً حتماً به عنوان هوشمندانه براي حدس، دقت شود. چرا که درباره ي همه ي تحليل هاي آماري نکته ي مهم، بررسي کاملاً دقيق است. در حقيقت مسئله اين نيست که يک روش آماري خاص را به کار ببريم و به کاميپوتر بگوييم تحليل کن. کامپيوتر فقط بخش محاسباتي قضيه را به عهده دارد.
مثال سن دانش آموزان که در پاراگراف قبلي به آن اشاره شد، مثال کوچکي است که تنها شامل ده عدد است، بنابراين بررسي اعداد و يافتن داده هاي پرت براي رسيدن به حدسي هوشمندانه کار ساده اي است. يعني به راحتي مي توان فهميد مقدار واقعي داده ي پرت چه بوده است. اما در عمل روز به روز با مجموعه هاي بسيار بزرگ تري از داده ها مواجهيم. امروزه مجموعه هاي داده با ميلياردها عدد در کاربردهاي علمي و کاربردهاي تجاري ( مثل مخابرات ) و زمينه هاي ديگر کاملاً معمولند. بنابراين چک کردن تمام اعداد با دست، امري غير ممکن به نظر مي رسد و ما اين کار را به کامپيوترها وا مي گذاريم. با اينکه آماردان ها فرآيندهاي خودکار پيشرفته اي براي يافتن داده هاي پرت معرفي کرده اند، اما باز هم مسئله به تنهايي توسط آنها کاملاً حل نمي شود. گر چه ممکن است اين فرآيندهاي خودکار در مورد گونه هاي خاصي از داده هاي پرت هشدارهاي مناسبي بدهند اما از تشخيص حالت هاي بسيار عجيب ديگر که توضيحي درباره ي آنها داده نشده عاجزند. حال اين سؤال مطرح است که درباره ي موارد غير طبيعي که کامپيوترها يافته اند چه بايد بکنيم؟ اگر در بين يک ميليارد عدد فقط يک عدد مشکوک پيدا کرديم شرايط بد نيست. اما اگر صد هزار مورد از اين دست وجود داشت چه؟ در اين صورت باز هم در عمل بررسي و اصلاح آنها توسط انسان ها کاري است غير ممکن. در اينجا هم براي غلبه بر اين شرايط، آماردان ها فرآيندهاي خودکار ديگري ارائه مي دهند. بعضي از اين فرآيندهاي تشخيص و تصحيح ابتدايي مربوط به سرشماري ها و برآوردها در مقياس بزرگ هستند اما با اين حال باز هم از خطا در امان نيستند و جا دارد دوباره يادآوري کنم آماردان ها نمي توانند معجزه کنند. داده هاي ضعيف، نتايج ضعيف ( غير دقيق، اشتباه و در معرض خطر ) به بار مي آورند. بهترين راه حل براي جلوگيري بروز اين نتايج اين است که از ابتدا مطمئن شويم داده هاي با کيفيت بالا در اختيار داريم.
راهکارهاي بسياري براي جلوگيري از بروز اين خطاها در داده ها از ابتداي کار ارائه شده و گسترش يافته اند که بر حسب کاربرد و شيوه ي جمع آوري داده بسيار متفاوتند. مثلاً در يک کلينيک پزشکي وقتي مي خواهيم فرم هاي دست نوشته را کپي برداري کنيم خطر بروز خطا در مرحله ي نسخه برداري وجود دارد. اين خطا را مي توان بدين ترتيب کم کرد: دو نفر به صورت مجزا و مستقل، داده ها را چک کنند و در صورت تفاوت آن را گزارش کنند. يا هنگام ارائه ي درخواست براي وام، امکان دارد داده ها ( درآمد، وام هاي ديگر و... ) مستقيماً وارد کامپيوتر شوند و نرم افزارهاي کامپيوتري متقابل مي تواند داده ها را در هنگام ورود چک کنند. در مجموع فرم ها بايد طوري طراحي شوند که خطاها را به کمترين مقدار برسانند. نبايد بيش از حد پيچيده بوده و تمام سؤالات بايد کاملاً شفاف باشند. واضح است، ايده ي چک کردن داده ها قبل از استفاده از آنها، ايده ي بسيار خوبي است.
عبارت خطاي کامپيوتر عبارت بسيار آشنايي است. وقتي خطايي اتفاق مي افتد، کامپيوترها قرباني هاي خوبي هستند. اما يک کامپيوتر فقط کاري را انجام مي دهد که از آن مي خواهيم، آن هم با داده هايي که براي آن فراهم مي کنيم. به اين ترتيب وقتي خطايي رخ مي دهد در واقع خطاي کامپيوتر نيست.

داده هاي مبتني بر مشاهده (6) در مقابل داده هاي تجربي (7)

غالباً درک تفاوت ميان مطالعات و داده هاي مبتني بر مشاهده با مطالعات و داده هاي تجربي امري بسيار مهم است. عبارت مبتني بر مشاهده معمولاً در شرايط به کار مي رود که نمي توانيم در آن در فرآيند تهيه و ثبت داده ها مداخله کنيم. مثلاً در يک نظرسنجي درباره ي ديدگاه افراد نسبت به سياستمداران، مجموعه ي مناسبي از افراد را در نظر گرفته و آنها را در نظرسنجي سهيم مي کنيم يا در مطالعه ي خواص کهشکان هاي بسيار دور، اين خواص را مشاهده و ثبت مي کنيم. در هر دو اين موارد محقق به سادگي تصميم مي گيرد چه کسي يا چه چيزي را مورد مطالعه قرار دهد و سپس خواص يا ويژگي هاي افراد با ديگر موضوعات مورد مطالعه را ثبت مي کند. در اينجا قبل از اندازه گيري، کار خاصي درباره ي اين افراد و کهکشان ها و ... صورت نمي گيرد. در مقابل، در يک مطالعه ي تجربي يا آزمايشي ممکن است محقق قبل از ثبت داده ها، درباره ي آن موضوع يا شيء خاص کارهايي انجام داده و در آن دخل و تصرف هايي صورت دهد. به عنوان مثال در يک کلينيک پزشکي امکان دارد قبل از انجام آزمايش بر روي داوطلب از وي بخواهند. داروي خاصي مصرف کند. يا در آزمايشي براي توليد يک محصول خاص ممکن است شرايط متفاوتي را براي رسيدن به بهترين محصول آزمايش کنيم.
يکي از تفاوت هاي اساسي ميان مطالعه ي مبتني بر مشاهده و مطالعه ي تجربي اين است که مطالعات تجربي درباره ي کشف اينکه چه چيزي موجب چه چيزي مي شود بسيار مؤثرتر عمل مي کند. مثلاً بر اين گمانيم که يک روش تدريس خاص براي کودکان ( آن را روش A مي ناميم ) بسيار مؤثرتر از روش ديگر ( روش B ) است. در مطالعه ي مبتني بر مشاهده به کودکان که توسط هر يک از روش ها آموزش داده شده اند مي نگريم و آنها را از لحاظ توانايي خواندن مقايسه مي کنيم. اما نمي توانيم بگوييم چه کسي توسط روش A و چه کسي توسط روش B آموزش داده شده است. اين چيزي است که توسط شخص ديگري تعيين مي شود و به نوبه ي خود مشکلات جديدي توليد مي کند. به اين معني که ممکن است علاوه بر روش هاي تدريس، ميان دو گروه مورد نظر که براي اين مقايسه انتخاب شده اند نيز اختلاف هايي وجود داشته باشد. مثلاً امکان دارد آموزگاري براي اينکه نتايج به سمت A تغيير کند، دانش آموزان قوي تر را در اين گروه قرار دهد. يا به دانش آموزان اجازه دهيم روش دلخواهشان را انتخاب کنند و بدين ترتيب افرادي که در حال حاضر توانايي خواندن بيشتري دارند، بيشتر روش A را انتخاب کرده باشند. اگر اطلاعات بيشتري در آمار داشته باشيم، ممکن است روش هاي آماري خاصي را به کار ببريم که شرايط را به کمک آن ها کنترل کنيم و هرگونه تفاوت از پيش موجود ميان کودکان و هر فاکتور ديگري که روي چگونگي يادگيري کودکان تأثير مي گذارد را به حداقل برسانيم اما با اين حال باز هم هميشه اين احتمال وجود دارد که موارد ديگري وجود داشته باشند که موجب بروز تفاوت شوند.
اما مطالعات تجربي احتمال وجود اين تفاوت را با انتخاب اينکه کدام دانش آموز از کدام روش آموزش ببيند از بين مي برد. اگر علاوه بر روش هاي تدريس، همه ي فاکتورهاي ديگري که ممکن است بر روي توانايي خواندن تأثيرگذار باشد را هم در نظر بگيريم، مي توانيم در مورد اينکه نتايج روش هاي متفاوت تدريس به نوعي متعادل شده اند مطمئن باشيم. مثلاً اگر بدانيم سن دانش آموزان بر روي توانايي خواندن آنها تأثير مي گذارد مي توانيم دانش آموزان هم سن را به هر يک از روش ها اختصاص دهيم. بدين ترتيب هر نوع تفاوت در توانايي خواندن که در اثر اختلاف سن، ممکن بود به وجود بيايد از ميان مي رود. به عبارت ديگر اگر سن روي توانايي خواندن تأثيرگذار باشد، روي هر دو دسته به يک اندازه تأثير خواهد گذاشت. علاوه بر اين مطالعه ي تجربي راه مفيد ديگري براي اينکه کدام دانش آموزان در کدام شيوه ي تدريس به کار گرفته شود ارائه مي دهد که به روش آرايش تصادفي معروف است و در ادامه توضيح داده خواهد شد.
خلاصه مطلب اين است که در مطالعه ي تجربي خيالمان از بابت اثرات جانبي راحت تر است. مثلاً در مقايسه روش هاي تدريس به صورت تجربي نسبتاً مطمئن هستيم که تفاوت هاي توانايي هاي دو گروه براي خواندن در اثر به کارگيري روش هاي متفاوت براي تدريس ايجاد شده و نه فاکتورهاي ديگر.
متأسفانه هميشه نمي توان به جاي مطالعات مبتني بر مشاهده از مطالعات تجربي استفاده کرد. مثلاً اين شانس که کهکشان هاي مختلف را در معرض آزمايش هاي گوناگون قرار دهيم. نداريم. در بعضي موارد هم که از شيوه هاي تجربي استفاده کنيم ممکن است گمراه کننده باشد: در بسياري از سرشماري هاي اجتماعي هدف اين است که بدانيم جمعيت در واقع چه شکلي دارد نه اينکه اگر کار خاصي انجام داديم اثر آن چه خواهد بود. به هر حال اگر قصد داريم بدانيم اثرات احتمالي يک مداخله يا اختلال چيست در اين صورت راهکار بهتر، مطالعه ي تجربي است. اين شيوه ي مطالعات در بخش داروسازي، پزشکي، روان شناسي، صنعت و توليد به صورت گسترده و همه جانبه وجود دارد. علاوه بر اين در ارزشيابي سياست هاي اجتماعي و موارد ديگري هم به صورت روزافزون کاربرد دارد.
در حالت کلي وقتي قصد داريم پاسخ سؤال خاصي را از طريق جمع آوري داده پيدا کنيم، داده ي جمع آوري شده ي بيشتر به معني دقت بالاتر براي جواب است. اين يکي از نتايج قانون اعداد بزرگ است. اما جمع آوري داده ي بيشتر هزينه دارد، از اين رو بايد ميان اين هزينه و دقت تعادلي برقرار کنيم. بسياري از زير نظام هاي آمار بر روي اين موضوع متمرکز شده اند. به طور خاص طراحي تجربي و نمونه گيري پيمايشي (8) دو نظام کليدي در اين زمينه اند.

طراحي تجربي (9) ( آزمايشي )

تا اينجا مثال هايي از آزمايش هاي بسيار ساده مشاهده کرديم. يکي از ساده ترين آزمايش ها بررسي دو گروه تصادفي از بيماران در يک کلينيک پزشکي است. در اينجا هدف مقايسه ي دو روش A و B براي درمان بيماران است. مي خواهيم ببينيم کدام يک از اين رفتارها را بايد براي بيماران جديد به کار بگيريم. بنابراين درمورد گروهي از بيماران روش A و براي گروهي روش B را اعمال مي کنيم و اثرات هر يک را مورد ارزيابي قرار مي دهيم. اگر به صورت ميانگين، روش A بر B غلبه داشت، در اين صورت استفاده از روش A را براي درمان بيماران جديد پيشنهاد مي کنيم. معناي غلبه که به آن اشاره شد با توجه به دقت مطالعه تعيين مي شود و ممکن است درمان تعداد بيشتري از بيماران، افزايش طول عمر، کاهش بيشتر ميزان درد و... يا معاني ديگر مدنظر باشد.
حال اگر افراد دو گروه با هم تفاوت داشته باشند باز هم در نتيجه گيري دچار محدوديت هايي هستيم. مثلاً اگر همه ي افرادي که از طريق روش A درمان مي شوند مرد و تمام افراد گروه B زن باشند، نمي توان به درستي تشخيص داد تفاوت هاي مشاهده شده ميان گروه A و B در اثر تفاوت روش هاي معالجه بوده است يا تفاوت جنسيت. ممکن است زن ها بدون در نظر گرفتن روش معاجله زودتر از مردان درمان شوند. همين نکته ممکن است براي فاکتورهاي ديگر مثل سن و سال، قد و وزن، طول دوره ي بيماري، و سابقه ي درماني قبلي و... نيز وجود داشته باشد.
يکي از روش هاي از بين بردن اين مشکل اين است که بيماران را به صورت تصادفي ميان گروه ها تقسيم کنيم. اما با اين رويکرد باز هم وجود تعادل بين دو گروه تضمين نمي شود ( ممکن است با اين روش باز هم نسبت مردها به زنان در يک گروه بسيار بيشتر از گروه ديگر باشد ). قوانين پايه اي آمار نشان مي دهند وجود عدم تعادل هاي شديد اصلاً مطلوب نيست. گاهي هم تأثير درجه ي عدم تعادل را بر نتيجه ي کارمان مي بينيم. به اين ترتيب معلوم است که چقدر مي توان به نتايج اعتماد کرد.
علاوه بر اين اگر فرآيند تخصيص تصادفي با بي اطلاعي طرفين انجام شود يا اصطلاحاً دو سويه کور (10) باشد، ديگر ريسک وجود عدم تعادل در تخصيص بيماران و موارد ديگر وجود ندارد. مطالعه ي دو سويه کور به مطالعه اي مي گوييم که در آن نه بيماران و نه پزشکاني که در فرآيندهاي درماني حضور دارند، هيچ کدام ندانند کدام بيمار از کدام شيوه ي درمان استفاده مي کند. براي رسيدن به اين شرايط مي توانيم طوري عمل کنيم که قرص ها و ديگر داروهاي کاملاً شبيه هم به نظر برسند. مثلاً کدهايي به آنها اختصاص دهيم. کدهاي x.y بدون اينکه معلوم باشد هر يک مربوط به کدام روش هستند. تنها پس از اينکه مطالعات به پايان رسيدند و به تحليل مشخصي رسيديم، مثلاً به اين نتيجه رسيديم که فرآيند x از فرآيند y بهتر است، کدها را آشکار مي کنيم. در اين صورت مي فهميم که به عنوان مثال کد x روش A بوده و بهتر از روش B است.
دسته بندي تصادفي بيماران به دو گروه که در مثال قبل آمد کار بسيار ساده اي است و گسترش آن هم کار سختي نيست: مثلاً به راحتي مي توانيم به جاي دو گروه، از ابتدا بيشتر از دو دسته را در نظر بگيريم. مثال ديگري مطرح مي کنيم: فرض کنيد باغباني مي خواهد بداند که براي برداشت محصول بيشتر آبياري کم مفيدتر است يا زياد. اين باغبان مي تواند دو آزمايش ترتيب دهد. چيزي شبيه آزمايش قبلي. از طرفي به علت اينکه مي دانيم نتايج کاملاً قابل پيش بيني نيستند و با توجه به اينکه مي خواهيم نتايج دقيق تري به دست آوريم، به جاي يک گلخانه براي آبياري کم و يکي براي آبياري زياد، از تعداد بيشتري گلخانه براي هر يک استفاده مي کنيم. به عبارت ديگر اين باغبان بيش از يک گلخانه با سطح آب کم و چندين گلخانه را با سطح آب زياد آبياري مي کند و در نهايت ميانگين محصول در هر يک از اين سطوح را محاسبه مي کند. براي مثال ممکن است به هر يک از دو دسته ( سطوح آبياري ) چهار گلخانه اختصاص دهد.
حال فرض کنيد اين باغبان مي خواهد چگونگي تأثير ميزان کود در محصول نهايي را بررسي کند و بفهمد ميزان کم کود محصول بيشتري مي دهد يا زياد. واضح است که بايد آزمايش ديگري با دو گروه انجام دهد. اين بار چهار گلخانه با کود کم و چهار گلخانه با کود زياد کشت مي شوند. تا اينجا همه چيز عادي است، اما اگر بخواهد به اين دو سؤال به طور همزمان پاسخ دهد چه؟ در اين صورت به 16 گلخانه احتياج دارد. اگر اين کشاورز علاوه بر اينها تصميم بگيرد درباره ي تأثير سطح رطوبت، دما، ساعات نوردهي و مواردي از اين قبيل اطلاعات کسب کند مي بينيم که تعداد گلخانه ها به زودي آن قدر زياد مي شود که ديگر امکان انجام آزمايش به راحتي وجود ندارد.
اما راهکار هوشمندانه اي وجود دارد که از نظريه ي طراحي تجربي عاملي (11) استفاده مي کند. به جاي انجام دو آزمايش مجزا، يکي براي بررسي تأثير سطح آب و ديگري براي ميزان کود، مي توان آزمايش را به اين ترتيب داد. دو گلخانه با ( کود کم، آب کم ) دو گلخانه ( کود کم، آب زياد )، دو گلخانه ( کود زياد، آب کم ) و در نهايت دو گلخانه ( کود زياد و آب زياد ) در اين صورت تنها هشت گلخانه مورد نياز است. اما هنوز هم چهار گلخانه براي سطح آب کم و چهار گلخانه براي سطح آب زياد در آزمايش داريم. همين طور چهار گلخانه براي کود کم و چهار گلخانه براي کود زياد و از اين رو نتايج تحليل مان همان قدر دقيق است که در حالت اول با دو آزمايش مجزا و 16 گلخانه داشتيم.
در واقع طراحي عاملي ( هر کدام از آب و کود يک عامل يا فاکتور هستند ) ويژگي هاي جذاب ديگري هم دارد. مثلاً نشان مي دهد، اثر ميزان کود در سطوح مختلف آبياري مشابه است يا با هم تفاوت دارد. احتمالاً اختلاف ميان ميزان محصول براي دو حالت کود کم و زياد در سطوح آبياري کم و زياد متفاوت خواهد بود، که به اين موضوع اثر متقابل مي گوييم، و در حالتي که دو آزمايش مجزا انجام مي دهيم نمي توانيم آن را بررسي کنيم.
اين ايده ي اوليه به روش هاي گوناگوني گسترش يافته و ابزارهاي قدرتمندي در اختيارمان قرار داده، که به کمک آن اطلاعات دقيقي به دست مي آوريم و هزينه ها را به حداقل ممکن مي رسانيم. وقتي اين ابزارها با ابزارهاي ديگر طراحي تجربي مثل تعادل، تصادفي سازي و کنترل اثرات ناشناخته ترکيب کنيم، به طراحي هاي عملي پيشرفته اي مي رسيم.
گاهي درعمل موضوعات غير آماري هم اهميت دارند، مثلاً در مطالعات پزشکي باليني با ديگر مطالعات پزشکي و اجتماعي ممکن است موضوعات اخلاقي مطرح باشند. مثلاً تصميم داريم در يک آزمايش پزشکي که روش درماني جديدي را با يک روش غير مؤثر مقايسه کنيم، يعني مي دانيم که بعضي از داوطلب ها تحت درماني غير مفيد قرار مي گيرند. حال سؤالي که پيش مي آيد اين است که آيا اين کار درست است يا نه؟ يا آن دسته از افراد که توسط روش جديد درمان مي شوند آيا از اثرات جانبي رنج خواهند برد؟ و يا اينکه خطري بابت اين اثرات جانبي آنها را تهديد مي کند؟ اين گونه سؤالات بايد با اين مطلب که به هر حال تعداد بي شماري از بيماران در آينده از نتايج اين آزمايشات سود خواهند برد به تعادل برسد.

نمونه گيري پيمايشي

فرض کنيم براي اداره ي بهتر جامعه تصميم داريم ميانگين درآمد افراد در يک شهر خاص با جمعيت حدود يک ميليون نفر را بيابيم. در حالت کلي مي توان از تمام افراد درآمدشان را پرسيد و از داده هاي حاصل ميانگين گرفت. اما در عمل اين کار نه تنها سخت که غير ممکن است. جداي از همه ي سختي هاي اين کار، اين مشکل هم وجود دارد که در طول زمان جمع آوري داده ها، ميزان درآمدها تغيير خواهد کرد: بعضي کار خود را از دست مي دهند، بعضي ها شغلشان را تغيير مي کند، عده اي درآمدشان زياد مي شود و غيره. به هر حال اينکه پيگير درآمدهاي افراد باشيم کار بسيار پر هزينه است. ممکن است اين ايده به ذهن برسد که به جاي پرسش رو در رو از تلفن براي ساده تر شدن کار استفاده کنيم اما همان طور که در مثال انتخابات سال 1936 آمريکا اشاره شد اين کار، ريسک از دست رفتن بخش مهمي از جمعيت را در پي دارد.
به دنبال راهي هستيم که زمان و هزينه ي جمع آوري داده ها را کاهش دهد، به فرآيند پردازش سرعت ببخشد و در صورت امکان دقت نتايج را بالا ببرد. به نظر خواسته زيادي است اما ايده ها و ابزارهاي آماري که اين خاصيت ها را داشته باشند وجود دارند. يکي از اين ايده هاي کليدي که قبلاً چندين بار با آن روبه رو شده ايم، نمونه گيري است.
فرض کنيد به جاي اينکه ميزان درآمد يک ميليون کارمند را بيابيم فقط درباره ي هزار نفر از آنها تحقيق کنيم. به وضوح پيداست که بايد کاملاً به اينکه کدام هزار نفر انتخاب مي شوند حساس باشيم و اين کار را به دقت انجام دهيم. دليل آن هم کاملاً مشابه آزمايشي است که قبلاً مطرح شد جايي که مي خواستيم تفاوت در نتيجه ي آزمايش، فقط در اثر تفاوت دو روش A و B اعمال شده به هر گروه باشد. يعني بايد مطمئن شويم اين جمعيت هزار نفري خاص، کاملاً معرف تمام جمعيت يک ميليون نفري است.
اما منظور از کلمه معرف چيست؟ در حالت ايده آل، مجموعه ي نمونه ي هزار نفري بايد به همان نسبت جمعيت کامل، شامل مردان، افراد جوان، کارمندان پاره وقت و غيره باشد. به عبارت ديگر بايد مطمئن شويم هزار نفري که انتخاب مي کنيم نسبت جمعيت مرد به زني دارد که برابر با نسبت مرد به زن در کل مجموعه يک ميليون نفري است. اما اين کار هم در عمل محدوديت هاي خاص خود را دارد و لذا نمي توان به دلخواه جمعيت را متعادل کرد.
قبلاً وقتي در مورد طراحي تجربي صحبت کرديم چگونگي رفع اين مشکل را ديديم. در آنجا اين مشکل را با تخصيص تصادفي بيماران به هر يک از گروه ها برطرف کرديم. در اينجا هم اين مشکل را با نمونه برداري تصادفي هزار نفر از ميان کل جمعيت برطرف مي کنيم. البته باز هم تضميني وجود ندارد که فضاي نمونه، کاملاً ترکيبي مشابه ترکيب اصلي داشته باشد اما قوانين پايه اي احتمال مي گويند، شانس به دست آمدن فضاي نمونه اي به شدت متفاوت با جمعيت اصلي بسيار کم است. يعني احتمال اينکه تخمين ميزان درآمد متوسط که از اين نمونه به دست مي آيد با ميزان درآمد متوسط کل جمعيت بسيار متفاوت باشد، خيلي کم است. با اين حال دو قانون در احتمالات وجود دارد، با نام هاي قانون اعداد بزرگ ( 12 ) و قضيه حد مرکزي (13) که نشان مي دهند مي توان احتمال وجود اختلاف ذکر شده را با بزرگ کردن فضاي نمونه تا حد دلخواه کم کرد. بعداً بيشتر درباره ي آن صحبت مي کنيم. بنابراين نکته ي مهم اين است که فضاي نمونه ي ما چقدر بزرگ است نه اينکه چه کسري از جمعيت است. به اين ترتيب تخميني که بر پايه ي يک فضاي نمونه ي هزار نفري به دست مي آوريم در دو حالتي که کل جمعيت ده ميليون يا ده ميليارد نفر باشند به يک اندازه دقت دارد. از آنجا که فضاي نمونه رابطه ي مستقيم با هزينه ي جمع آوري داده ها دارد، بنابراين رابطه اي مستقيم ميان دقت و هزينه داريم: هر چه فضاي نمونه بزرگ تر باشد هزينه بيشتر است، اما احتمال وجود اختلاف زياد ميان تخمين درآمد از فضاي نمونه و ميانگين درآمد کل جمعيت کمتر مي شود.
انتخاب يک فضاي نمونه هزار نفري از افراد يک جمعيت، مثل جمعيت کارمندان يک شهر به طور تصادفي کار ساده اي به نظر مي آيد، اما در حقيقت بي نهايت دقت لازم دارد. مثلاً نمي شود خيلي راحت اين هزار نفر را از شرکت هاي بزرگ انتخاب کنيم چرا که امکان دارد کاملاً معرف کل جمعيت يک ميليون نفري نباشند. همچنين نبايد رأس يک ساعت خاص مثلاً هشت بعد ازظهر به صورت تصادفي با افرادي که در خانه هايشان کار مي کنند را از دست خواهيم داد و ممکن است اين دسته در ميانگين درآمد با بقيه متفاوت باشند. در حالت کلي براي اطمينان از اينکه فضاي نمونه ي هزار نفري حاصل به درستي گوياست يا نه، به يک چهارچوب نمونه گيري (14) نياز داريم. چهارچوب نمونه گيري در اينجا ليستي است از تمام يک ميليون کارمند کل جمعيت که از درون آن، هزار نفر را به تصادف انتخاب مي کنيم. اگر چنين ليستي داشته باشيم تقريباً مطمئنيم تمام افراد براي انتخاب به عنوان اعضاي فضاي نمونه هم شانس هستند.
نظريه ي نمونه برداري تصادفي ساده، (15) ايده ي پايه اي براي نمونه گيري پيمايشي است. يک چهارچوب نمونه برداري ترسيم مي کنيم و به طور تصادفي از درون آن، افرادي را براي فضاي نمونه انتخاب مي کنيم. آنها را پيگيري مي کنيم ( مصاحبه، تماس، نامه نگاري، ايميل يا هر چيزي که لازم است ) و داده هايي که درباره ي آنها مي خواهيم را ثبت مي کنيم. اين ايده ي ساده از طريق روش هاي زيادي گسترش يافته که در نهايت نتايج دقيق تر و رويکردهاي ارزان تري را ارائه مي دهد. مثلاً امکان دارد مصاحبه با تمام اين هزار نفر از لحاظ زمان و هزينه مقرون به صرفه نباشد، بنابراين بهتر است افراد را از بخش هاي محلي کوچک تري انتخاب کنيم. به اين روش نمونه گيري خوشه اي (16) مي گوييم. به جاي اينکه هزار نفر را به طور تصادفي از تمام جمعيت انتخاب کنيم مثلاً ده گروه 100 نفري انتخاب مي کنيم که افراد هر گروه از لحاظ موقعيت مکاني به هم نزديک باشند، به اين ترتيب مي توان مطمئن بود که در مقايسه با زماني که فقط بر فرآيند نمونه برداري تصادفي تکيه کرده بوديم، به نوعي تعادلي حاصل شده است. يا مثلاً مي توان تعدادي از زنان را به طور تصادفي و تعدادي از مردان را به طور مجزا و آن هم تصادفي انتخاب کرد به طوري که نسبت مرد به زن در اين حالت با نسبت مردان به زنان در کل جمعيت برابر باشد. به اين فرآيند، نمونه برداري طبقه اي (17) مي گوييم، زيرا کل جمعيت چهارچوب نمونه برداري را به طبقه هايي تقسيم کرده ايم ( مردان و زنان در اين مورد ). اگر متغيري که طبقه ها را بر اساس آن انتخاب مي کنيم ( مثلاً جنسيت ) تأثير زيادي بر متغير مورد مطالعه ( در اينجا ميزان درآمد ) داشت، در اين صورت نمونه برداري طبقه اي براي يک فضاي نمونه با اندازه ي مشخص مي تواند دقت را افزايش دهد.
در مجموع در نمونه گيري پيمايشي بايد خيلي خوش شانس باشيم که تمام افراد موجود در فضاي نمونه به پرسش هاي ما پاسخ بدهند. تقريباً هميشه افرادي وجود دارند که حاضر به پاسخ گويي نيستند و بدين ترتيب مشکلي که قبلاً درباره ي آن صحبت کرديم پيش مي آيد. يعني مشکل فقدان داده. و همان طور که ديديم اين کمبود داده منجر به نمونه اي نامتعادل و در نهايت نتايج غلط مي شود. مثلاً اگر افراد با دستمزدهاي بسيار بالا از پاسخ گويي سر باز زنند، ميانگين درآمد کل جمعيت از مقدار واقعي کمتر خواهد بود. به اين دليل متخصصان امر گستره ي وسيعي از روش ها را براي کم کردن اين عدم پاسخ گويي ها ارائه داده اند. مثلاً تماس مجدد با افرادي که پاسخ گو نبوده اند يا فرآيندهاي وزن دهي آماري.

نتيجه گيري

در اين مقاله درباره ي داده ها که مواد خام آمارند صحبت شده است. فناوري هاي پيشرفته اي براي جمع آوري داده ها توسط آماردادن ها ارائه شده است که با حداقل هزينه حداکثر اطلاعات را به دست مي دهند. اما اين تفکر که معمولاً داده هاي کامل و گويا به دست مي آيند هم تفکر درستي نيست. داده ها انعکاس دنياي واقعي اند که بسيار پيچيده است. با تشخيص اين مطلب، آماردانها ابزارهايي براي غلبه بر داده هاي بي کيفيت به دست آورده اند. باز هم نکته ي مهم اين است که آماردان ها جادوگر نيستند.

پي‌نوشت‌ها:

1. dirty or messy
2. Challenger.
3. incorrect data.
4. National Patient Safety Agency.
5. outlier.
6. obserbational data.
7. experimental data.
8. survey sampling.
9. experimental design.
10. double blind.
11. factorial experimental design.
12. law of large numbers.
13. Central Limit Theorem.
14. sampling frame.
15. simple random sampling.
16. cluster sampling.
17. stratified sampling.