تعاريف ساده ي آمار

نويسنده: ديويد هند
برگردان: بصير والي

داده ها شواهد و مدارک طبیعتند.
در اين مقاله بعضي از مفاهيم ابتدايي که پايه هاي آمار را مي سازند و کمک مي کنند تا اين نظام نقش خود را خوب ايفا کند معرفي مي شوند. آمار از بسياري از برداشت هاي اشتباه لطمه مي خورد. البته کتاب هايي که روش هاي آماري را براي شاخه هاي علمي ديگر تشريح مي کنند نيز در ايجاد اين اشتباهات بي تأثير نبوده اند. مثلاً يکي از اشتباهات معرفي آمار به عنوان جعبه ابزاري است که هر کاربر ابزاري را از درون آن براي مسئله ي مورد نظر خود يافته و به کار مي گيرد.
بدين ترتيب اين مفهوم القا مي شود که آمار فقط مجموعه اي از روش هاي مجزاي کار با اعداد است که البته تصور درستي نبوده و از اشکالات اساسي است. در واقع با چنين ديدي متوجه نمي شويد که آمار يک مجموعه ي به هم پيوسته بر اساس قوانين عميق فلسفي است، به طوري که ابزارهاي تحليل داده در آن با هم در ارتباطند: ابزارهايي که گاهي تعميمي از ابزارهاي ديگرند. و گاهي فقط به علت اينکه با انواع مختلف داده کار مي کنند با هم متفاوت به نظر مي رسند، حتي زماني که به دنبال يک ساختار يکسان هستند. من اين ديد را يکي از دلايل دشواري آمار براي افراد مبتدي مي دانم ( جداي از ترسي که ممکن است از اعداد داشته باشند ). ديدي که در آن، آمار مجموعه اي از روش هاي مجزا معرفی می شود. زیرا یادگیری مجموعه ای از روش های کاملاً جدا از هم، نسبت به يادگيري همين روش ها وقتي به وسيله ي قوانيني با هم در ارتباطند و از يک منبع گرفته شده اند، کار دشواري تر است. همان طور که فراگيري مجموعه اي تصادفي از لغات در مقايسه با کلماتي که در جمله اي معني دار آمده اند کار سخت تري است. در اين مقاله و در تمام مقاله های دیگر سعي شده تا وجود ارتباط ميان ايده هاي آماري مختل و به هم پيوستگي اين نظام نشان داده شود.

بحث مجدد درباره ي داده ها

هر اندازه که درباره ي جزئيات تعاريف صحبت کنيم باز هم نکته ي اصلي اين است که در عمل آمار با مفهومي به نام داده آغاز مي شود. داده ها، دنيايي را توصيف مي کنند که مي خواهيم مورد مطالعه قرار دهيم. در حالت کلي از کلمه ي - دنيا - استفاده مي کنيم که مي تواند دنياي فيزيکي اطراف، دنياي نقل و انتقالات کارت هاي اعتباري، دنياي آزمايشات ژنتيک، مدارس، عملکرد دانش آموزان و معلمان آن، داد و ستدهاي ميان کشورها، رفتار هايي که افراد در مقابل تبليغات مختلف از خود نشان مي دهند. ذرات ريزاتمي و... باشد. مسلم است دنيايي که مي خواهيم به بررسي آن بپردازيم پاياني ندارد، بنابراين دنياي توصيفي توسط داده ها نيز پايان ناپذير خواهد بود.
طبيعي است هيچ مجموعه ي متناهي از داده ها نمي تواند همه چيز را درباره ي پيچيدگي هاي بي پايان دنياي واقعي نشان دهد. همان طور که هيچ گفتار يا نوشتاري حتي از بهترين نويسندگان هم نمي تواند حتي به اندازه ي يک بند انگشت از دنياي اطراف را به طور کامل توصيف کند. اين مطلب نشان مي دهد که بايد مراقب کمبود و ضعف داده ها باشيم. بايد هنگام جمع آوري داده ها نهايت دقت به کار گرفته شود تا مطمئن شويم داده هاي جمع آوري شده، همه ي جوانب موضوع مورد نظر را پوشش مي دهند. نگرش واقع بينانه تري نيز وجود دارد: وقتي فقط مي توان مجموعه اي محدود از داده ها را جمع آوري کرد، مجبوريم از داده هاي بي ربط صرف نظر کنيم. مثلاً وقتي در طراحي خودروهاي مختلف مسئله ي امنيت را بررسي مي کنيم، بديهي است اهميتي به رنگ روکش صندلي آنها نمي دهيم.
درحالت کلي خوب است دو جنبه براي داده ها در نظر بگيريم. اولين مورد درباره ي خود موضوع مورد نظر است و مورد دوم درباره ي ويژگي هاي اين موضوع. براي مثال ممکن است موضوع مورد مطالعه، کودکان، و ويژگي مورد نظر، نمرات امتحانيشان باشد يا موضوع مورد نظر، کودکان، و ويژگي مورد نظر، شرايط جسمي، قد و وزن و يا رژيم غذايي آنها باشد. يا ممکن است موضوع، مواد طبيعي، و ويژگي مورد نظر، خواص مغناطيسي و الکتريکيشان باشد. در آمار معمولاً از ويژگي ها به عنوان متغيرها نام مي بريم که هر کدام داراي مقداري عددي هستند. مثلاً نمرات دانش آموزان در يک آزمون، متغير آزمون است و اندازه ي رسانايي الکتريکي يک ماده، متغير رسانايي است. در نظام هاي تحليلي ديگر داده، گاهي واژه هاي ديگري به کار مي روند ولي به شخصه وقتي درباره ي جنبه هاي تکنيکي بحث مي کنم، از کلمه ي - متغير - استفاده مي کنم.
در واقع در بسياري از مواقع در يک پژوهش علاقه منديم چند نوع موضوع را بررسي کنيم. مثلاً نه تنها دانش آموزان مدارس، بلکه خود مدارس يا آموزشگاه ها، معلمان، روش هاي تدريس و ساختارهاي مديريتي مدارس همه و همه را در يک پژوهش، مد نظر قرار مي دهيم. علاوه بر اين معمولاً فقط به يک ويژگي خاص از موضوع نمي پردازيم بلکه علاقه منديم رابطه ي ميان ويژگي هاي مختلف يک موضوع يا موضوعات مختلف در سطوح متفاوت را بررسي کنيم. در اين مسير اغلب پيچيدگي هايي بروز مي کند که نشان از پيچيدگي موضوع مورد نظر دارد.
بسياري از افراد اين حقيقت که داده هاي عددي مي توانند نشان دهنده ي زيبايي هاي دنياي واقعي باشند را نمي پذيرند. آنها احساس مي کنند تبديل اشياء و موضوعات به اعداد چيزي شبيه جادوگري است. در واقع نمي توان مرتکب اشتباهي بزرگ تر ازاين شد. چرا که اعداد اجازه مي دهند تا اين زيبايي ها را بهتر و عميق تر درک کرده و از آنها لذت ببريم. وقتي پديده اي را به شکل عددي توصيف مي کنيم بسياري از نکات مبهم آن از بين مي رود. مثلاً اگر بگويم 4 نفر در اتاق حضور دارند کاملاً متوجه منظورم مي شويد اما در مقابل وقتي مي گويم فلان شخص آدم جالبي است امکان دارد مقصودم از اين حرف را کاملاً درک نکنيد. يا حتي با اينکه وي شخص جالبي باشد موافق نباشيد. اما قطعاً با اينکه 4 نفر در اتاق هستند مخالفت نخواهيد کرد ( به جز اينکه در شمارش دچار اشتباه شده باشيم که خوب مسئله ي ديگري است ). اعداد و ارقام در تمام نقاط دنيا و بدون توجه به مليت، دين، جنسيت، سن يا هر ويژگي شخصيتي ديگر قابل درکند.
وقتي سعي بر درک چيزي داريم، از بين بردن ابهامات و در پي آن کاهش خطر بروز برداشت هاي اشتباه، امري کاملاً سودمند است.
نبود ابهام در اعداد و تفسيرهايي که بر پايه ي آنها صورت مي گيرد به اين حقيقت گره خورده که اعداد فقط يک خاصيت دارند: اندازه يا مقدارشان. برخلاف آن چيزي که پيشگوها القا کرده اند، اعداد خوش شانسي يا بدشانسي نمي آورند همان طور که رنگ، مزه يا عطر و بو ندارند. اعداد به جز مقدار عددي شان خاصيت ديگري ندارند ( مسلماً گاهي اوقات، افراد نسبت به بعضي اعداد احساس خاصي دارند درست مثل احساسي که به بعضي رنگ ها دارند، اما اين احساس در مورد افراد مختلف، متفاوت است. از اين رو نمي تواند به عنوان يکي از خواص اعداد در نظر گرفته شود ).
معمولاً داده هاي عددي در مقايسه با کلمات خيلي سريع تر ما را با موضوع يا پديده مورد مطالعه پيوند مي دهند. اين داده ها از طريق ابزارهاي اندازه گيري به دست مي آيند. ابزارهايي که در مقايسه با کلمات ارتباط بيشتري با پديده ها دارند. اعداد مستقيماً از چيزهايي که مورد مطالعه قرار مي دهيم به دست مي آيند، در حالي که کلمات توسط مغز انسان فيلتر مي شود. طبيعي است اگر در فرآيند جمع آوري داده ها پاي کلمات در ميان باشد پيچيدگي ها افزايش پيدا مي کند ( مثل موردي که داده ها توسط پرسشگرها و با پرسيدن از دسته اي افراد جمع آوري مي شوند )، اما قوانين همچنان پا بر جا هستند. با وجود اينکه ابزارهاي اندازه گيري معمولاً بدون نقص نيستند، اما با اين وجود داده ها، نتايج مناسبي براي استفاده از اين ابزارها در شناخت پديده ها هستند. اين مطلب را بدين ترتيب مي توان خلاصه کرد، که البته در ابتداي مقاله آمد: داده ها تصوير طبيعتند که از دريچه ي ابزارهاي اندازه گيري ديده مي شوند.
مهم تر از همه اينکه در عمل، اعداد اثرات مهمي در پيشرفت هاي اجتماعي داشتند. بيان حقايق با اعداد و امکان تحليل به کمک آنها يکي از امکانات دنياي مدرن و دليل بسياري از پيشرفت هاي عظيم در چند قرن است.
اگر چه اعداد فقط يک خاصيت دارند و آن هم مقدارشان است اما ممکن است بخواهيم از اين خاصيت در موارد گوناگون استفاده کنيم. براي مثال وقتي مي خواهيم درباره ي شايستگي دانش آموزان يک کلاس صحبت کنيم احتمالاً آنها را بر اساس نمرات آزمونشان رده بندي خواهيم کرد. در اين حالت فقط به اين مسئله توجه مي کنيم که نمره کدام دانش آموز از ديگري بالاتر است و به ميزان اختلاف نمرات دقت نمي کنيم. وقتي فقط با ترتيب مقادير سر وکار داريم مي گوييم در مقیاس ترتيبي (1) کار مي کنيم. در عوض مثلاً وقتي کشاورزي ميزان ذرتي که به عمل آورده را اندازه گيري مي کند، ميل دارد بداند چه ميزان محصول توليد کرده است نه اينکه فقط بفهمد. از سال گذشته محصول بيشتري به عمل آورده يا خير. يعني مي خواهد بداند وزن واقعي آن چقدر است. گذشته از اين هنگام فروش هم محصولات بر اساس وزنشان فروخته مي شوند. در اينجا کشاورز وزن محصولي را که توليد کرده با يک وزن استاندارد مثلاً يک تن مقايسه مي کند و بدين ترتيب مي فهمد چند تن ذرت توليد کرده است. بديهي است در اينجا با محاسبات نسبت سروکار داريم. نسبت وزن ذرتي که توليد شده به وزن يک تن ذرت. به همين دليل وقتي به اين شکل با اعداد سرو کار داريم مي گوييم در مقياس نسبي (2) کار مي کنيم. دقت شود در اين حالت مي توان واحد پايه ي اندازه گيري را به واحدهاي دلخواه تغيير داد. مثلاً مي توان وزن را به جاي تن بر حسب واحدهاي پوند و کيلوگرم بيان کرد. زماني که مشخص مي کنيم چه واحدي را به کار برده ايم نقاط مبهم از ميان مي روند و اين امکان براي افراد ديگر وجود دارد که مقدار حاصل را به واحدهاي مورد نظر خودشان تبديل کنند.
فرض کنيد مي خواهيم بدانيم چه تعداد از بيماران از اثرات جانبي خاصي از يک نوع دارو رنج مي برند. اگر تعداد افرادي که دارو اثرات نامطلوبي بر آنها دارد بيش از اندازه زياد باشد، ممکن است از اين دارو صرف نظر کرده و آن را به علت خطرات زياد از دسترس عموم خارج کنيم. در اينجا تعداد بيماران مورد نظر را مي شماريم که اين واحد ( تعداد بيماران ) يک واحد ناپيوسته ي ساده براي شمارش است ( به اين معني که شمردن نصف يا يکدهم مريض امکان پذير نيست ). عدد به دست آمده بدون مقياس بندي مجدد و تغيير واحد کاملاً معني دار است. در اين حالت اصطلاحاً در مقياس مطلق (3) کار مي کنيم.

آماره هاي خلاصه ي ساده

با اينکه اعداد، اجزاء تشکيل دهنده ي داده ها هستند، اما براي اينکه در عمل کاربرد داشته باشند بايد نگاهي به رابطه ي ميان آنها بياندازيم و حتي گه گاه به طريقي با هم ترکيبشان کنيم. اينجاست که آمار وارد عمل مي شود. در بخش هاي بعدي روش هاي پيچيده تري براي مقايسه و ترکيب اعداد ارائه مي شود. در اينجا سعي بر اين است که بيشتر، ايده ها معرفي شده و درباره ي چند روش ساده صحبت کنيم. به اين معني که به رابطه ي ميان متغيرهاي مختلف نمي پردازيم و در حقيقت مي خواهيم ببينيم چه اطلاعاتي از اعداد اندازه گيري شده براي يک متغيرخاص مي توان به دست آورد. براي مثال ممکن است سن متقاضيان براي يک موقعيت شغلي در يک دانشگاه، ميزان درخشندگي ستارگان يک خوشه، مخارج ماهيانه ي خانواده اي در يک شهر، وزن گاوها در يک گله زماني که به محل هاي فروش ارسال مي شوند و مسائلي از اين دست ثبت شده باشند. در اين موارد براي هر شيء در جمعيت اشياء فقط يک عدد ثبت شده است.
مقادير مجزا در يک مجموعه وقتي با هم در نظر گرفته شوند مي گوييم توزيعي (4) از مقادير شکل گرفته است. آماره هاي خلاصه يک راه براي توصيف توزيع اعداد هستند. مثلاً نشان مي دهند که اعداد به هم نزديکند يا نه، آيا بعضي از مقادير به طور استثنايي بزرگ يا کوچک هستند يا نه و اينکه نمونه اي از اين توزيع، شامل چه مقاديري خواهد بود و...

ميانگين ها (5)

در آمار يکي از پايه اي ترين توصيفات براي مجموعه اي از اعداد، ميانگين است. ميانگين عددي است که بيانگر نماينده ي اعداد مجموعه بوده و مقدار آن به اعداد مجموعه نزديک است. وقتي اين مجموعه بزرگ باشد احتياج به محاسبه ي ميانگين کاملاً روشن است. براي مثال فرض کنيد در يک شهر بزرگ، سن افراد را در جدولي ثبت کرده ايم. اين جدول ممکن است شامل چندين ميليون عدد باشد. براي مقاصد اجرايي، مديريتي و شغلي دانستن ميانگين سن افراد بسيار اهميت دارد. مثلاً اگر ميانگين سن، به جاي شصت سال، شانزده سال باشد، سرويس هاي مختلف زيادي در جامعه مورد نياز خواهد بود و البته موقعيت هاي درآمدي بسيار زيادي هم به وجود خواهد آمد. مسلم است اينکه بخواهيم همه ي اعداد اين جدول را با نگاه کردن به آنها با هم مقايسه کنيم، کار بسيار دشواري است. مثلاً اگر فقط يک ثانيه طول بکشد تا به هر کدام بنگريم، براي جدولي که حدود يک ميليون عدد دارد، حدوداً 270 ساعت زمان مي خواهيم و اين تازه در حالي است که کار اصلي يعني به خاطر سپردن و مقايسه اعداد را انجام ندهيم. اما چرا براي انجام اين کارهاي طاقت فرسا از کامپيوتر کمک نگيريم.
ميانگين داراي معاني متفاوتي است بنابراين در ابتدا بايد به وضوح روشن باشد که ما چه برداشتي از آن داريم. البته پر کاربردترين نوع ميانگين، ميانگين حسابي (6) يابه طور مختصر ميانگين ( معدل ) است. وقتي فقط با کلمه ي ميانگين رو به رو هستيم و توضيحي درباره ي اينکه اين عدد چگونه به دست آمده است داده نشده، احتمالاً همان معدل مد نظر است.
قبل از اينکه چگونگي محاسبه ي ميانگين حسابي را توضيح دهيم، بار ديگر جدول شامل يک ميليون عدد که قبلاً ذکر شد را در نظر بگيريد. فقط فرض کنيد در جدول جديد همه ي اعداد با هم برابرند. حال همه ی اعداد موجود در جدول اول را با هم جمع مي کنيم ( که اين کار توسط کامپيوتر چند ثانيه طول مي کشد ) و همين طور همه ي اعداد جدول دوم را براي به دست آوردن مجموع آنها با هم جمع مي کنيم. اگر مجموع اعداد اين دو جدول با هم برابر باشند، عددي که يک ميليون بار در جدول دوم تکرار شده به نوعي نماينده ي اعداد جدول اول است. اين عدد که يک ميليون بار با هم جمع شده تا مجموعي برابر مجموع اعداد جدول اول ايجاد کند. ميانگين حسابي ( براي اعداد جدول اول ) ناميده مي شود.
در حقيقت ميانگين حسابي به سادگي از تقسيم حاصل جمع يک ميليون عدد جدول اول بر عدد يک ميليون به دست مي آيد. در حالت کلي، ميانگين حسابي يک مجموعه از داده ها از جمع تمام اعداد مجموعه و تقسيم مجموع بر تعداد کل به دست مي آيد. به طور مثال در امتحاني نمرات پنج دانش آموز از 100 به اين ترتيب است 78، 63، 53، 91 و 55. مجموع اين اعداد 340= 55+ 91+ 53+ 63+ 78 است. حال ميانگين حسابي به سادگي از تقسيم عدد 340 بر 5 به دست مي آيد که برابر 68 است. نکته اينجاست که اگر پنج دانش آموز داشتيم و همه نمره ي 68 گرفته بودند باز هم به همان مجموع 340 مي رسيم.
ميانگين حسابي خواص جالب و زيادي دارد. اين عدد هميشه عددي بين بزرگ ترين و کوچک ترين عدد در مجموعه ي ارقام است.
خاصيت ديگر اين است که ميانگين، به نوعي اعداد مجموعه را متعادل مي کند، به طوري که مجموع اختلاف هاي اعداد بزرگ تر از ميانگين با ميانگين، برابر است با مجموع اختلاف هاي اعداد کوچک تر از ميانگين با ميانگين. با اين حساب ميانگين نوعي عدد مرکزي است. براي روشن شدن موضوع اين مثال را در نظر بگيريد. فرض کنيد چند وزنه ي يک کيلوگرمي در مکان هاي مختلف بر روي يک تخته چوب ( بدون وزن ) قرار گرفته اند. فاصله اين وزنه ها از يک سرتخته چوب مجموعه اي از اعداد را تشکيل مي دهد. ميانگين اين اعداد برابر فاصله ايست که اگر در آن فاصله از انتهاي چوب تکيه گاهي قرار دهيم، تخته چوب و وزنه هايش کاملاً متعادل باشند.
ميانگين، حسابي، آماره اي است که مجموعه تمام اعداد را در يک عدد خلاصه مي کند. البته مي توان اين طور هم نتيجه گرفت که بدين ترتيب بخشي از اطلاعات از دست مي رود، چرا که: انتظار نداريم بتوان يک ميليون يا هر تعداد عدد مختلف را فقط با يک عدد، بدون از دست دادن بخشي از اطلاعات نمايش داد. درباره ي اين مسئله بعداً صحبت مي کنيم. اما تا اينجا مي دانيم اين عدد يک عدد مرکزي است و به نحوي که ذکر شد به عنوان يک عدد خلاصه کاربرد دارد. مثلاً مي توانيم ميانگين اندازه ي کلاس ها را در مدارس مختلف با هم و ميانگين نمره امتحانات دانش آموزان مختلف را با هم مقايسه کنيم. همين طور مي توان در مورد ميانگين زماني که طول مي کشد تا افراد مختلف به محل کار خود برسند يا ميانگين دماي روزانه در سال هاي مختلف و از اين دست مسائل تحقيق کرد.
ميانگين حسابي به عنوان خلاصه اي از اعداد، آماره ي مهمي است. آماره ي مهم ديگر ميانه (7) است. ميانگين يک عدد محوري است، يک نقطه ي مرکزي که تفاوت بين اعداد يک مجموعه و خود را متعادل مي کند، اما ميانه اين مجموعه را يه شکل ديگري متعادل مي کند. ميانه مقداري است که دقيقاً نيمي از اعداد در مجموعه از آن بزرگ تر و نيمي ديگر کوچک ترند. اگر به مثال کلاس با پنج دانش آموز برگرديم و نمره ها را از کوچک به بزرگ مرتب مي کنيم، داريم : 53، 55، 63، 78 و 91. نمره اي که در وسط مجموعه قرار مي گيرد، 63 است که همان ميانه مي باشد.
بديهي است وقتي درمجموعه اعداد مساوي داريم، پيچيدگي هايي به بار مي آيد ( مثلاً فرض کنيد مجموعه اي شامل 99 بار صفر و 1 بار يک است ). اما مي توان بر اين مسائل غلبه کرد. در هر حال ميانه عددي معرف براي مجموعه ي اعداد است، هر چند که معرف چيزي غير از ميانگين است. به خاطر همين تفاوت مي توان انتظار داشت مقادير عددي ميانه و ميانگين براي يک مجموعه نيز متفاوت باشند. واضح است محاسبه ميانه ساده تر از ميانگين است. چرا که حتي به ساده ترين عمليات رياضي يعني جمع، هم احتياجي نداريم. تمام کاري بايد انجام شود اين است که اعداد را مرتب کرده و عددي که در وسط قرار مي گيرد، را تعيين کنيم. اما در حقيقت اين مزاياي محاسباتي در عصر کامپيوتر اهميت چندان ندارند. در تحليل هاي واقعي آماري کامپيوترها اعمال طاقت فرساي حسابي را به عهده مي گيرند.
حال که با ميانگين و ميانه آشنا شديم. سؤال اين است که کدام يک را براي يک شرايط خاص انتخاب کنيم. از آنجايي که اين اعداد به روش هاي مختلفي تعريف شده و به دست مي آيند و در نتيجه مقادير متفاوتي هم دارند، ممکن است نتايجي هم که بر پايه ي آنها به دست مي آوريم با هم متفاوت باشد. جواب کامل به اين سؤال که کدام يک از اين آماره ها را انتخاب کنيم به بحث هاي تکنيکالي بر مي گردد و خارج از حوصله ي اين بخش است اما به عنوان يک جواب کوتاه، انتخاب هر يک از آنها بستگي به دقت جزئياتي دارد که در سؤال مورد نظر مطرح است.
مثال زير به خوبي اين مطلب را روشن مي کند. فرض کنيد شرکتي داراي 5 بخش است که هر کدام سطح درآمد خود را دارند.
اين درآمدها به ترتيب زير است: $10,000، $ 10,001، $ 10,002، $ 10,003 و 99,999$. ميانگين اين اعداد 28,001$ و ميانه آن ها $10,002 است. حال فرض کنيد اين شرکت مي خواهد پنج نفر و هر کدام را براي يک بخش استخدام کند. استدلال کار فرما اين است که به صورت ميانگين بايد به هر کدام 28,001 $ دستمزد بدهد و اين عدد را به عنوان دستمزد ساليانه در آگهي استخدام ذکر مي دانند. از آن جا که تعداد افرادي که کمتر از 10,0002$ دستمز مي گيرند با تعداد افرادي که بيشتر از اين مقدار درآمد دارند برابر است به نظرشان بهتر بود اين عدد در آگهي به عنوان دستمزد ذکر مي شد. گاهي اوقات لازم است براي تصميم گيري درباره ي اينکه کدام اندازه گيري مناسب است، بسيار دقت کنيم ( اگر فکر مي کنيد اعداد مثال فوق عمداً اين طور طراحي شده اند، شکل 1 که توزيع دستمزد ساليانه بازيکنان بيسبال آمريکا را در سال 1994 نشان مي دهد در نظر بگيريد. ميانگين حسابي برابر 2/1 ميليون دلار و ميانه تنها نيم ميليون دلار است ).
اين مثال تأثير نسبي اعداد بسيار متفاوت را بر ميانگين و ميانه نشان مي دهد. در مثالي که ذکر شد ميانگين تقريباً سه برابر ميانه بود. اما فرض کنيد بزرگ ترين مقدار به جاي 99,999 $ , 10,004 $ باشد. در اين صورت ميانه همان 10,002 $ خواهد بود ( نيمي از اعداد بالاتر و نيمي پايين تر ). اما ميانگين از 28,001 $ به 10,002 $ کاهش مي يابد. بنابراين حتي اندازه ي يک مقدار يا عدد مي تواند تأثير مهمي در ميانگين داشته باشد در حالي که بر ميانه زياد تأثيرگذار نباشد. اين تأثيرپذيري ميانگين از اعداد پرت، يکي از دلايلي است که گاهي اوقات در عمل از ميانه به جاي آن استفاده مي کنيم.
** توضيح تصوير

Salaries, in millions of dollars.
1. توزيع دستمزد ساليانه بازيکنان بيسبال آمريکا در سال 1994. محور افقي ميزان دستمزد ساليانه بر حسب ميليون دلار و محور عمودي تعداد افراد در هر محدوده را مشخص مي کند.
ميانه وميانگين تنها اعداد معرف مجموعه نيستند. يکي ديگر از اين شاخص ها مد (8) است. مد عددي است که بيشتر از هر عدد ديگر در فضاي نمونه، اتفاق افتاده باشد. مثلاً تعداد کودکان خانواده ها را در يک جمعيت خاص در نظر مي گيريم. ممکن است بعضي ها يک فرزند، بعضي دو فرزند و بعضي هم تعداد بيشتري فرزند داشته باشند. اما به طور مثال به اين نتيجه مي رسيم که تعداد خانواده هايي که دو فرزند دارند از بقيه بيشتر است به اين معني که بيشتر خانواده ها دو فرزند دارند. در اين مثال مد براي تعداد کودکان در خانوارها برابر 2 است.

پراکندگي (9)

ميانگين ها، مثل ميانگين حسابي و ميانه، خلاصه هاي عددي خوبي براي مجموعه هاي اعدادند و از آن جا که در حالت کلي شاخصي از اندازه ي داده ها هستند، سودمندند. اما همان طور که در مثال قبل ديديم اين اعداد خلاصه گاه گمراه کننده هستند، مخصوصاً زماني که از اعداد مجموعه فاصله زيادي داشته باشند. براي درک بهتر موضوع، اين مثال را در نظر بگيريد: مجموعه اي داريم شامل يک ميليون و يک عدد، که اعداد 0، 1، 2، 3، 4،.... تا 1,000,000 را در بر دارد. براي اين مجموعه هر دو عدد ميانگين و ميانه برابر 500،000 هستند. اما واضح است اين عدد، معرف خوبي براي اين مجموعه نيست. چرا که در دو انتهاي مجموعه اعدادي وجود دارند که نيم ميليون برابر کوچک تر و نيم ميليون برابر بزرگ تر از ميانگين ( و ميانه ) هستند.
وقتي که از ميانگين به تنهايي براي معرفي مجموعه اي از اعداد استفاده مي کنيم، نمي دانيم اعداد چگونه و با چه فاصله اي حول اين ميانگين پراکنده شده اند. آيا بعضي از اعداد بسيار بزرگ تر يا کوچک تر از ميانگين هستند؟ يا با فاصله ي کمي حوالي ميانگين قرار دارند؟ يعني در حالت کلي نمي دانيم اعداد مجموعه چقدر با هم تفاوت دارند: اندازه گيري هاي آماري براي بررسي پراکندگي وجود دارند که حاوي اطلاعات دقيقي هستند و مثل ميانگين ها به يک روش خاص هم محدود نمي شود.
ساده ترين اندازه گيري براي پراکندگي مفهوم دامنه ي تغييرات (10) است. دامنه ي تغييرات به صورت تفاوت بزرگ ترين مقدار و کوچک ترين مقدار در مجموعه تعريف مي شود. در مجموعه اي که در نظر گرفتيم، دامنه ي تغييرات برابر 1,000,000 = 0- 1,000,000 است. در مورد مثال دستمزدها هم دامنه ي تغييرات برابر 89,999 = 10,000- 999,99 دلار است. هر دو اين مثال ها داراي دامنه ي تغييرات بزرگي هستند که نشان مي دهد تفاوت زيادي بين اعداد و ميانگين وجود دارد. فرض کنيد کارمندان مقادير 27,999$، 28,000$، $28,001، $28,002 و 28,003$ را به عنوان دستمزد دريافت کنند در اين صورت ميانگين همان $ 28,001 مي ماند در حالتي که دامنه ي تغييرات به 4$ کاهش مي يابد که با حالت اول بسيار متفاوت است. در اينجا ميزان درآمد کارمندان بسيار به هم نزديک است در حالي که دامنه ي تغييرات بزرگ مثال اول ( 89,000$ ) نشان دهنده ي تفاوت فاحش ميان دستمزدهاست.
با اينکه مفهوم دامنه ي تغييرات خواص جالب زيادي غير از قابليت تفسير بالا و سادگي دارد، با اين حال ايده آل به نظر نمي آيد. علاوه بر اين، وقتي فقط بزرگ ترين و کوچک ترين مقادير را در نظر مي گيريم، از بسياري از داده ها صرف نظر مي کنيم. فرض کنيد دو مجموعه از اعداد داريم که هر کدام شامل هزار عددند. مجموعه ي اول شامل عدد صفر، 998 بار عدد 500 و عدد1000 و مجموعه ي دوم شامل 500 مرتبه عدد صفر و پانصد بار عدد 1000 است. دامنه ي تغييرات هر دو مجموعه عدد 1000 است ( و بر حسب اتفاق ميانگين هر دو نيز 500 است ). اما کاملاً مشخص است اين دو مجموعه با هم تفاوت هاي زيادي دارند. اگر فقط بر روي بزرگ ترين و کوچک ترين اعداد مجموعه تمرکز کنيم متوجه نمي شويم مجموعه ي اول به شدت حوالي ميانگين متراکم شده است.
براي حل اين مشکل از روش هايي براي محاسبه ي پراکندگي استفاده مي کنيم که همه ي مقادير را در نظر مي گيرند.
يکي از روش هاي محاسبه بدين ترتيب است: تفاضل هر عدد از ميانگين ( حسابي ) را در مجموعه به دست مي آوريم، اين تفاضل ها را به توان دو رسانده و در انتها از اين اعداد ميانگين مي گيريم ( به توان رساندن باعث مي شود تمام اعداد علامت + داشته باشند در غير اين صورت وقتي ميانگين تفاضل ها را حساب مي کنيم مجموع تفاضلات صفر خواهد شد ). اگر عدد حاصل کوچک بود به اين معني است که اعداد مجموعه خيلي از ميانگين دور نبوده و پراکنده نيستند. اين ميانگين مربع تفاضلات به واريانس (11) داده يا گاهي اوقات به ميانگين مربع انحرافات (12) مشهور است. در مثال دانش آموزان با نمرات 78، 63، 53، 91 و 55 ميانگين برابر 68 است. مربع تفاضل بين نمره اول و ميانگين برابر است با

(براي بقيه نمره ها هم به همين ترتيب عمل مي کنيم. مجموع مربع تفاضلات برابر 1048= 100+ 25 + 225 +529 +169 و در نتيجه ميانگين مربع تفاضلات برابر 209/6 = 5 ÷ 1048 است. اين عدد، عدد واريانس است.
البته محاسبه ي واريانس بدين ترتيب اندکي مشکل ساز است. از اين جهت که در محاسبه ي واريانس، توان دو داريم و اين باعث مي شود واحد واريانس، واحد مورد نظر به توان دو باشد. اگر ميزان توليد محصولات يک مزرعه را بررسي مي کنيم و واحد اندازه گيري بر حسب تن باشد، واريانس اندازه گيري شده يا مقدار واريانس، واحد تن به توان دو دارد. اين موضوع باعث ايجاد ابهام مي شود به همين دليل معمولاً از واريانس جذر مي گيريم و بدين ترتيب واحد به همان واحد مورد نظر بر مي گردد. به اين ترتيب به يک روش اندازه گيري براي پراکندگي به نام انحراف معيار (13) مي رسيم. در مثال فوق انحراف معيار نمرات آزمون دانش آموزان برابر ريشه ي دوم 6/209 و معادل 5/14 است.
مفهوم انحراف معيار مشکلاتي را که با مفهوم دامنه ي تغييرات وجود داشت از بين مي برد. به اين ترتيب که همه ي داده ها را در نظر مي گيريم. اگر همه ي داده ها در نزديکي هم قرار گرفته باشند و تعداد کمي داده ي پرت داشته باشيم، انحراف معيار عدد کوچکي است اما در مقابل اگر اعداد بسيار پراکنده باشند حتي اگر دامنه ي تغييرات مثل دامنه ي تغييرات مجموعه ي قبل داشته باشند، انحراف معيار عدد بزرگي خواهد بود.

چولگي (14)

با اندازه گيري پراکندگي مي توان فهميد اندازه ي داده ها چقدر از هم انحراف دارند و با هم متفاوتند اما معلوم نيست اين انحراف در چه جهتي به وجود آمده است. به اين معني که نمي دانيم انحراف زياد مربوط به اعداد بزرگ است يا اعداد کوچک. مثال کارمندان شرکت را مجدداً به خاطر بياوريد. شرکتي که در چهار بخش آن دستمزد پرداختي حدود ده هزار دلار در سال و در يک بخش حدود ده برابر آن است. ممکن است نتيجه ي اندازه گيري پراکندگي ( مثلاً انحراف معيار ) اين باشد که اعداد به طور گسترده اي پراکنده اند. اما اينکه يکي از اين داده ها بسيار بزرگ تر از بقيه است صرفاً با اندازه گيري پراکندگي مشخص نيست.
به طور معادل پنج مقدار $90,000 - $89,999 - $89,998 - $89,997 و 1$ هم انحراف معياري برابر انحراف معيار مثال قبل دارند، اما تفاوت اين است که عدد غير عادي و متناقض در اينجا ( عدد 1$ ) بسيار کوچک تر از بقيه است. اما براي اينکه بتوانيم اين تفاوت را هم منظور کنيم نيازمند آماره ي ديگري براي خلاصه سازي داده ها هستيم که عدم تقارن توزيع داده ها را اندازه گيري مي کند.
يکي از انواع عدم تقارن توزيع داده ها، چولگي است. مثال اصلي دستمزد کارمندان با يک عدد غير عادي بزرگ ( 99,999$ ) داراي چولگي به سمت راست است، چرا که توزيع مقادير داراي بخش طولاني ( يا دم طولاني ) است که به سمت اعداد بزرگ و مقدار 99,999 $ کشيده شده است. اين توزيع تعداد بيشتري اعداد کوچک و تعداد کمتري اعداد بزرگ دارد. در مقابل توزيع مقاديري که در حالت دوم داده شده و در آن 1 $ به عنوان عدد متناقض وجود دارد، داراي چولگي به سمت چپ است. چرا که تعداد بيشتر اعداد در نزديکي هم قرار داشتند و توزيع آنها داراي بخش کشيده در سمت تنها عدد کوچک است.
توزيع هاي داراي چولگي به سمت راست بسيار مرسومند. يک مثال خوب نمودار توزيع ثروت در ميان افراد است که در آن اغلب افراد سرمايه هاي کم و نزديک به هم دارند و تنها تعداد کمي از آنها مبالغ ميليون دلاري را به عنوان سرمايه در اختيار دارند. مثلاً توزيع دستمزد بازيکنان بيسبال که در شکل 1 آمد، به شدت داراي چولگي در سمت راست است.

چارک ها (15)

ميانگين ها، پراکندگي ها و چولگي ها آماره هايي ارائه مي دهند که مقادير توزيع را در تعداد کمتري از اعداد مناسب فشرده مي سازد. اما گاه فقط به بخشي از توزيع علاقه منديم. مثلاً مي خواهيم بزرگ ترين يا کوچک ترين بخش از داده ها را در نظر بگيريم - به طور مثال 5% بزرگ ترين يا کوچک ترين - اعداد در مجموعه. قبلاً مفهوم ميانه را ديده ايم، عددي که در وسط مجموعه داده ها قرار دارد و به نوعي 50% اعداد از آن بزرگ تر و 50% کوچک ترند. مي توان اين ايده را تعميم داد. مثلاً چارک بالايي مجموعه عددي است که 25% اعداد از آن بزرگ ترند و چارک پاييني داده اي است که 25% داده ها زير آن قرار مي گيرند.
اين روند را مي توان ادامه داد و به دهک ها (16) ( مجموعه داده ها را بر ده قسمت تقسيم مي کنيم و از کوچک به بزرگ مرتب مي کنيم ) و صدک ها (17) ( داده ها را به صد قسمت تقسيم مي کنيم ) رسيد. بنابراين کسي که صدک 95 نمرات را مي خواهد بايد عددي که 5% نمره ها از آن بيشترند را بيابد. عبارت چندک، عبارتي است که در حالت کلي هم، براي اين گونه مقادير به کار مي بريم و شامل صدک ها، دهک ها، چارک ها و... مي شود.

پي‌نوشت‌ها:

1. ordinal scale.
2. ratio scale.
3. absolute scale.
4. distribution.
5. average.
6. arithmetic mean.
7. median.
8. mode.
9. dispersion.
10. range.
11. variance.
12. mean squared deviation.
13. standard deviation.
14. skewness.
15. quantiles.
16. decile.
17. percentile.