در احاطه ي آمار

در پاسخ افرادي که اعتقاد دارند آمار دروغ است معمولاً گفته فردريک ماستلر را يادآور مي شوم که مي گويد: درست است به کمک آمار مي توان دروغ گفت اما دروغ گفتن بدون آن کار ساده تري است.
شنبه، 2 اسفند 1393
تخمین زمان مطالعه:
موارد بیشتر برای شما
در احاطه ي آمار
 در احاطه ي آمار

 

نويسنده: ديويد هند
برگردان: بصير والي



 

در پاسخ افرادي که اعتقاد دارند آمار دروغ است معمولاً گفته فردريک ماستلر را يادآور مي شوم که مي گويد: درست است به کمک آمار مي توان دروغ گفت اما دروغ گفتن بدون آن کار ساده تري است.

آمار نوين

مطلب را با ادعايي آغاز مي کنم که احتمالاً بسياري از خوانندگان را متعجب مي سازد: آمار هيجان انگيزترين نظام در تمام نظام هاست. در اين بخش سعي شده تا با ذکر مثال هايي درستي اين ادعا و دليل درستي آن بيان شود. اميدوارم بتوانم بعضي از سوء برداشت هاي قديمي درباره ي طبيعت آمار را تغيير داده و همچنين نشان دهم اين نظام نوين چيست، چه توانايي هاي حيرت انگيري دارد و تا چه حد در همه ي عرصه ها حضور دارد.
در اين مقاله تصميم دارم دو مطلب را انتقال دهم: اولين مورد، شماي کلي انقلابي است که در چند دهه ي اخير به وقوع پيوسته. اينکه چگونه آمار از يک نظام خشک قديمي که با محاسبات طولاني بر روي مجموعه هاي بزرگ اعداد سروکار داشت به يک تکنولوژي مدرن و توسعه يافته که از ابزارهاي نرم افزاري پيشرفته استفاده مي کند ترقي يافت. اينکه چگونه امروزه آمار دان ها از اين ابزارها براي بررسي داده ها و يافتن ساختارها و الگوهاي جديد استفاده مي کنند، چگونه اين تکنولوژي را به کار مي برند تا لايه هاي پيچيدگي و ابهام را کنار زده و حقايق را آشکار کنند. آمار نوين همانند تمام تکنولوژي هاي ديگر مثل تلسکوپ، ميکروسکوپ، اشعه ي ايکس، رادار و اسکن هاي پزشکي چيزهايي را نمايان مي کند که بر چشم هاي غير مسلح پوشيده است. اين نظام در پيچيدگي ها و رموز دنياي امروز به ما توان ديدن مي بخشد و کمک مي کند تا حقايق را کشف کنيم.
بنابراين اولين مطلبي که مي خواهم در اين مقاله بيان کنم اين است که اين نظام پيشرفته چه قدرتي دارد، از کجا آمده و چه کارهايي مي تواند انجام دهد. اما مطلب دومي که مدنظر است، حضور همه جانبه ي آمار است. هيچ کدام از عرصه هاي زندگي از دسترس آن دور نمانده است. علم پزشکي نوين بر پايه ي آمار بنا شده است. آزمايش هاي تصادفي کنترل شده (1) به عنوان يکي از ساده ترين، قدرتمندترين و مؤثرترين ابزارهاي تحقيقاتي شناخته مي شود ( فهم فرآيندهايي که به کمکشان مي توان مانع آسيب ديدن افراد از امراض شد ). دولت هاي پيشرفته به تحليل هاي آماري داده ها که جامعه و اقتصاد را توصيف مي کنند وابسته اند: حتي اين بحث وجود دارد که تمام دولتمردان بايد دوره هاي اجباري آمار را پشت سر بگذارند. کشاورزان، فعالان صنايع غذايي و فروشندگان بزرگ براي تصميم گيري درباره ي اينکه چه چيزي پرورش دهند، چگونه آن را فرآوري کرده و براي فروش بسته بندي نمايند. به طور ضمني از نتايج آماري استفاده مي کنند. مهندسان براي تعيين ارتفاع سدها، آماره هاي هواشناسي را تحليل مي کنند. آنها از اين نظام براي افزايش قابليت اطمينان استفاده مي کنند تا کامپيوترهايي بسازند که مطمئن باشند. به دفعات دچار مشکل نمي شوند. سيستم هاي کنترل کننده ي ترافيک هوايي بر پايه ي مدل هاي آماري پيچيده اي که به صورت آنلاين کار مي کنند ساخته شده اند. ابزارها و ايده هاي آماري تقريباً در تمامي جنبه هاي زندگي مدرن به طور پنهان وجود دارند اگر چه ممکن است درک اين مطلب چندان هم ساده نباشد.

برخي تعاريف

يکي از تعاريف کاربردي خوب براي نظام آمار مي تواند اين تعريف باشد: آمار تکنولوژي به دست آوردن مفاهيم از داده هاست. با اين حال هيچ تعريف کاملي براي آن وجود ندارد. به طور خاص، اين تعريف، مفاهيم احتمال و شانس را در نظر نمي گيرد. مفاهيمي که از تکيه گاه هاي اصلي نظام آمار در کاربردهاي بي شمار آن هستند. تعريف کاربردي ديگر براي آمار مي تواند تکنولوژي کار با عدم قطعيت ها باشد. با اين حال تعاريف دقيق تر اهميت نقشي را که آمار ايفا مي کند بهتر نشان مي دهد. مي توان گفت نظام آمار براي پيش بيني آينده و به دست آوردن نتيجه درباره ي مجهولات و رسيدن به جمع بندي درباره ي داده ها نقش کليدي دارد. کنار هم قرار دادن اين تعاريف به خوبي ماهيت اين نظام را مشخص مي کند. کاربردهاي مختلف، موجب ظهور اين نظام در مسائل متفاوت مي شود. براي مثال تصميم گيري، پيش بيني، کنترل بلادرنگ، (2) کشف جرايم و آناليز ژنتيک و... همه از کاربردهاي آمار هستند. چيزي که درباره ي اين تعاريف لازم به يادآوري است اين است که عمداً از واژه ي تکنولوژي به جاي علم استفاده شده است. تکنولوژي، کاربرد يک علم و دست آوردهاي آن است و اين چيزي است که در مورد آمار صادق است: کاربرد دانش ما درباره ي شرايط عدم قطعيت و در مورد اينکه چگونه از داده هاي خام اطلاعات کسب کنيم. با اين حال باز هم گاهي از آن به عنوان علم ياد مي شود. يکي از بهترين مجلات در زمينه ي آمار، مجله ي علم آمار (3) است.
تا اينجا در اين مقاله و خصوصاً در بند قبل به نظام آمار اشاره شد. اما واژه ي statistics در زبان انگليسي معناي ديگري هم دارد. اين کلمه جمع کلمه ي statistic به معناي آماره است. آماره يک مفهوم عددي يا جزئي است. براي مثال خلاصه اي از داده ها که جمعيتي را توصيف مي کند: مثلاً اندازه ي جمعيت، نرخ رشد جمعيت، ميزان جرم و جنايت و... بنابراين از يک ديدگاه اين کتاب، آمار درباره ي مفاهيم عددي مجزا است. اما از ديدگاهي واقعي تر به چيزي فراتر از آن مربوط مي شود. در واقع به چگونگي جمع آوري، تحليل و نتيجه گيري از اين مفاهيم مي پردازد. به اين معني که اگر خواننده اي فکر مي کند در اين مقاله ها با انبوهي از جداول عددي مواجه مي شود در اشتباه است. اما خواننده اي که اميد دارد بداند چگونه در کسب و کارها تصميم گيري مي شود، چگونه ستاره شناسان گونه هاي جديد ستارگان را کشف مي کنند، چگونه محققان علم پزشکي ژني را که مربوط به يک بيماري خاص است تشخيص مي دهند، چگونه بانک ها تصميم مي گيرند به کسي اعتبارات بدهند يا نه، چگونه مؤسسات و شرکت هاي بيمه در مورد ميزان حق بيمه تصميم گيري مي کنند، چگونه فيلترهايي ساخته مي شوند که از ورود هرزنامه ها و تبليغات ناخواسته به ايميل شما جلوگيري مي کنند و... به مقصودش خواهد رسيد.
تمام اين مطالب نشان مي دهد که چرا کلمه ي statistics هم مي تواند مفرد باشد و هم جمع: نظامي وجود دارد که statistics ( آمار ) است در حالي که تعداد زيادي عدد وجود دارد که statistics ( آمارها ) هستند.
درباره ي معناي لغوي آمار به اندازه ي کافي صحبت شد! در تعريفي که در ابتدا ارائه شد واژه ي داده (4) هم به کار رفته است. اين کلمه جمع کلمه ي لاتين datum به معناي دادن يا چيزي که داده شده است.
داده ها معمولاً به شکل اعداد هستند. نتايج اندازه گيري ها، شمارش ها يا فرآيندهاي ديگر، مي توان گفت، داده ها بيان ساده اي از چيزي هستند که مورد مطالعه قرار مي دهيم. اگر اين مطالعه درباره ي دانش آموزان يک مدرسه باشد و به طور خاص بخواهيم توانايي تحصيلي و توانايي آنها براي مشاغل مختلف را اندازه بگيريم مي توانيم نمراتشان در نتايج امتحانات و آزمونهاي مختلف را مورد مقايسه قرار دهيم. اين نمرات شاخصي براي توانايي ها و تمايلات آنها در اختيار محقق قرار مي دهد. بديهي است اين توصيفات کامل نخواهند بود. ممکن است کسي در اثر بيماري نمره پاييني گرفته باشد. همين طور نبودن نمره براي ديگري هم صرفاً نشان مي دهد آن شخص در آزمون شرکت نکرده و درباره ي توانايي هايش اطلاعات خاصي نمي دهد. بعداً درباره ي کيفيت داده (5) ها بيشتر صحبت خواهد شد. موضوع کيفيت داده ها به دليل اين قاعده ي کلي اهميت دارد ( که در تمام طول زندگي جاري است نه فقط در آمار )، که اگر مواد اوليه ي خوب براي کار کار کردن در اختيار نداشته باشيم احتمالاً نتايج خوبي به دست نخواهيم آورد. آمار دادن ها مي توانند کارهاي خارق العاده اي در استخراج اطلاعات از داده ها انجام دهند، اما معجزه نمي کنند.
البته خيلي اوقات داده ها مستقيماً به صورت اعداد به دست نمي آيند. به نظر مي رسد اکثر داده هاي خام به صورت تصاوير، کلمات، يا حتي سيگنال هاي صوتي يا الکترونيکي باشند. تصاوير ماهواره اي، تشريح اثرات جانبي داروها در هنگام مصرف يا صدايي که در زمان صحبت کردن پراکنده مي شود به شکل اعداد به نظر نمي رسند، با اين حال آزمايشات دقيق نشان مي دهد که اين چيزها وقتي اندازه گيري و ثبت مي شوند به بيان هاي عددي يا بيان هايي که به نوبه ي خود قابل تبديل به اعداد هستند بدل مي شوند. مثلاً تصاوير از جمله تصاوير ماهواره اي از ميليون ها عنصر کوچک به عنوان پيکسل تشکيل شده اند که هر کدام بيانگر شدت ( عدد ) رنگ هاي مختلف هستند. متن ها مي توانند بر اساس کلمات و شباهت بين کلمات و عبارات آنها پردازش شوند. موتورهاي جست و جوگر اينترنت مثل گوگل از اين روش ها استفاده مي کنند. صداي ما بر اساس مقدار عددي اندازه و شدت موجي بيان مي شود که سازنده ي اجزاي کلام است. در حالت کلي اگر چه اکثر داده ها عددي و به صورت کمّي نيستند. اما اغلب طي مراحلي به اعداد کمّ تبديل مي شوند. اغلب آماره ها نيز در ارتباط با داده هاي عددي هستند.

دروغ آمار

جمله ي : « سه نوع دروغ داريم: دروغ، دروغ شاخدار و آمار » که عمدتاً به مارک تواين و بنجامين ديزراييلي نسبت داده مي شود. افراد ديگري هم چنين نظراتي داشته اند: ساده شدن کار دروغگوها از نتايج تأسف بار ستايش از آمار است ( تام بورنان ). آمار، تردستي با اعداد است ( آدري هابرا و ريچارد رانيون ). اگر در آمار دست ببريد مي توانيد هر چيزي را اثبات کنيد ( آرتور هيلي ) و... .
چيزي که به وضوح پيداست اين است که در مورد آمار بدگماني هايي وجود دارد. چرا که آمار دادن ها اغلب کساني هستند که بايد شرايط حاد را بررسي کرده و در مورد آن هشدار دهند و حتي گاهي ممکن است حامل خبرهاي بدي باشند. اين افراد زماني که در محيط هاي تحقيقاتي مثل دانشکده هاي پزشکي يا علوم اجتماعي فعاليت مي کنند، ممکن است به اين نتيجه برسند که براي دستيابي به جواب يک سؤال خاص داده ي کافي در اختيار ندارند؛ يا حتي به پاسخي برسند که دلخواهشان نيست. البته امکان دارد اين اتفاق از ديدگاه محققان خوشايند نباشند اما اينکه آمار را مقصر بدانيم و سرزنش کنيم هم چندان منصفانه نيست.
در بسياري از موارد اينگونه بدگماني ها توسط کساني ايجاد شده که آماره ها را به دلخواه خود انتخاب مي کنند. اگر بيش از يک راه يک نتيجه گيري از مجموعه اي از داده ها که هر کدام به جنبه هاي مختلفي مي پردازند وجود داشته باشد، افراد مختلف مي توانند به نتيجه هاي متفاوتي برسند. آمار جرم و جنايت مثال خوبي براي اين مطلب است. در انگلستان مهم ترين منبع آمار جرايم سازمان British Crime Survey است. اين سازمان از يک مجموعه تصادفي از افراد سؤالاتي در مورد اينکه در سال گذشته در مورد چه جرم هايي تحت پيگرد قرار گرفته اند مي پرسد و از اين طريق ميزان جرايم را تخمين مي زند. در مقابل سازمان Recorded Crime Statistics آماري ارائه مي دهد که بيشتر شامل حملات خطرناک به خانه ها و ادارات بوده و توسط پليس ثبت شده است. طبق تعريف، اين آمار جرائم کوچک را در نظر نمي گيرد. البته پر واضح است، جرائمي که به پليس گزارش نشده اند نيز در اين آمار قرار نمي گيرند. با اين تفاوتها جاي تعجب نيست اگر حاصل دو مجموعه از آماره ها با هم متفاوت باشند تا آنجا که حتي دسته اي مشخص از جرائم با توجه به يک مجموعه از نمودارها در طول زمان در حال کاهش بوده و با توجه به دسته اي ديگر افزايش را نشان دهند.
آمار جرم و جنايت دليل ديگر وجود بدگماني نسبت به آمار را نشان مي دهند. در حالي که اين اعداد به عنوان شاخصي براي بررسي عملکرد يک سيستم مد نظر قرار مي گيرند، امکان دارد افرادي هدفشان بهبود اين اعداد و ارقام حتي با لطمه زدن به جنبه هاي ديگر سيستم باشد. در اين حالت امکان دارد اين اعداد به طور نامناسبي تغيير يابند تا عملکرد سيستم را خوب نشان دهند. اما در واقع مثلاً پليس مي تواند با تمام نيرو جلوي دزدي از فروشگاه ها را بگيرد سبب رشد انواع ديگر جرائم شود. بنابراين در اين حالت، ميزان سرقت از فروشگاه ها به عنوان شاخصي براي نرخ جرائم کاربردي ندارد. اين پديده از زمان چارلز گوتهارت که از مشاوران اسبق بانک انگلستان است به نام قانون گوتهارت (6) نام گرفت.
نکته قابل تأمل اين است که اين مشکلات به خودي خود ربطي به آمار ندارند، بلکه به نوع استفاده از آماره ها، انتخاب نادرست روش جمع آوري آماره ها و معناي واقعي آنها مربوط مي شود و همين طور برداشت هاي اشتباهي که درباره ي چگونگي جمع آوري آماره ها و معناي واقعي آنها وجود دارد. بدگماني به چيزهايي که درک نمي کنيم هم امري کاملاً طبيعي است. راه حل از بين بردن اين بي اعتمادي هم، اصلاح اين برداشت هاي اشتباه است.
يکي ديگر از ريشه هاي اين بدبيني به طبيعت علم و تبعات پيشرفت آن بر مي گردد. ممکن است روزي در يکي از مجلات علمي ببينيم که مثلاً يک نوع خاص غذا براي سلامتي ضرر دارد اما روز بعد دقيقاً عکس آن را مشاهده کنيم طبيعي است اين موضوع سردرگمي ايجاد مي کند و موجب بروز اين احساس مي شود که دانشمندان جواب اين سؤالات را نمي دانند و چندان قابل اعتماد نيستند. از طرفي تحقيقات علمي از حجم عظيمي از تحليل هاي آماري استفاده مي کنند، و اين باعث مي شود بخشي از اين بدگماني ها بر دوش آمار قرار بگيرد. اما اين ذات پيشرفت علمي است تا زماني فکر مي کرديم، وجود چربي در رژيم غذايي براي بدن مضر است اما مطالعات بعدي نشان دادند گونه هاي متفاوتي از چربي وجود دارند که بعضي مفيد و بعضي مضر هستند. اين مطلب از آنچه که به نظر مي رسد پيچيده تر است. بنابراين امکان دارد از اينکه چگونه اطلاعات اوليه با هم تداخل کرده و در نهايت نتايج ظاهراً متناقض مي دهند، تعجب کنيم.
دليل ديگر بدبيني، وجود اشتباهات و سوء تفاهم هاي ابتدايي در مورد مفاهيم پايه اي آمار است. مثلاً جملات زير را در نظر بگيريد و بررسي کنيد چگونه مي توانند موجب بدبيني شوند
1. در گزارشي آمده است که تشخيص زود هنگام بيماري مدت زمان زنده ماندن را افزايش مي دهد، بنابراين برنامه هاي غربالگري سودمند هستند.
2. مطلع مي شويم قيمت کالا يا خدمات خاصي براي افراد واجد شرايط 25% تخفيف دارد اما ما واجد شرايط نيستيم و بايد 25% بيشتر از قيمت تعيين شده پرداخت کنيم.
3. در جايي مشاهده مي کنيم که بر اساس برون يابي از افزايش طول عمر در صد سال گذشته، پيش بيني مي شود اميد به زندگي در قرن آينده به صد و پنجاه سال خواهد رسيد.
4. گفته مي شود از 1950 تاکنون تعداد دانش آموزان امريکايي که دست به شليک با تفنگ زده اند سالانه دو برابر شده است.
اين سوء تفاهم ها به اين ترتيب پديد آمده اند:
1. به وضوح، تشخيص سريع تر بيماري، به اين معني است که بيمار فرصت بيشتري براي زندگي دارد، صرف نظر از استفاده از هر نوع دارو. گاهي اوقات بايد اين مسئله را در نظر گرفت.
2. 25 % کاهش به اين معني است که قيمت ها يک چهارم کم شده اند اما بازگرداندن قيمت ها به قيمت اوليه به اين معني است که بايد به جاي 25 %، آنها را 33 % افزايش دهيم. مثلاً با 25 % تخفيف در قيمت اوليه ي 100 دلار به قيمت 75

مي رسيم. اما براي برگرداندن قيمت به 100 دلار بايد آن را به 25 دلار افزايش دهيم که مي شود 33 % از 75

.

3. اين به اين معني است که اميد به زندگي با همان نرخي افزايش مي يابد که قبل از اين افزايش مي يافت.
4. اگر در سال 1950 يک کودک دست به شليک زده باشد، اين جمله نشان مي دهد که اين تعداد در سال هاي 1951، 1952، 1953، 1954 به ترتيب 2، 4، 8 و 16 بوده است و به همين ترتيب در سال هاي بعد. اگر به همين ترتيب به محاسبات ادامه دهيم براي تعداد اين کودکان در زمان حال به رقمي مي رسيم که از کل افراد دنيا نيز بيشتر مي شود.
گاهي اوقات برداشت هاي اشتباه چندان هم ابتدايي نيستند و از مفاهيم نسبتاً عميق آماري نشأت مي گيرد. مغالطه ي دادستان (7) مثال خوبي در اين زمينه است، که سردرگمي ميان احتمال درست بودن چيزي را ( مثلاً متهم گناهکار باشد ) وقتي مدارکي در دست داريم ( مثلاً دستکش متهم در صحنه ي جرم موجود باشد ) در مقابل احتمال يافتن اين مدارک با فرض اينکه متهم گناهکار باشد ( درست بودن آن چيز ) بيان مي کند. چنين مسئله اي به غير از دادگاه در موارد ديگري هم رايج است و ما بعداً به آن خواهيم پرداخت.
بديهي است که بدبيني يا بي اعتمادي نسبت به آمار وجود دارد، به ضعف خود آمار و روش هاي محاسبات آن مربوط نبوده بلکه به نوع استفاده ما از آن مربوط خواهد بود. اينکه نظام آماري و آمار دان هايي که اين مفاهيم را از داده ها استخراج کرده اند مقصر بدانيم منصفانه نيست، بلکه اين قصور متوجه افرادي است که نمي دانند اين اعداد چه چيزي را بيان مي کنند و همين طور کساني که آگاهانه از اين نتايج سوء استفاده مي کنند. وقتي کسي توسط تفنگي کشته مي شود، تفنگ را مقصر نمي دانيم بلکه کسي را که با آن شليک کرده مقصر دانسته و محاکمه مي کنيم.

داده ها

تا اينجا ديديم، داده ها مواد خامي هستند که آماره ها به وسيله ي آنها محاسبه مي شوند و نظام آمار بر پايه ي آنها بنا شده است که اغلب به صورت اعداد بيان مي شوند. اما در واقع داده ها چيزي فراتر از اعداد محض اند. براي اينکه بتوانيم معني و مفهوم مفيدي از تحليل آماري کسب کنيم بايد اين اعداد، معني دار باشند. مثلاً بايد بدانيم اندازه گيري ها، اندازه ي چه چيزي را نشان مي دهند. يا چه چيزي را شمارش کرده ايم. براي اينکه نتايج دقيق و قابل اعتمادي از تحليل هاي آماري به دست آيد، بايد اطلاعاتي درباره ي چگونگي به دست آمدن اين اعداد نيز داشته باشيم. آيا تمام افراد به پرسش ها پاسخ گو بوده اند يا فقط بعضي از آنها به سؤالات جواب داده اند. اگر فقط بخشي از آنها به سؤالات پاسخ داده اند، آيا اين افراد، کاملاً معرّف جمعيت مورد مطالعه هستند يا نه. همين طور بايد بدانيم، ابزارهاي اندازه گيري قابل اعتمادند يا داراي محدوديت هستند، و براي اعداد بزرگ تر از محدوده ي خود اندازه گيري دقيقي ارائه نمي دهند. مثلاً آيا مي توان مطمئن بود، عددي که پرستاري براي ضربان نبض بيمار ثبت کرده درست است يا نه؟ بي نهايت سؤال از اين دست وجود دارد و ما بايد نسبت به آنهايي که در نتيجه گيري ها تأثير گذارند حساس بوده و هشدارهاي لازم را دريافت کنيم.
مي توان به داده ها به عنوان مدارک و شواهد نگاه کرد. بدون آنها تئوري ها و ايده هاي مان در مورد دنياي اطراف تفکرات محض اند. داده ها هستند که زمينه ي پيوند نظريات با واقعيات را فراهم مي کنند. به کمک آنهاست که مي توانيم دانسته هاي خود را ارزيابي قرار کينم. براي مقايسه ميان داده ها و ايده ها و اينکه چقدر همديگر را تأييد مي کنند از روش هاي آماري استفاده مي کنيم. نتايج ضعيف، ما را به فکر فرو مي برند تا به نظريات دقيق تري برسيم؛ نظرياتي که با آنچه در واقعيت اتفاق مي افتد تطابق بيشتر داشته باشند. البته لازم به ذکر است نتايج ضعيف ممکن است در اثر داده هاي بي کيفيت نيز حاصل شده باشند. بنابراين نبايد اين مطلب را از ياد ببريم که: ممکن است نظريات درست باشند اما اين ابزارهاي اندازه گيري باشند که به نحوي مشکل ايجاد مي کنند. در حالت کلي وجود تطابق ميان داده هاي مشاهده شده و داده هايي که طبق تئوري ها بايد وجود داشته باشد، نشان مي دهد در مسير درست قرار داريم به اين معني که تئوري ها صحت آنچه که در واقعيت در جريان است را منعکس مي کنند.
بديهي است در عمل بايد بتوان بر اساس تئوري ها دست به پيش بيني هايي زد که صحتشان به کمک داده ها قابل سنجش باشد. پس از بررسي ها اگر ندانيم بايد منتظر چه چيزي باشيم يا اگر پيش بيني ها آن قدر کلي بودند که هر داده اي تئوري ها را تأييد مي کرد. اين تئوري ها چندان کاربردي نخواهند بود: يعني هر چيزي مي تواند رخ دهد. روان شناسي و نجوم در اين زمينه مورد انتقاد قرار گرفته اند.
علاوه بر اين داده ها شرايط را طوري فراهم مي کنند که در اين دنياي پيچيده مسير خود را بيابيم و بهترين تصميم ها را براي کسب بهترين نتايج بگيريم. اندازه گيري ها را در نظر مي گيرم، به شمارش مي پردازيم و روش هاي آماري را براي کسب اطلاعات از داده ها به کار مي گيريم تا بفهميم دنياي خارج چگونه رفتار مي کند و چه بايد بکنيم تا آن گونه که ما مي خواهيم رفتار کند. خلبان خودکار هواپيماها، سيستم هاي ناوبري ماهواره اي در خودروها، شاخص هاي آماري مثل تورم و رشد ناخالص داخلي ( GDP )، بيماران تحت مراقبت در بخش مراقبت هاي ويژه، و ارزيابي سياست هاي اجتماعي پيچيده مثال هاي خوبي از اين موضوع هستند.
با توجه به اينکه امروزه پيوند ميان نظريات و مشاهدات درباره ي دنياي واقعي را نقش اساسي داده ها مي دانيم، چندان دور از ذهن نيست که داده ها و تکنولوژي به دست آوردن اطلاعات از آن ها را به عنوان زير بناهاي جهاني سازي مدرن در نظر بگيريم. به همين دليل است که براي يکي از کتاب هايم با عنوان توليد اطلاعات عنواني فرعي با اين مضمون در نظر گرفته ايم: چگونه داده ها دنيا را اداره مي کنند.

آمار گسترده

با اينکه ريشه هاي آمار به مدت ها قبل باز مي گردد اما خود اين نظام در واقع بيشتر از دو قرن قدمت ندارد. انجمن سلطنتي آمار (8) در سال 1834 و انجمن آمار آمريکا (9) در سال 1839 پايه گذاري شدند، در حالي که اولين دانشکده ي آمار در سال 1911 در دانشگاه کالج (10) در لندن پايه گذاري شده است. آمار کهن شاخه هاي گوناگوني داشت و شاخصه ها مفهوم احتمال بود که در قرن 17 در پاسخ به سؤالاتي که در شرط بندي ها مطرح بود به وجود آمد. ديگري مربوط به اين حقيقت بود که اندازه گيري ها به ندرت بدون خطا انجام مي شدند و به تحليل هايي نياز بود تا نتايج معقول و معني داري به دست آيند. در سال هاي اوليه اين موضوع مخصوصاً در نجوم و ستاره شناسي اهميت داشت. يکي ديگر از اين زمينه ها استفاده تدريجي حکومت ها از داده هاي آماري براي اداره جوامع بود. در حقيقت اين استفاده بود که منجر به پيدايش کلمه statistics شد. امروزه هر کشور پيشرفته اي سازمان ملي آمار مخصوص به خود را دارد.
در طول اين پيشرفت و گسترش، نظام آمار چندين مرحله را پشت سر گذاشت. اولين مرحله که تا اواخر قرن نوزدهم به طول انجاميد مرحله ي کاوش استدلالي در ميان داده ها بود. در نيمه ي اول قرن بيستم اين نظام سر و شکل رياضي به خود گرفت تا حدي که بسياري از آن را يکي از شاخه هاي رياضي مي دانستند ( چرا که با اعداد سرو کار داشت ). در حقيقت هنوز هم اغلب آمار دانان آکادميک جزء اعضاء دانشکده هاي رياضي هستند. در نيمه ي دوم قرن بيستم شاهد ظهور پديده اي به نام کامپيوتر بوديم. اين تغيير بود که آمار را از يک کار طاقت فرسا به يک کار هيجان انگيز ارتقا داد. قبل از پيدايش کامپيوتر، افراد بايد مهارت هاي محاسباتي ويژه اي مي داشتند و ساعات هاي زيادي را صرف انجام محاسبات دستي بي شمار مي کردند. وجود کامپيوتر اين نيازها و محدوديت ها را مرتفع کرد. تفاوتي که بدين ترتيب ايجاد شد مثل تفاوت پياده روي و رانندگي بود: سفرهايي که پيش از اين، روزها به طول مي انجاميد اکنون ظرف چند دقيقه انجام مي شد و سفرهايي هم که به علت مسافت زياد حتي در انديشه ها جاي نمي گرفت امروز شدني بود.
در نيمه دوم قرن بيستم شاهد ظهور شاخه هاي ديگري از تحليل داده ها بر مبنايي غير از آمار کلاسيک، و علي الخصوص بر مبناي علوم کامپيوتر بوديم که شامل يادگيري ماشين، (11) شناسايي الگو (12) و داده کاوي (13) بود. در حالي که اين نظام ها در حال پيشرفت بودند گاهي اوقات تنش هايي بين اين شاخه ها و شاخه هاي مختلف آمار وجود داشت. در حقيقت زمينه هاي مختلفي که توسط شاخه هاي گوناگون به وجود آمده بودند همگي ابزارهايي را براي تحليل داده ها به اشتراک گذاشتند تا آن جا که امروزه در آمار نوين آزادانه از همه اين ابزارها استفاده مي شود. با اين پيش فرض، تعريف گسترده اي براي آمار در اين بخش در نظر گرفته شده است. اين تعريف از تعريف آمار گسترده که توسط آماردان برجسته جان چمبرز ارائه شده پيروي مي کند. او آمار گسترده را هر چيزي که به ياد گيري از داده مربوط مي شود تعريف مي کند، از جمع آوري و برنامه ريزي اوليه گرفته تا ارائه و گزارش نهايي. بنابراين تلاش براي تعيين حد و مرزهايي ميان نظام هاي مختلف تحليل داده، کاري عبث و بيهوده است.
بنابراين آمار نوين نه درباره ي محاسبات که در ارتباط با تحقيقات است. حتي بعضي افراد آمار را به عنوان روش علمي در عمل توصيف کرده اند. اگر چه همان طور که پيشتر ذکر شد، در دانشگاه ها، آماردان ها در دپارتمان هاي رياضي هستند اما در دانشکده هاي پزشکي، دانشکده هاي علوم اجتماعي، اقتصاد و تعداد زيادي دپارتمان ديگر از مهندسي گرفته تا روان شناسي هم حضور دارند. خارج از دانشگاه ها هم تعداد زيادي از آنها در بخش هاي دولتي، صنعت، بخش داروسازي، بازاريابي، مخابرات، بانکداري و بسياري زمينه هاي ديگر مشغول به فعاليت هستند. اغلب مديران نيز بر مهارت هاي آماري که به کمک آنها داده هايشان را تفسير مي کنند تکيه دارند. داده هايي که مجموعه، شرکت، محصول يا پرسنلشان را توصيف مي کند. آنها محاسبات فراوان رياضي انجام نمي دهند، بلکه از روش ها و ابزارهاي آماري بهره مي گيرند تا ديد درستي نسبت به موضوع مورد نظرشان دست پيدا کنند. در اين مسير بايد موضوعات غير رياضي زيادي را مد نظر قرار دهند، از قبيل کيفيت داده ها، چگونگي جمع آوري آنها، تعريف مسئله، تعيين اهداف کلي ( درک، پيش بيني، تصميم گيري و غيره )، تعيين اينکه چگونه شرايط عدم اطمينان روي نتايج تأثير مي گذارد و بسياري موضوعات ديگر.
اميدواريم روشن شده باشد که آمار در تمام قلمروهاي زندگي حضور دارد. اين موضوع تأثير متقابلي بر پيشرفت اين نظام داشته است. بدين ترتيب که روش هاي آماري در زمينه هاي جديد به کار گرفته مي شود و مشکلات مخصوص، نيازمندي ها و مشخصات اين زمينه ها منجر به تکامل و پيدايش ساختارها و روش هاي جديد آماري شده و سپس همين که اين ابزارها و روش ها گسترش مي يافتند در زمينه هاي ديگر مورد استفاده قرار گرفتند.

پي‌نوشت‌ها:

1. randomized controlled trials.
2. real-time monitoring.
3. Statistical Science.
4. data.
5. data quality.
6. Goodhart"s law.
7. Prosecutor"s Fallacy.
8. Royal Statistics Society.
9. American Statistical Association.
10. College.
11. machine learning.
12. pattern recognition.
13. data mining.

منبع مقاله :
هند، ديويد جي؛ (1391)، آمار، ترجمه ي بصير والي، تهران: انتشارات حکمت، چاپ اول



 

 



ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
مقالات مرتبط