نويسنده: ديويد هند
برگردان: بصير والي

آمار، مدل آماري، اعتبارسنجي، روش آماري، نرم افزار آماري
جادوي واقعي نتيجه ي کار تيم تحليل آماري است.
سام الخلف
روش هاي آماري دستخوش تغيير مي شود. از اين رو لازم است مدلي انتخاب کنيم که نه خيلي پيچيده باشد و نه خيلي ساده. بدون تجربيات اساسي در مدل سازي آماري چنين توصيه اي چندان کارساز نيست و راه کارهاي واقعي تري مورد نياز است. يکي از اين رويکردها بر قاعده ي اعتبار سنجي متقابل (1) استوار است.
در حالت کلي با پيچيده تر شدن مدل، کارکرد آن براي داده هاي موجود بهتر مي شود، اما همين کارکرد براي داده هاي نمونه ي ديگري که از توزيعي مشابه به دست آمده اند ( يا همان عملکرد خارج از نمونه ) معمولاً در ابتدا بهبود مي يابد اما در ادامه رو به وخامت مي گذارد. در اينجا نمونه هاي ديگر نماينده ي داده هاي جديد هستند که در واقع همان چيزي است که به آن علاقه منديم. اولين نقطه هايي که مدل در آن، داده هاي موجود را در مقايسه با نمونه هاي ديگر بهتر تأييد مي کند مي تواند سطح مناسب پيچيدگي مدل باشد. کليد راه حل مسئله اينجاست: بايد پارامترهاي مدل را با استفاده از نمونه اي تخمين بزنيم و عملکرد آن را با نمونه هاي ديگر ارزيابي کنيم.
متأسفانه، معمولاً فقط يک نمونه در اختيار داريم. يک راه حل براي رفع اين مشکل اين است که اين نمونه را ( به طور تصادفي ) به دو زير نمونه تقسيم کنيم. يکي از زير نمونه ها ( نمونه ي طراحي ) (2) براي تخمين پارامترها و ديگري ( نمونه ي ارزيابي ) (3) براي برآورد عملکرد و انتخاب مدل به کار مي رود. به اين روش، روش اعتبار سنجي يا وارسي اعتبار مي گوييم. استفاده از زير نمونه براي تخمين پارامترهاي مدل، پيچيدگي هاي خاص خود را به بار مي آورد چرا که اين زير نمونه در واقع نمونه ي اصلي نيست. براي کم کردن پيچيدگي ها، اين فرآيند را چندين بار تکرار مي کنيم. يعني نمونه ي اصلي را به طور تصادفي به دو زير نمونه تقسيم مي کنيم، پارامترها را از يکي تخمين مي زنيم و از ديگري براي ارزيابي عملکرد مدل استفاده مي کنيم. اين فرآيند را چندين بار با زير نمونه هاي تصادفي متفاوت از نمونه ي اصلي تکرار مي کنيم. در نهايت ميانگين نتايج ارزيابي عملکرد اين تکرارها را به دست مي آوريم تا ميزان عملکرد محتمل در آينده را تعيين کنيم.
روش اعتبار سنجي مثالي از رويکردهاي محاسباتي فشرده (4) است. اين نام به اين علت انتخاب شده که بايد در آن چندين مدل ساخته و بررسي شود. يکي ديگر از اين روش ها باز نمونه گيري خود راه انداز (5) است. اين روش کاربردهاي زيادي دارد که يکي از مهم ترينشان تخمين ميزان عدم قطعيت مربوط به مدل هاي پيچيده است. به اين معني که چه ميزان انتظار داريم با تغيير نمونه، مدل هم تغيير کند. روش خود راه انداز با انتخاب زير نمونه هايي به اندازه ي نمونه اصلي از نمونه ي اصلي کار مي کند ( به اين معني که بعضي از داده ها بيش از يک بار به کار مي روند ). سپس براي هر کدام از اين زير نمونه ها، مدلي مشابه مدلي که ارزيابي شده ساخته مي شود. اين معادل شرايطي است که چندين نمونه با اندازه هاي يکسان از توزيع اصلي داشته و براي هر کدام نيز مدلي به دست آورده باشيم. حال با استفاده از اين مجموعه مدل ها مي توان محاسبه کرد که با انتخاب نمونه ي متفاوت، مدل چه مقدار تغيير خواهد کرد.
يکي از نشانه هاي برجسته ي تأثير کامپيوترها بر آمار نوين، تأثير روش هاي کامپيوتري بر رويکرد بيزي در استنتاج است که به آن اشاره شد. در عمل براي استفاده از روش بيز بايد توابع پيچيده اي از توزيع ها را در محاسبات وارد کنيم. کامپيوترها کار در اين زمينه ها را ساده تر کرده اند. به جاي اينکه با توزيع ها به صورت رياضي کار کنيم، کامپيوترها نمونه هاي تصادفي فراواني از آنها بيرون کشيده و با آنها کار مي کنند. ويژگي هاي توزيع ها را مي توان به کمک اين نمونه هاي تصادفي تخمين زد، دقيقاً شبيه کاري که در مورد محاسبه ي ميانگين يک جمعيت انجام داديم و به کمک ميانگين يک نمونه ي تصادفي آن را مورد محاسبه قرار داديم. روش هاي زنجيره اي مارکوف مونت کارلو طرز کار آمار بيزي را تغيير داده و آن را از يک مجموعه ايده ي تئوري جذاب اما در عمل محدود به يک تکنولوژي قدرتمند تحليل داده تبديل کرده است.
در بخش قبل به روش هاي گرافيکي که براي تشريح استفاده مي شد توجه کرديم. اما کامپيوترها روش هاي ترسيمي و گرافيکي را به زمينه هاي کاملاً جديدي منتقل کرده اند. در حقيقت در گذشته فقط نمودارهاي ساده ي سياه و سفيد داشتيم. اما امروزه از تصاوير رنگي پويا بهره مي بريم. اما مهم تر از آن، امروزه مستقيماً فعل و انفعالاتي بر روي نمودارها انجام مي دهيم. امروزه مي توان چندين نمودار را به طور همزمان بر روي نمايشگرهايي که به کامپيوترها متصلند نمايش داد. نمودارهايي که هر يک روابط ميان جفت متغيرهاي متفاوتي که در ارتباط با موضوع مورد نظرند را نشان مي دهند.
در اين صورت دستکاري داده ها خود را بر روي تمام نمودارها نشان خواهد داد. ابزارهاي ديگري وجود دارند که اجازه مي دهند تا به صورت پويا ميان فضاهاي داده با ابعاد بالا سير کنيم و چنين داده هايي را به روش هاي گوناگون نمايش دهيم.
از آنجا که آمار در سراسر دنيا کاربرد وسيعي دارد و به اين دليل که کامپيوترها نقش محوري در اين زمينه دارند، بسته هاي نرم افزاري کاربرپسند زيادي براي سهولت کار ارائه شده اند. بعضي از اين بسته هاي نرم افزاري به دليل اهميت زيادشان به استانداردهاي صنعتي در کاربردهاي خاص تبديل شده اند. اما نبايد از ياد برد که استفاده ي مؤثر از اين ابزارهاي آماري نيازمند دقت زيادي است. در واقع، در ابتداي ايجاد چنين نرم افزارهايي اين نگراني وجود داشت که در دسترس بودن اين ابزارها نقش آماردان ها را کم رنگ کند، زيرا به کمک آنها هر کسي مي توانست تحليل آماري انجام دهد: تنها کاري که بايد انجام مي داد، دادن دستورالعمل هاي مناسب به کامپيوترها بود. اما در عمل عکس آن اتفاق افتاد و به مرور زمان درخواست بيشتري براي حضور آماردان ها به وجود آمد. براي اين اتفاق هم چندين دليل وجود داشت.
يک دليل اين است که جمع آوري و ذخيره ي خودکار داده ها به طور روزافزون در حال گسترش است. در زندگي روزمره، هر زمان که از طريق کارت اعتباري خود خريدي انجام مي دهيد، جزئيات اطلاعات نقل و انتقال بانکي شما به صورت خودکار ذخيره مي شود. در علوم طبيعي، ابزارهاي ديجيتال خواص و ويژگي هاي فيزيکي و شيميايي را بدون دخالت بشر اندازه گيري و ثبت مي کند؛ در بيمارستان ها، دستگاه هاي الکترونيکي بيماران را به طور خودکار تحت نظر مي گيرند و مثال هايي از اين دست. يعني داده ها مثل بهمن بر سر ما مي ريزند که به خودي خود فرصت بسيار خوبي را در اختيارمان قرار مي دهد. اما براي بهره برداري از اين شرايط بايد مهارت هاي آماري لازم را به دست آورد.
دليل دوم اينکه زمينه هاي جديد که به مهارت هاي آماري نياز دارند پديدار مي شوند. بيوانفورماتيک و ژنتيک که بر پايه ي استنتاج آماري استوارند، داده هاي تجربي و مشاهده شده را از بند پيچيدگي بسيار زياد بدن انسان مي رهانند. صنايع سرمايه گذاري به عنوان صنايعي استوار بر پايه ي آماري معرفي مي شوند که از ابزارهاي آماري براي مدل کردن رفتار سهام و ديگر شاخص هاي قيمتي استفاده مي کنند.
دليل سوم اينکه يک نفر بايد دستورها را به کامپيوتر بدهد، اما ديگري بايد بگويد که اين دستور چه باشد و نتايج را تحليل کند. به اين معني که پيدا کردن ابزار مناسب و گذاشتن بقيه ي کار بر عهده ي کامپيوتر تمام کار نيست وبايد درک و تجربه ي آماري در کار باشد. شخص مبتدي بايد محدوديت ها را بشناسد و بداند که چه زماني به يک آماردان خبره مراجعه کند. اما متأسفانه هر هفته رسانه ها افرادي را نشان مي دهند که با تشخيص هاي غلط آماري خود در گيرند.
به اين دلايل و دلايل ديگر، آمار دوره اي طلايي را تجربه مي کند.
به اين ترتيب به پايان اين معرفي مختصر از آمار مي رسيم. بعضي از زمينه هاي فوق العاده گسترده ي آمار را ديديم: حقيقت اين است که آمار تقريباً در تمام گام هاي زندگي کاربرد دارد. درباره ي روش هاي آماري هم چيزهايي ديدم: ابزارهاي پيشرفته و فرآيندهايي که به کار مي برند. همچنين ديديم که آمار، نظامي پويا بوده و هنوز هم در حال رشد و گسترش است. علاوه بر اينها اميدوارم روشن شده باشد که آمار نوين که بر پايه هاي فلسفي عميقي شکل گرفته، هنر کشف حقايق است. آمار مدرن کمک مي کند تا رموز دنياي واقعي را درک کنيم. آمار نوين راز درک و فهم است.

پي‌نوشت‌ها:

1. cross- validation.
2. training or design sample.
3. validation sample.
4. computationally intensive
5. bootstrap resampling.

منبع مقاله :
هند، ديويد جي؛ (1391)، آمار، ترجمه ي بصير والي، تهران: انتشارات حکمت، چاپ اول