روش ها و مدل هاي آماري

نويسنده: ديويد هند
برگردان: بصير والي

اولين گام براي اينکه آماردان باشيد اين است که بدانيد چگونه با دست بسته ي ديگران بهترين بازي را ارائه دهيد.
جان توکي

مدل هاي آماري: چيدن سنگ بناها

يک مدل آماري توصيف يا بيان ساده اي از سيستم يا چيزي است که مي خواهيم مورد مطالعه قرار دهيم. يک مدل ساده ممکن است تنها يک جنبه از طبيعت را شامل شود:
اما در حالت کلي، مدل هاي آماري مي توانند داراي جزئيات زيادي باشند. مثلاً ممکن است از هزاران متغير که از طرق بسيار پيچيده با هم در ارتباطند تشکيل شده باشند. به عنوان مثال اقتصاددان هايي که جهت دهي تصميم گيري هاي بانک هاي مرکزي را به عهده دارند از چنين مدل هاي بزرگي استفاده مي کنند.
يکي از جنبه هاي اساسي در مدل ها، يافتن پاسخ اين پرسش ها است که آيا اين مدل ها با واقعيت ها سازگارند؟ آيا حقايق اساسي را به درستي نشان مي دهند؟ و آيا اين مدل ها در مجموع درستند يا نه؟ در واقع در اين مقاله قبلاً به اين جنبه نيز پرداخته شده، جايي که پرسيديم که مقدار پيشنهادي براي يک پارامتر خاص مقدار واقعي آن پارامتر است يا نه. اما بررسي جنبه هاي عميق تر ماجرا نشان مي دهد که هيچ مدل آماري يا غير آماري نمي تواند تمام روابط و اثرگذاري هاي دنياي واقعي را در نظر بگيرد. همين طرز نگاه است که باعث شده تا آماردان معروف جورج باکس ادعا کند: تمام مدل ها غلط هستند، با اين حال بعضي از آنها سودمند واقع مي شوند. ما به اين دليل مدل ها را پايه ريزي مي کنيم که: کمک کنند تا بفهميم، پيش بيني کنيم و در نهايت تصميم بگيريم. زماني که تشخيص داديم مدل ها در واقع بيانگر يک سري ساده سازي هاي ضروري براي پيچيدگي هاي فوق العاده زياد دنياي واقعي هستند، اگر آنها را ( مدل ها ) به درستي انتخاب کنيم، قادريم آنچه مي خواهيم به کمکشان انجام دهيم. اما اگر مدل ها به طور نامناسب انتخاب شوند، در فهم دچار مشکل مي شويم، پيش بيني ها غلط از آب در مي آيند و تصميم گيري ها به اشتباهات منجر مي شوند. بنابراين هدف کلي ساختن مدل هايي است که براي مقاصد ما به اندازه کافي خوب باشند.
مدل هاي آماري به سادگي به دو دسته تقسيم مي شوند، که اغلب مدل هاي مکانيکي (1) و مدل هاي تجربي (2) ناميده مي شوند. يک مدل مکانيکي بر پايه ي نظريات اساسي محکم شکل مي گيرد. نظرياتي که نشان مي دهند اشيا چگونه با هم در ارتباطند. مثلاً يک تئوري فيزيکي نشان مي دهد. چگونه سرعت افتادن اجسام در طول زمان افتادن زياد مي شود. يا تئوري ديگري نحوه ي گسترش داروها را در تمام بدن تشريح مي کند. در هر دو اين موارد، مدل ها بر پايه ي نظرياتي شکل گرفته اند. که نشان مي دهند اتفاقات واقعي چگونه رخ مي دهند. در واقع اين مدل ها بر پايه ي معادلات رياضي که اين نظريات را توصيف مي کنند. پايه ريزي مي شوند و داده هايي که براي ارزيابي مدل ها جمع آوري مي کنيم همان متغيرهايي هستند که در اين تئوري ها استفاده شده اند. مثل سرعت و زمان ( درباره ي جسم در حال افتادن ) و غلظت و زمان ( در مثال انتشار دارو ). بنابراين مدل هاي مکانيکي روش هاي مستقيم رياضي براي توصيف تئوري ها هستند.
در مقابل، مدل هاي تجربي، تلاش براي فراهم کردن بيان ساده و مناسبي از جنبه هاي مهم داده هاي مورد مطالعه است. مثلاً ممکن است هيچ تئوري که نشان دهنده ي افزايش سرعت افتادن جسمي با زمان باشد نداشته باشيم، فقط همين قدر مشاهده کنيم رابطه اي در اين ميان وجود دارد و بر اين اساس، حدس مي زنيم اين رابطه افزاينده باشد.
مدل هاي مکانيکي در علوم فيزيکي و شاخه هايي مثل مهندسي به طور گسترده استفاده مي شود. علوم اجتماعي و تربيتي بيشتر از مدل هاي تجربي استفاده مي کنند. لازم به ذکر است نقاط مشترک قابل ملاحظه اي در اين ميان وجود دارد: طبيعت مدل به چيزي که آن را مدل مي کنيم و اينکه چقدر آن را درک کرده ايم بستگي دارد. به طور خاص اقتصاد، به عنوان يکي از علوم اجتماعي، پر از مدل هاي مکانيکي است و بر پايه ي نظرياتي بنا شده که نشان مي دهند چگونه فاکتورهاي اجتماعي با هم در ارتباطند. در حالت کلي مي توان گفت در مراحل مقدماتي شناخت پديده ها، مدل هاي تجربي بيشتر مورد استفاده اند. نظر به اينکه در انبوه مطالعات به دنبال قواعد و الگوها هستيم. در مرحله ي بعد زماني که شناختمان گسترده تر شد، اهميت مدل هاي مکانيکي افزايش پيدا مي کند. در هر حال، همان طور که مدل هاي اجسام در حال افتادن نشان مي دهند، يک مدل خاص ابتدا به شکل يک مدل تجربي ساخته مي شود و سپس زماني که شناختمان از پديده بيشتر شد به يک مدل مکانيکي دست مي يابيم.
گاهي خوب است ميان استفاده هاي ممکن مختلف مدل ها تمايز قائل شويم. چنين مرزي مي تواند ميان اکتشاف (3) و تأييد (4) باشد. در مرحله ي اکتشاف در جست وجوي روابط و الگوها هستيم. اما در مرحله ي تأييد مايليم بدانيم که داده هاي مشاهده شده در عمل يک بيان پيشنهادي را تأييد مي کنند يا نه. بنابراين در يک مطالعه ي اکتشافي احتمالاً به دنبال متغيرهايي هستيم که رابطه ي تنگاتنگي با هم دارند. مثلاً وقتي يک متغير مقادير بزرگي به خود مي گيرد، متغير ديگر هم به همين ترتيب عمل مي کند يا جايي که مجموعه اي از متغيرها، مقادير مشابهي بگيرند. از طرف ديگر در مطالعات تأييدي، احتمالاً با استفاده از داده ها، پارامترهاي يک مدل آماري را تخمين مي زنيم و از آزمون هاي آماري بهره مي گيريم تا ببينيم آيا اين تخمين به قدر کافي با آنچه تئوري ها پيش بيني مي کنند مطابقت دارد يا نه. به دنبال بزرگ تر شدن مجموعه ي داده ها در سال هاي اخير، روش هاي آماري براي کاوش ميان داده نيز گسترش زيادي يافته اند. اين مطلب هم در مورد کاربردهاي علمي ( فيزيک ذرات بنيادي و نجوم ) و هم در مورد کاربردهاي تجاري ( پايگاه هاي داده شامل اطلاعات فروش فروشگاه هاي بزرگ، تماس هاي تلفني يا داده هاي کليک در اينترنت ) صدق مي کند.
مرز ديگر در مدل سازي آماري تمايز ميان توصيف (5) و پيشگويي (6) است. در توصيف داده ها، هدف خلاصه سازي داده ها به شکلي ساده است. به طور مثال اگر مجموعه ي داده ها شامل 10 متغير ( قد، وزن، زماني که طول مي کشد تا افراد به محل کار خود برسند و غيره ) براي هر يک از يک ميليون نفر افراد جمعيت باشد، براي شروع کار با اين مجموعه بايد اندازه ي آن را تا حدي کم کنيم تا قابل مديريت شود. مثلاً آن را بر حسب ميانگين و انحراف معيار هر متغير به علاوه ي معياري براي سنجش ميزان ارتباط متغيرها با هم خلاصه مي کنيم. بعد از آن مي توانيم اميدوار باشيم آنچه در حال وقوع است را درک کنيم، چرا که خواص کلي داده ها را به طور مناسبي خلاصه کرده ايم. چنين بيان هاي خلاصه اي خطرات مخصوص به خود را دارند. همان طور که از نامشان هم پيداست، کار آنها ساده سازي پيچيدگي هاي بسيار زياد کل مجموعه ي داده ها است، بنابراين بايد هميشه نسبت به امکان از قلم افتادن چيزي در اين توصيف خلاصه شده هوشيار باشيم. مثلاً ممکن است مدلي وجود دو گروه ژنتيکي مختلف را در جمعيت در نظر نگيرد، اما يک مدل دقيق تر اين مسئله را مد نظر قرار دهد.
در پيشگويي، هدف استفاده از بعضي متغيرها جهت پيشگيري مقدار متغيرهاي ديگر است. براي مثال، فرض کنيد مجموعه اي از داده ها را در اختيار داريم که حاوي جزئيات رژيم غذايي دوران کودکي تعدادي از افراد و اندازه ي قدشان پس از بلوغ است. با استفاده از اين داده ها مي توان مدلي ساخت که قد افراد را به رژيم غذايي دوران کودکيشان مربوط کند، سپس به کمک اين مدل اندازه ي قد کودکاني را که از يک رژيم خاص پيروي مي کنند پيشگويي مي کنيم. به يکي از جنبه هاي اساسي داده هاي مورد نياز براي انجام اين کار توجه کنيد: هم به مقدار متغيرهاي پيشگو و هم مقدار متغيرهاي پيش بيني شده از نمونه موردنظر نياز داريم. به نظر مي رسد همان طور که خواهيم ديد، اين يکي از تفاوت هاي مهم ميان مدل هاي پيشگو و توصيف گر باشد.
يادآوري مي شود. اين وجه تمايز هميشه هم واضح نيست. مثلاً ممکن است فقط بخواهيم رابطه ي ميان رژيم غذايي دوران کودکي و اندازه ي قد پس از بلوغ را بدانيم بدون اينکه تصميمي براي پيشگويي مقدار يکي از روي ديگري داشته باشيم.
يکي ديگر از انواع مهم پيشگويي، پيش بيني (7) است. در اينجا از داده هاي گذشته براي ساختن مدلي استفاده مي کنيم که مي تواند به عنوان پايه اي براي پيشگويي مقادير محتمل تحت بررسي به کار رود. مثلاً، الگوي ماهيانه ي فروش برنامه هاي تلويزيوني در پنج سال گذشته را بررسي کرده و از طريق برون يابي، روند فروش و تغييرات فصلي آن را به دست مي آوريم تا فروش محتمل 12 ماه آينده را پيش بيني کنيم.
مدل هاي آماري کاربردهاي ديگري هم دارند. پارامترهاي يک توزيع را تخمين مي زنيم. اين کار را با تعريف يک معيار ناهمخواني يا اختلاف ميان داده هاي مشاهده شده و توزيع تئوري انجام مي دهيم. سپس مقاديري از پارامترها را انتخاب مي کنيم که اين معيار را به حداقل مي رسانند. يک معيار مرسوم ناهمخواني از مفهوم درست نمايي به دست مي آيد، بدين ترتيب که وقتي پارامترها مقادير مختلفي دارند با چه احتمالي، داده ها مقادير داده هاي مشاهده شده را به خود مي گيرند. حال با توجه به اينکه توزيع ها صرفاً شکل هاي ساده اي از مدل ها هستند، وقتي مدل هاي با جزئيات بالا به کار مي بريم هم دقيقاً قواعد مشابهي صادق است ( مثل آنهايي که در زير مي آيند ). به هر حال با افزودن بر جزئيات مدل، پديده هاي پيچيده تري را مي توان بررسي کرد.
براي روشن شدن مطلب اين مثال ساده را در نظر بگيريد. فرض کنيد مي خواهيم مدلي بسازيم که به کمک آن درآمد ساليانه ي فارغ التحصيلان دانشگاه را بر مبناي داده هايي مثل دانشکده ي محل تحصيل، رشته تحصيلي، نمرات تحصيلي و فاکتورهاي ديگر مثل سن، جنسيت، محل زندگي و اطلاعاتي از اين قبيل پيش بيني کنيم. فرض کنيد 100 نفر از فارغ التحصيلان دانشگاهي را انتخاب کرده و داده هاي آنها را جمع آوري مي کنيم. در حالت کلي اگر سعي کنيم پيشگويي ها بر اساس تعداد کمي از متغيرها ( مثلاً فقط سن ) باشد، در اين صورت پيشگويي چندان دقيقي به دست نخواهيم آورد. مثلاً، سن به اندازه ي کافي اطلاعات در خود ندارد که بتوانيم به کمک آن با دقت زياد درآمد ماهيانه ي کسي را تعيين کنيم. براي بالا بردن دقت پيشگويي بايد تعداد متغيرهاي پيشگو را افزايش دهيم (مثلاً از سن، رشته ي تحصيلي و نمرات آزمون ها در کنار هم براي پيش بيني ميزان درآمد ساليانه استفاده کنيم ). اما نکته ي جالب اينجاست که اگر از تعداد زيادي متغيرهاي پيشگو استفاده کنيم دقت پيشگويي ها براي کل جمعيت کاهش مي يابد. يعني با اينکه از اطلاعات بيشتري بهره مي گيريم اما مدل چندان مناسب نيست.
اين مطلب چندان منطقي به نظر نمي رسد. چگونه ممکن است اضافه کردن اطلاعات منجر به پيشگويي نامناسب تري شود.
اين سؤال پاسخ ظريفي دارد که به نام هاي گوناگوني از جمله بيش برازش (8) معروف است. براي درک اين موضوع يک قدم به عقب بر مي گرديم ببينيم هدف اصلي مان چه بود؟ هدف يافتن بهترين پيشگويي ممکن براي نمونه ي 100 تايي از فارغ التحصيلان نيست: چرا که مقدار درآمد ساليانه ي اين وعده را مي دانيم. بلکه هدف، پيدا کردن بهترين پيشگويي ممکن براي ديگر افراد است ( ديگر فارغ التحصيلان دانشگاهي ). يعني مي خواهيم از اين نمونه به يک قاعده ي کلي برسيم. حال با اضافه کردن هر چه بيشتر تعداد متغيرهاي پيشگو در واقع اطلاعاتي را اضافه مي کنيم که باعث مي شوند تا به پيشگويي هر چه دقيق تري از درآمد افرادي برسيم که در نمونه ي انتخابي حضور دارند. اما نمونه به هر حال فقط يک نمونه است: اين نمونه کاملاً معرف ميزان درآمد کل افراد نيست. با اضافه کردن هر چه بيشتر متغيرهاي پيشگو، کم کم به پيش بيني جنبه هايي مي رسيم که فقط خاص نمونه است و در حالت کلي جزء ويژگي هاي کل جمعيت نيستند.
اين پديده در مورد تمام مدل سازي هاي آماري صادق است: مدل ها مي توانند بسيار پيچيده باشند، طوري که داده هاي ديده شده را به خوبي تأييد کنند، اما با اين حال در مورد نمونه هاي ديگري که از توزيع مشابه به دست آمده اند کاربردي نداشته باشند. بدين ترتيب يافتن استراتژي هايي براي پيدا کردن مدل با پيچيدگي مناسب ( نه خيلي ساده و نه خيلي پيچيده ) از اهميت ويژه اي برخوردار است: اگر مدل بسيار ساده باشد خطر از دست دادن قابليت هاي پيشگويي را پيش رو داريم و مدل بسيار پيچيده هم با خطر بيش برازش رو به رو است. اين قاعده، زير بناي اصل تيغه ي اوکام (9) است. اين قاعده بيان مي دارد که - مدل ها نبايد بيشتر از آنچه که بايد پيچيده باشند ( که به ويليام اوکام در قرن 14 ميلادي نسبت داده مي شود ).
مسئله ي بيش برازندگي به خصوص در آمار نوين از اهميت ويژه اي برخوردار است. قبل از ظهور کامپيوترها و پيش از فراگير شدن کاربرد آنها براي برازش مدل هاي پيچيده با تعداد بسيار زياد پارامتر، خطر کمتري براي به وجود آمدن اين مسئله وجود داشت.

روش هاي آماري: آمار در عمل

هدف اصلي در اين بخش ارائه ي خلاصه اي از چند دسته از مهم ترين روش هاي آماري، چگونگي ارتباط اين روش ها با هم و معرفي انواع مسائلي است که مي توان به کمک آنها حل نمود.
اجازه دهيد مطلب را اين طور شروع کنم که، اغلب پيش مي آيد نيازمنديم بدانيم يک جفت متغير، چقدر با هم ارتباط دارند. آيا خطر حمله ي قلبي با افزايش شاخص وزن افزايش مي يابد؟ آيا پديده ي گرمايش جهاني از تبعات فعاليت هاي بشري است؟ آيا با افزايش نرخ بيکاري، نرخ تورم کم مي شود؟ آيا با بهبودي شاخص هاي ايمني خودرو ميزان فروش آن افزايش مي يابد؟ و سؤالاتي از اين دست. اگر دو متغير به نحوي با هم در ارتباط باشند که افزايش مقدار يکي منجر به افزايش مقداري ديگري شود مي گوييم با هم، همبستگي مثبت (10) دارند. در مقابل اگر مقادير بزرگ تر يکي منجر به مقادير کوچک تر ديگري شود اين دو متغير داراي همبستگي منفي هستند. قد و وزن در افراد با هم همبسته ي مثبتند: به اين مني که افراد با قد بلندتر معمولاً سنگين ترند. توجه شود که اين رابطه هميشه برقرار نيست. چرا که افراد با قد بلند و وزن کم ( بسيار لاغر ) و همين طور کوتاه قامت و سنگين وزن ( چاق ) نيز وجود دارند. اما در مجموع، به طور ميانگين، بلند قدي با وزن بيشتر در ارتباط است.
نکته ي ديگري که از اين مثال به دست مي آيد اين است که همبسته بودن دو متغير به اين معني نيست که بروز يکي موجب بروز ديگري شود. مثلاً رژيم چاقي منجر به افزايش قد و رژيم لاغري منجر به کوتاهي قامت نمي شود. در واقع همين مطلب، يعني سردرگمي ميان همبستگي و عليت، منشأ بسياري از برداشت هاي اشتباه در طول زمان بوده است. نمونه اي تصادفي از کودکان سنين 5 تا 16 سال همبستگي مثبت مشخصي ميان توانايي خواندن و انجام محاسبات رياضي را نشان مي دهد. اما هيچ کدام موجب ديگري نمي شوند. ولي در مقابل مي توان گفت سن اين کودکان موجب ديگري نمي شوند. ولي در مقابل مي توان گفت سن اين کودکان روي توانايي هاي فوق الذکر مؤثر است. به اين معني که کودکان با سن بيشتر هم در خواندن و هم در انجام محاسبات توانايي بيشتري دارند.
يک عدد ساده به عنوان ضريب همبستگي، مي تواند ميزان شدت اين همبستگي را نشان دهد. مشابه چيزي که در مورد ميانگين و پراکندگي ديديم، در اينجا هم روش هاي گوناگوني براي اندازه گيري ميزان همبستگي وجود دارد. با اين حال ضرايب همبستگي طوري نرماليزه مي شوند که در بازه ي 1 تا 1+ قرار گيرند، در اين صورت عدد 0 به معني عدم همبستگي، 1+ به معني همبستگي کامل مثبت و 1 به معني همبستگي کامل منفي است. همبستگي کامل ميان دو متغير x و y به اين معني است که اگر x را بدانيم y را نيز به طور دقيق مي دانيم ( با توجه به x ).
همبستگي يک رابطه ي متقارن است: اگر قد با وزن همبسته باشد، وزن نيز با قد همبسته است و ميزان اين همبستگي نيز صرف نظر از اينکه چگونه به مسئله نگاه کنيم يکسان است. در مقابل گه گاه به روابط نامتقارن ميان متغيرها علاقه منديم. مثلاً مي خواهيم بدانيم به طور متوسط، اختلاف قدي به ميزان 10 سانتي متر با چه ميزان اختلاف وزن در ارتباط است. اين دسته از سؤالات به کمک تکنيک آماري آناليز رگرسيون (11) پاسخ داده شده اند. مدل رگرسيون نشان مي دهد به طور متوسط مقدار y به ازاي هر مقدار x چقدر است. در مثال فوق مدل رگرسيون وزن بر روي قد، ميانگين وزن افراد را به ازاي هر مقدار قد آن ها نشان مي دهد. اين موضوع در شکل 5 نشان داده شده است. در اين شکل، وزن در محور عمودي و قد در محور افقي به نمايش در آمده اند. هر نقطه ي مشکي رنگ، زوج ( قد، وزن ) را براي هر يک از اعضا نمونه نشان مي دهد. با توجه به نمودار پيداست که تمام مقادير ممکن براي قد مورد توجه قرار نگرفته اند. مثلاً هيچ داده اي براي فردي با قد دقيقاً 6 فوت ( 180 سانتي متر) وجود ندارد. يکي از راه هاي غلبه بر اين مشکل و ارائه ي مدلي که براي هر مقدار قد، متوسطي براي وزن به دست مي دهد، اين است که فرض کنيم رابطه اي ساده ميان قد و متوسط وزن افراد وجود دارد. يکي از ساده ترين روابطي که مي توان تصور کرد، رابطه ي خطي است. مثال چنين خطي در شکل نشان داده شده است. به کمک اين خط براي هر ميزان قد، متوسطي براي وزن افراد مي يابيم. به طور خاص، مي توان متوسط وزن افرادي که قدشان 6 فوت است را نيز به دست آورد ( که قبلاً نمي شد ).
چند نکته درباره ي اين روش وجود دارد که بايد به آن توجه شود.
**توضيح تصوير:

1. يافتن خطي مناسب براي داده ها

نخست اينکه اين خط براي هر مقدار قد، متوسط وزن را در اختيارمان قرار مي دهد که معقول به نظر مي رسد، چرا که در دنياي واقعي، افراد با قد يکسان ممکن است از لحاظ وزن با هم متفاوت باشند.
دومين نکته اينکه بايد روشي پيدا کنيم تا خط فوق الذکر را به کمک آن به دقت بيابيم. در شکل، خطي را نشان داديم، اما چگونه به اين خط رسيده ايم؟ چطور خط ديگري به دست نيامده؟ مي دانيم خطوط توسط دو پارامتر عرض از مبدأ ( در اين مثال مقدار وزني که در آن، خط با محور عمودي که وزن است برخورد مي کند ) و شيب به طور يکتا مشخص مي شوند. بنابراين بايد روشي براي انتخاب يا تخمين اين دو پارامتر پيدا کنيم. در تخمين پارامترها مقاديري از متغيرها را در نظر مي گيريم که معيار ناهمخواني ميان مدل و داده هاي بدست آمده را حداقل مي کنند. براي هر جفت مقدار به خصوص ( قد، وزن ) در داده ها، يکي از معيارهاي ناهمخواني مي تواند مربع اختلاف ( ياد آوري مي شود که مربع سازي همه چيز را مثبت مي کند ) ميان وزن مشاهده شده و ميزان پيش بيني شده براي وزن در هر مقدار به خصوص قد باشد. معيار کلي ناهمخواني در اين شرايط مجموع مربعات اختلاف هاي ميان وزن هاي پيش بيني شده و وزن هاي مشاهده شده ( در عمل ) براي مقادير ممکن قد در مجموعه ي داده ها است. سپس با در نظر گرفتن مقاديري که مربعات اختلاف ها را حداقل مي کنند، مقدار عرض از مبدأ و شيب را تخمين مي زنيم. به اين جهت که اين روش ( مجموع مربعات ) خطاهاي ميان مقادير پيش بيني شده و مشاهده شده براي وزن را حداقل مي کند، اين خط رگرسيون کمترين مربعات، بهترين پيش بيني را براي ميانگين وزن در هر مقدار دلخواه قد مي دهد.
نکته ي سوم اينکه امکان دارد فرض رابطه ي خطي فوق خيلي دلچسب و داراي توجيه قوي نباشد. چرا به جاي انتخاب يک خط راست از يک منحني استفاده نکنيم. بدون اينکه خيلي وارد جزئيات شوم به اين نکته اشاره مي کنم که، مي توان منحني هايي از درجه هاي مختلف ارائه کرد که نسبت به رابطه ي خطي معرفي شده پيچيده تر باشند، مثلاً شيب منحني براي مقادير کمِ قد نسبت به مقادير زياد، بيشتر باشد. براي انجام اين کار پارامترهاي ديگري علاوه بر عرض از مبدأ و شيب تعريف مي کنيم که البته مدل را پيچيده تر مي کنند.
در مثال رگرسيون قد / وزن در جست و جوي مقداري براي وزن، فقط بر اساس يک متغير پيشگو ( قد ) بوديم. مي توان براي رسيدن به پيشگويي هاي دقيق تر متغيرهاي پيشگويي ديگري را هم در نظر گرفت. مثلاً مردان و زنان از لحاظ جسمي با هم متفاوتند، به نحوي که بخشي از تفاوت مقادير وزن براي يک قد به خصوص، مربوط به جنسيت افراد است. بنابراين مي توان جنسيت را هم به عنوان يک متغير پيشگو در نظر گرفت. مي توان اين روند را با در نظر گرفتن متغيرهاي ديگر که احساس مي کنيم با وزن افراد در ارتباط است ادامه داد. البته بايد مواظب مسئله ي بيش برازش نيز باشيم، مخصوصاً اگر تعداد اعضاي نمونه که مطالعات روي آنها صورت مي گيرد، خيلي زياد نباشند. بنابراين امکان دارد تمام متغيرهايي که مي دانيم با وزن در ارتباط هستند را در نظر نگرفته و تنها از بخشي از آنها استفاده کنيم.
در حالت کلي دلايل ديگري نيز براي در نظر گرفتن تنها بخشي از متغيرهاي پيشگوي ممکن وجود دارد. مثلاً ممکن است استفاده ي بعضي از اين متغيرها باعث صرف هزينه يا زمان زيادي شود که اتفاق خوشايندي نيست و به همين دليل قيد آنها را مي زنيم. به اين دليل و دلايل مشابه اقتصاددان ها روش هايي را براي پيدا کردن زير مجموعه هاي مناسب از متغيرها ارائه داده اند. منظور از متغيرهاي مناسب آنهايي هستند که بهترين پيشگويي را به دست مي دهند.
مدل هاي رگرسيون يک متغير پاسخ يا خروجي را با يک يا چند متغير پيشگو مرتبط مي کنند. اين يکي از رايج ترين انواع مسائل است. مدل هاي آماري ديگري نيز براي کار در اين شرايط که به نوعي با رگرسيون مستقيم متفاوت است گسترش يافته اند. مثلاً در آناليز بقاء (12) مقدار متغير پاسخ فقط براي بعضي از موارد معلوم است و در مورد مقدار آن براي ديگر موارد فقط مي دانيم از يک مقدار خاص بيشتر است. اين مطلب مخصوصاً زماني که متغير پاسخ، مدت زمان چيزي است، بسيار مرسوم تر است ( البته محدود به اين شرايط نيست ). مثلاً مي خواهيم بدانيم يک بيمار چه مدت زماني مي تواند زنده بماند يا يک قطعه در يک سيستم چه مدت زماني که مي تواند کار کند بدون اينکه احتياج به تعويض داشته باشد. اگر مثال او را در نظر بگيريم، مجموعه ي داده ها نشان مي دهند که يکي از بيماران 5 ماه، ديگري تنها 2 ماه و 3 بيمار ديگر حدود 11 ماه زندگي کرده اند و براي بقيه هم به همين ترتيب، به هر حال به دلايل عملي نمي توانيم بررسي ها را تا زمان از دنيا رفتن آخرين بيمار تحت مطالعه که ممکن است سال ها به طول بيانجامد ادامه دهيم و به همين دليل جايي در اين ميان مطالعه را پايان مي دهيم. از اين رو درباره ي بعضي از بيماران فقط مي دانيم بيشتر از فاصله زماني شروع تا پايان آزمايش زندگي کرده اند. چنين داده هايي را داده هاي سانسور شده مي ناميم. براي اينکه دريابيد اين داده ها چه پيچيدگي هايي به بار مي آورند، فرض کنيد مي خواهيم ميانگين زمان زنده ماندن بيماران تحت بررسي را محاسبه کنيم. براي محاسبه ميانگين بايد مدت زمان هاي مشاهده شده را با هم جمع کرده و بر تعداد کل تقسيم کنيم. اما در واقع زماني براي داده هاي سانسور شده نداريم و نمي توانيم آنها را در محاسبه شرکت دهيم. اما اگر اين داده ها را در نظر نگيريم هم دقيقاً بزرگ ترين مقادير را از دست داده ايم و بدين ترتيب تخمين ميانگين داراي اريبي به پايين مي شود. از طرفي اگر اين داده ها را با توجه به زمان مطالعه در ميانگين مشارکت دهيم، نتيجه به زماني که تصميم مي گيريم مطالعه را خاتمه دهيم وابسته مي شود. از آنجا که اين شرايط چندان مطلوب نيستند، روش هاي مناسبي به وجود آمده اند که مي توان به کمک آنها با داده هاي سانسور شده کار کرد.
يکي ديگر از مسائلي که در آن يک متغير خروجي ساده ي مرتبط با يک يا چند متغير پيشگو داريم، آناليز واريانس است. اين آناليز به طور گسترده در کشاورزي، روان شناسي، کنترل کيفيت در صنايع، توليد کارخانجات و ديگر زمينه ها استفاده مي شود. در آناليز واريانس، متغيرهاي پيشگو، صريحند، به اين معني که هر کدام تعداد کمي مقدار به خود مي گيرند. مثلاً در توليد يک ماده ي شيميايي ممکن است فقط دما، فشار مدت زمان را کنترل کنيم و براي هر کدام هم 3 درجه داشته باشيم: کم، متوسط و زياد. با اين شرايط زماني که در مورد طراحي تجربي آشنا شديم. آناليز واريانس معمولاً براي آناليز و تحليل آزمايش ها به کار مي رود. اگر چه اين آناليز معمولاً قدري متفاوت با آناليز رگرسيون معرفي مي شود، اما مي توان آن را به عنوان آناليز رگرسيون مجدداً فرمول بندي کرد در واقع هر دو آنها موارد خاصي از دسته ي بزرگ تري از مدل ها تحت عنوان مدلي خطي (13) هستند.
خود مدل هاي خطي به چندين روش گسترش يافته اند. يکي از اين روش ها مدل هاي خطي تعميم يافته است. در آناليزهاي رگرسيون و واريانس، هدف يافتن ميانگين پاسخ در هر مقدارمتغير يا متغيرهاي پيشگو است. مدل خطي تعميم يافته در واقع اجازه مي دهد تا ديگر پارامترهاي توزيعِ پاسخ و نه تنها ميانگين آن، هدف پيشگويي قرار بگيرند.
با اين حال يکي ديگر از ساختارهاي خروجي/ پيشگو زماني به وجود مي آيد که خود پاسخ صريح باشد. مثلاً پاسخ ليستي از بيماري هاي پزشکي و پيشگوها ترکيبي از علايم بيماري ( که بر حسب وجود يا نبودشان کد شده اند ) و نتايج آزمايش هاي پزشکي باشند. اين روش ها با نام کلي رده بندي راهنماييده (14) قرار مي گيرند. مهم ترين موارد خاص اين مدل ها زماني ديده مي شوند که متغير پاسخ، دو دويي بوده و فقط دو مقدار مثل مقادير زير به خود بگيرد: مريض / سالم، ريسک خوب / ريسک بد، سودده/ غيره سودده، تلفظ بله/ تلفظ خير ( در تشخيص صدا )، اثر انگشت مجاز/ اثر انگشت غير مجاز ( در سيستم هاي تشخيص زيست سنجي )، نقل و انتقال قانوني / غير قانوني ( کلاهبرداري ) و... در هر کدام از اين موارد هدف ساختن مدلي است که به کمک آن محتمل ترين دسته هاي موارد جديد با کمک اطلاعات متغيرهاي پيشگو تعيين مي شود.
تعداد زيادي از ابزارهاي آماري براي چنين شرايطي طراحي شده اند. در اين ميان اولين روش، تحليل تشخيصي خطي (15) بود که سال 1930 ارائه شد اما هنوز هم به طور گسترده، هم به صورت پايه اي آن و هم در شکل هاي پيشرفته تر مورد استفاده قرار مي گيرد. يکي ديگر از اين روش ها که در بعضي زمينه ها مثل پزشکي و مديريت مشتري بسيار پر کاربرد است، تحليل تشخيصي استدلالي (16) ( منطقي ) است که يکي از گونه هاي رگرسيون استدلالي که خود يکي از انواع مدل هاي خطي تعميم يافته است مي باشد. بنابراين مي بينيم تا چه حد در ميان انواع ابزارها ارتباط وجود دارد. در واقع، رگرسيون استدلالي مي تواند به عنوان پايه اي ترين نوع شبکه عصبي (17) در نظر گرفته شود. شبکه عصبي به اين نام معرفي شد به اين علت که در ابتداي امر به عنوان مدلي براي معرفي طرز کار مغز پيشنهاد شد. با اين حال امروز، صرف نظر از اينکه آيا مدل خوبي براي سيستم هاي طبيعي هستند يا نه، کار در اين زمينه به طور عمده بر روي ويژگي هاي آماري مثل سيستم هاي پيشگو متمرکز شده است.
مدل هاي ديگر براي رده بندي راهنماييده شامل دسته کننده هاي درختي (18) و روش نزديک ترين همسايه (19) هستند. يک مدل درختي متغيرها را به محدوده هايي مي شکند و نقاط جديد را بر مبناي ترکيب محدوده هايي که در آن قرار مي گيرند دسته بندي مي کند. مثلاً، امکان دارد آناليز داده نشان دهد افراد بالاي 50 سال که از سبک زندگي راکد و بي تحرکي برخورده اند و شاخص وزن بدن بيش از 25 دارند در خطر ابتلا به بيماري هاي قلبي اند. چنين مدل هايي مي توانند به عنوان ساختارهاي درختي معرفي شوند. در روش نزديک ترين همسايگي، در مجموعه ي داده ها، معدود چيزهايي که بيشترين شباهت ( يا نزديکي ) را به چيزهاي جديدي که بايد دسته بندي شوند دارند، مي يابيم. در اينجا شباهت را بر حسب متغيرهاي پيشگو تعريف مي کنيم. سپس به سادگي شيء يا موضوع جديد، در ميان موضوعاتي که بيشترين شباهت را به هم دارند، به کلاس اکثريت تعلق مي گيرد.
به اين دليل مي گوييم دسته بندي راهنماييده که بايد شخصي ( ناظر ) بر چسب گذاري دسته بندي ها را براي يک نمونه از داده ها فراهم کند. برچسب هايي که با توجه به آنها بتوان قوانين دسته بندي را براي اعمال به موضوعات و موارد جديد ساخت. در ديگر مسائل دسته بندي، برچسبي براي دسته ها وجود ندارد و هدف تقسيم موضوعات و اشياء به دسته هاي طبيعي و دسته بندي مناسب ديگر است. مي توان گفت، به نوعي هدف تعريف کلاس هاست. به مثال زير توجه کنيد: نمونه اي از بيماران را در اختيار داريم که براي هر کدام جزئيات علايم پزشکي و نتايج آزمايشاتشان را مي دانيم. اين گمان وجود دارد که انواع مشخصي از بيماري ها در اين نمونه وجود داشته باشند. هدف اين است که ببينيم آيا بيماران با توجه به علايم و نتايج آزمايش هاشان گروه هاي مشخص و مجزا تشکيل مي دهند يا نه. ابزارهاي آماري که چنين گروه هايي را جست وجو مي کنند آناليز خوشه اي (20) ناميده مي شوند. اين روش ها براي تشخيص ميان افسردگي تک قطبي و دو قطبي و انواع ديگر زمينه ها مثل بازاريابي و مديريت ارزش مشتري کاربرد دارند ( که هدفشان تعيين وجود يا عدم وجود انواع مختلفي از مشتري هاست ).
در آناليز خوشه متغير پاسخ يا خروجي نداريم. در عوض هدف توصيف داده ها به يک روش مناسب است. ابزارهاي آماري ديگر نيز اهداف مشابهي دارند هر چند شيوه ي توصيفي که جست وجو مي کنند کاملاً متفاوت است. براي مثال يک مدل گرافيکي، بيان ساده اي از رابطه ي ميان تعداد احتمالاً زيادي از متغيرهاست. فرضي که در اينجا وجود دارد اين است که رابطه ي ميان بسياري از متغيرها با هم، حاصل رابطه ي ميانجي آنها با ديگر متغيرهاست. نمونه ي ساده اي از آن را در بالا ديديم: همبستگي مثبت ميان توانايي خواندن و توانايي محاسبات در کودکان نتيجه ي رابطه ميان هر کدام از اين متغيرها و سن آن هاست.
چنين مدل هايي را مي توان تعميم داد، با اين فرض که بعضي از روابط، نتيجه ي متغيرهاي نهفته ي اندازه گيري نشده اي است که با بعضي از متغيرهاي تحت مطالعه رابطه دارد. مثلاً مي بينيم قيمت سهام شرکت هاي خاصي در بازار بورس با هم کاهش يا افزايش مي يابند: در اين شرايط مي توان به وجود متغير بررسي نشده اي ( مثلاً يک جنبه ي اقتصادي ) که با هر کدام از قيمت ها در ارتباط است و بنابراين موجب همبستگي آنها نيز مي شود پي برد: وقتي اين متغير زياد مي شود قيمت هاي مرتبط با آن هم زياد مي شوند. چنين ايده اي زير بناي مدل هاي آناليز عوامل (21) است: متغير پنهان معمولاً عالم پنهان ناميده مي شود. اين ايده همچنين زير بناي مدل هاي پنهان مارکوف است، که در آن دنباله اي از متغيرهاي مشاهده شده بر اساس حالات مخفي و پوشيده ي يک سيستم بيان شده اند. مثلاً بيماران از لحاظ کيفيت زندگي در نوسان هستند، گاهي اوقات بيماريشان عود مي کند و گاهي موقتاً بهبود مي يابند. چنين تسلسلي را مي توان با تغيير حالت هاي پايه مدل کرد.
روش هاي کلاس بندي به نام مسائلي که براي حلشان طراحي شدند. و در مقابل روش هاي ديگر به نام طبيعت داده هايي که بر رويشان کار مي کردند، نامگذاري شدند. براي مثال روش هاي آناليز سري هاي زماني بر روي سري هاي زماني کار مي کنند: بررسي مکرر يک يا چند متغير در يک سلسله ي زماني. چنين ساختارهايي از داده ها در همه جا موجودند، در اقتصاد ( مثلاً اندازه گيري تورم، GDP، و بيکاري ) مهندسي، پزشکي ( بخش مراقبت هاي ويژه ) و تعداد بيشماري از زمينه هاي ديگر. در آناليز سري هاي زماني اهداف ممکن چيزي شبيه به موارد زيرند: درک آن، تجزيه به اجزاء کليدي ( روند، فصلي بودن )، درک اينکه چه زماني رفتار سيستم تغيير مي کند، تشخيص موارد غير عادي ( مثل پيشگويي زلزله )، پيش بيني مقادير محتمل در آينده يا بسياري موارد مشابه ديگر. گونه هاي بسياري از روش ها براي تحليل چنين داده هايي توسعه يافته اند.

** توضيح تصوير:

2. ماتريس نمودار پراکندگي، زمان را ( بر حسب ثانيه ) براي مسابقات دوي سرعت 100 و 400 متر و فاصله ( بر حسب متر ) را براي پرتاب وزنه و ديسک براي شرکت کنندگان در رقابت هاي رشته ي ورزشي ده گانه ي المپيک 1988 نشان مي دهد. هر مربع رابطه ي ميان دو متغير از چهار متغير را نمايش ميدهد. همبستگي آشکار ميان امتيازات در دو رشته ي پرتاب به وضوح به چشم مي خورد.

نمودارهاي آماري

يکي از ابزارهاي آماري به قدري اهميت دارد که سزاوار است به طور ويژه به آن بپردازيم. اين ابزارها نمودارها هستند. چشم بشر طي سال ها تکامل به شکلي درآمده که قادر است ساختارها و الگوها را با سيگنال هايي که به آن مي رسد دريابد. آماردان ها از اين موضوع استفاده هاي زيادي مي کنند و داده ها را از طريق انواع بسيار زيادي از نمودارها نمايش مي دهند. وقتي داده ها به خوبي نمايش داده شوند روابط ميان متغيرها و وضعيت و ترکيب بندي داده ها آشکار مي شوند. از اين ابزارها هم در تحليل داده ها براي کمک به فهم آنچه در جريان است ( توزيع درآمد سالانه ي بازيکنان بيسبال را در شکل 1 به خاطر بياوريد )، و هم براي به اشتراک گذاشتن يافته ها با ديگران استفاده مي شود. چند مثال در شکل هاي 6 تا 8 آمده اند.

نتيجه گيري

در اين مقاله مرور سريعي بر تعدادي از ابزارهاي آماري مهم انجام داديم، اما تعداد بسيار زياد ديگري از اين ابزارها وجود دارند که درباره ي آنها صحبتي به ميان نيامد. مدل هاي متفاوتي براي انواع مختلفي از مسائل و داده ها طراحي شده اند. اين در حالي است که تعداد بي شماري از چنين مسائل و داده هايي وجود دارند. لازم به ذکر است که مدل ها، موجودات مستقلي نيستند. حقيقت اين است که مدل هاي مختلف به روش هاي مختلف با هم در ارتباطند، ممکن است اين روش ها، روش هاي تعميم يافته باشند يا امکان دارد موارد خاصي از ديگر مدل ها بوده و يا با انواع ديگر داده ها تطبيق داده شده باشند، اما در هر حال تمامشان در شبکه ي قدرتمندي از روابط تعبيه شده اند.

پي‌نوشت‌ها:

1. mechanistic models
2. empirical models.
3. exploration.
4. confirmation.
5. description.
6. prediction.
7. forecasting.
8. overfitting.
9. Occam"s razar
10. positively correlated.
11. regression analysis.
12. survival analysis.
13. linear model.
14. supervised classification.
15. linear discriminant analysis.
16. logistic discriminant analysis.
17. neural network.
18. tree classifiers.
19. nearest neighbour.
20. cluster analysis.
21. factor analysis.