نويسنده: ديويد هند
برگردان: بصير والي
برگردان: بصير والي
آمار فلسفه ي کاربردي علم است.
اي. پي. ديويد
آمار دو نقش خلاصه سازي و استنتاج از داده ها را به طور همزمان ايفا مي کند.
در اين مقاله با استفاده از جنبه هاي احتمالاتي نگاهي به مفاهيم برآورد و استنباط مي اندازيم. در حقيقت در جست وجوي روش هايي براي تعيين مقادير و اظهار نظر درباره ي کميت هايي هستيم که در حالت عادي نمي توان آنها را اندازه گيري کرد. به مثال هاي زير توجه:
مثال 1: براي تعيين سرعت نور، از يک سري فرآيندهاي اندازه گيري استفاده مي کنيم. اما مي دانيم که هيچ فرآيند اندازه گيري دقيقي وجود ندارد و اين احتمال وجود دارد که اگر اين اندازه گيري ها را چندين بار تکرار کنيم، نتايج حاصل اندکي با هم تفاوت داشته باشند. به اين معني که اگر اندازه گيري مثلاً 100 بار تکرار شود، احتمالاً اين 100 عدد اندکي با هم تفاوت خواهند داشت، در حالي که مي خواهيم با استفاده از اين اندازه گيري هاي نمونه به مقدار واقعي سرعت نور دست پيدا کنيم.
مثال 2: در يک آزمايش تحقيقاتي دو دسته از بيماران به تصادف انتخاب مي کنيم. در يک گروه نوع جديدي از دارو و در گروه ديگر از داروهاي رايج براي درمان بهره مي گيريم. هدف از آزمايش اين است که با توجه به نتايج مطالعات اثر داروها بر اين دو گروه درباره ي آثار نسبي داروي جديد نتيجه گيري کنيم. يعني مي خواهيم بدانيم اگر اين داروي جديد در اختيار عموم قرار بگيرد چه نتايجي به بار خواهد آورد. ضمناً به دنبال معياري براي سنجش اعتبار اين تخمين ها نيز مي گرديم.
مثال 3: بديهي است زماني که در مورد تعيين ميزان نرخ بيکاري افراد در شهري مثل لندن تحقيق مي کنيم بررسي وضعيت اشتغال تمام افراد امکان پذير نيست. بنابراين دسته اي از افراد را به عنوان نمونه ي مورد مطالعه انتخاب مي کنيم، با اين هدف که بتوان با استفاده از نتيجه ي اين بررسي ها محدود در مورد وضعيت بيکاري در کل شهر اظهارنظر کرد.
مثال 4: توزيع برنولي را که در آن متغير تصادفي مي توانست دو مقدار 0. 1 داشته باشد ديديم، پارامتر اين توزيع، p بود که احتمال وقوع 1 را نشان مي داد. همچنين با توزيع نرمال مواجه شديم که توسط دو پارامتر ميانگين و انحراف معيار توصيف مي شد. در حالت کلي به تخميني از اين پارامترها احتياج داريم. مثلاً يک انسان شناس مي خواهد قد گروهي از افراد را بررسي کند. او عقيده دارد که قد اين افراد از توزيع نرمال پيروي مي کند اما براي اينکه بتواند اين توزيع را کاملاً تعيين کند، بايد ميانگين و انحراف معيار قد اين مجموعه از افراد را در اختيار داشته باشد. بنابراين بايد گروهي از افراد مجموعه را انتخاب کرده و ميانگين و انحراف معيار را براي اين دسته تعيين کند. سپس با استفاده از آنها به تخميني براي اين دو پارامتر در کل مجموعه برسد.
برآورد نقطه اي (1)
يکي از دوستان پيشنهاد زير را مطرح مي کند. سکه اي را مکرراً پرتاب مي کنيم، هر بار که شير آمد 10 پوند به من مي دهد و در مقابل در هر بار رخ دادن خط نيز من بايد 5 پوند به او بپردازيم.در نگاه اول پيشنهاد بسيار خوبي به نظر مي رسد. علاوه بر اين معمولاً دو روي سکه با احتمال يکسان رخ مي دهند ( احتمال هر کدام برابر است )، بنابراين به نظر مي رسد در هر پرتاب من 10 پوند به دست آورده و 5 پوند از دست مي دهم و در مجموع برنده ي بازي خواهم بود.
اما به فکر فرو مي روم که چرا چنين پيشنهادي به من داد. پيشنهادي که تقريباً به وضوح به نفع من است. اولين چيزي که به ذهن خطور مي کند، اين است که سکه طوري دستکاري شده که احتمال آمدن شير کمتر از است. در اين صورت اگر واقعاً احتمال رخ دادن شير کم باشد، به طوري که به ندرت اتفاق بيافتد، پيشنهاد خوبي براي من نخواهد بود. براي اينکه بتوانيم نهايتاً در مورد اين بازي تصميم بگيريم بايد به تخميني از اين احتمال دست پيدا کنيم. همبازي من که به نظر مي رسد سکه را 6 بار پرتاب کنيم و ببينیم خروجي ها چه خواهند بود. بدين ترتيب من هم مي توانم با توجه نتايج اين آزمايش احتمال رخ دادن شير در هر کدام از پرتاب هاي آينده را تخمين بزنم.
حال فرض کنيد سکه دستکاري شده، طوري که احتمال آمدن شير برابر است. از آنجا که پرتاب هاي سکه از هم مستقل هستند ( خروجي هر پرتاب، نتيجه ي پرتاب هاي ديگر را تحت تأثير قرار نمي دهد ) احتمال رخ دادن دو بار شير در دو پرتاب برابر است با مشابهاً احتمال اینکه سکه خط بیاید برابر ، و احتمال اینکه در دو پرتاب یک بار شیر و یک بار خط بیاید برابر است با در حالت کلی هم به دلیل اینکه احتمال رخ دادن شير ( و به تبع آن خط ) را مي دانيم، مي توانيم احتمال هر ترتيب ديگر از شير و خط ها را به دست آوريم. مثلاً احتمال اينکه ش خ ش خ خ خ اتفاق بيافتد برابر است با که تقريبا برابر %22 است.
مشابهاً مي توانيم احتمال رخ دادن ترتيب ش خ ش خ خ خ را زماني که سکه سالم است به دست آوريم ( احتمال شير و خط هر دو برابر 2/1 است ). احتمال اينکه اين ترتيب رخ دهد برابر است با1
که تقريبا! برابر %16 است. اگر احتمال رخ دادن شير برابر10/1 باشد احتمال اينکه ترتيب ذکر شده رخ دهد حدوداً برابر07% است.
حال مي خواهيم ببينيم احتمال اينکه در هر کدام از پرتاب هاي آينده شير رخ دهد چه مقدار است. به اين معني که مي خواهيم از ميان اعداد يکي را به عنوان تخميني از اين احتمال انتخاب کنيم. با توجه به محاسبات، مشخص است احتمال وقوع ترتيب 6 تايي فوق اگر مقدار p ( احتمال شير ) برابر باشد مساوي 22% است، اگر 1⁄2= p باشد این احتمال تنها 16% و برای 1⁄10= p برابر 07% است. معنی این اعداد این است که وقتی وقوع این ترتیب 6 تایی محتمل تر است که 1⁄3= p باشد نه یا . بنابراين به نظر مي رسد به طور حسي را به عنوان تخميني از احتمال رخ دادن شير در نظر بگيريم. اين مقداري است که داده هاي مورد مشاهده شده ي ما را بيشتر تأييد مي کند.
اين مثال رويکرد حداکثر درست نمايي (2) را در مسايل تخمين بيان مي کند: به اين معني که پارامتري را انتخاب مي کنيم که با استفاده از آن بيشترين احتمال براي رخ دادن نتايج مشاهده شده وجود دارد ( بيشترين سازگاري را با نتيجه ي محاسباتمان دارد ). در اين مثال خاص فقط از سه مقدار براي ( ، ، ) p جهت محاسبه احتمال ( ش خ ش خ خ خ ) استفاده کرديم. اما در حالت کلي مي توان تمام مقادير ممکن براي p را در نظر گرفت. تابعي که رابطه ي ميان احتمال داده هاي مشاهده شده ( در اينجا رخ دادن ش خ ش خ خ خ ) و مقدار p ( در اينجا احتمال رخ دادن شير ) را نشان مي دهد به تابع درست نمايي معروف است. اين تابع نقشي محوري در نتيجه گيري هاي آماري دارد.
قواعد مشابهي براي به دست آوردن تخمين از پارامترهاي توزيع نرمال يا هر توزيع ديگري وجود دارد. به اين ترتيب که براي هر مقدار انتخابي پارامتر توزيع، به عددي براي احتمال وقوع رخداد مورد نظر ( که در عمل اتفاق افتاده ) مي رسيم. حال پارامتري که بيشترين احتمال را نتيجه مي دهد به عنوان برآورد حداکثر درست نمايي در نظر مي گيريم. دقت کنيد که نتيجه ي اين فرآيند تک مقداري است که از لحاظ حداکثر درست نمايي بهترين برآورد است. به دليل تک مقداري بودن نتيجه ي اين رويکرد است که به آن برآورد نقطه اي مي گوييم.
مي توان طور ديگري به اين رويکرد برآورد نگاه کرد. به اين معني که تابع درست نمايي به نوعي ميزان همخواني ميان داده ي مشاهده شده ( ترتيب 6 تايي براي پرتاب سکه ) و آنچه تئوري پيش بيني مي کند ( که تئوري در اينجا به معني مقدار پيشنهادي براي احتمال وقوع شير: يا است ) مي باشد. انتخاب تئوري ( احتمال شير ) براي حداکثر کردن اين همخواني يا معادلاً براي حداقل کردن ناهمخواني کاملاً معقول است. با اين نگاه مي توانيم حداقل کردن ناهمخواني را به عنوان يک قاعده ي کلي در نظر بگيريم. به عنوان مثال، در بسياري از اوقات، مجموع مربعات اختلاف ميان پارامترهاي پيشنهادي و مقادير نمونه شاخص خوبي براي اين ناهمخواني است. انتخاب پارامتر به نحوي که اين شاخص به حداقل برسد به اين معني است که بهترين تخمين انتخاب شده است ( از لحاظ کوچک ترين مجموع مربعات اختلافات ). در واقع اين يکي از رويکردهاي مرسوم در تخمين است. اين روش به تخمين کوچک ترين مربعات (3) هم معروف است.
گاهي اوقات، قبل از تحليل داده ها، ذهنيت خاصي نسبت به مقاديري که پارامتر مي تواند به خود بگيرد داريم. امکان دارد اين ذهنيت از آزمايش ها و تجربيات قبلي حاصل شده باشد. مثلاً با توجه به تجربيات قبلي در پرتاب سکه انتظار داريم احتمال وقوع شير يا خط نزديک به باشد و بعيد است که از اين مقدار خيلي دور باشد. در اينجا يک توزيع پيشين (4) براي مقادير پارامتر مجهول داريم. اين توزيع بيانگر عقيده مان درمورد مقدار پارامتر است. مشابه تفسير ذهني احتمالات، که ذکر شد. در اين موارد، براي رسيدن به تخمین از مقدار پارامتر به جاي اينکه داده ها را به تنهايي تحليل کنيم، به نظر بهتر است داده ها را با عقايد قبلي تلفيق کنيم تا به توزيع پسين (5) درباره ي انتظارمان از مقادير پارامترها برسيم. خلاصه اينکه با توزيعي شروع مي کنيم که انتظارمان را از مقادير ممکن پارامترها توصيف مي کند و در مرحله ي بعد اين توزيع را با توجه به داده هايي که در عمل به دست آورديم اصلاح مي کنيم.
براي مثال: توزيع پيشين براي پرتاب سکه و رخ دادن شير، ممکن است حول متمرکز شده باشد: به اين معني که انتظار داريم شير با احتمال رخ دهد. اما اگر سکه اي را 100 بار پرتاب کرديم و تنها 3 بار شير آمد، توزيع پيشين را طوري اصلاح مي کنيم که در آن مقادير کمتر احتمال نسبت به مقادير نزديک محتمل تر باشند.
در حقيقت اين قانون بيز است که امکان ترکيب انتظار پيشين با داده هاي مشاهده شده را براي دست يافتن به انتظار پسين فراهم مي کند. به همين دليل اين رويکرد در بحث تخمين به رويکرد بيز معروف است. لازم به يادآوري است قانون بيز دو احتمال شرطي را به هم مربوط مي کند: احتمال رخ دادن A وقتي مي دانيم B رخ داده است واحتمال وقوع B به شرط رخ دادن A، در اينجا به کمک اين قانون دو احتمال زير را به هم مربوط مي کنيم:
1. احتمال اينکه پارامتري مقدار مشخصي داشته باشد در صورتي که داده هاي خاصي را مشاهده کرده باشيم.
و:
2. احتمال ديده شدن داده هايي خاص به شرط اينکه پارامتري مقدار مشخصي داشته باشد.
که شماره ي 2 همان تابع درست نمايي است. بدين ترتيب قانون بيز باعث مي شود به کمک همانندي داده ها از اعتقاد پيشين به اعتقاد پسين برسيم.
توجه شود که تفاوت ظريف اما بسيار مهمي بين اين روش و روش هاي ديگر که پيشتر ذکر شد ( و اغلب به روش هاي کلاسيک يا فراواني گرا معروف است ) وجود دارد. در آنجا فرض مي کرديم پارامتر مقداري ثابت اما مجهول دارد. اما در رويکرد بيز فرض مي کنيم پارامتر مجهول بر روي مجموعه اي از مقادير داراي توزيعي است که در ابتدا همان توزيع اوليه است اما زماني که به کمک اطلاعات داده ها به روز شد به توزيع ثانويه مي رسيم. يک محقق بر اين عقيده است که پارامتر مي تواند مقادير متفاوتي داشته باشد و به کمک توزيع احتمال عقيده ي خود را درباره ي هر مقدار بيان مي کنند. بيان توزيع اوليه چالش هاي خاصي را به دنبال خود مي آورد. حداقل اينکه، انتظار داريم افراد مختلف با تجربيات متفاوت توزيع هاي اوليه ي مختلفي مد نظر داشته باشند. اين توزيع با داده ها ترکيب شده و منجر به توزيع هاي ثانويه و نتايج متفاوتي مي شوند. علاوه بر اين مشکل ديگري نيز در عمل وجود دارد. درست است که ميانگين در توزيع نرمال و پارامتر P در توزيع برنولي بيان هاي روشن و سر راستي دارند، اما اين قاعده براي همه ي پارامترها و توزيع ها برقرار نيست. گاهي اوقات نمي توان به راحتي توزيع اوليه اي پيدا کرد که بيانگر دانش اوليه مان باشد.
در اين مرحله از بيان رويکرد بيز به توزيع ثانويه مي رسيم. توزيعي که بعد از بررسي داده هاي حاصل شده نشان مي دهد محقق چه انتظاري درمورد مقادير پارامترها دارد. اگر بخواهيم مي توانيم تمام توزيع را در يک نقطه ي تخميني خلاصه کنيم. مثلاً مي توان ميانگين يا مد يک توزيع را در نظر گرفت.
کدام برآورد بهترين است؟
چگونه مي توان گفت يک شيوه ي برآورد نقطه اي کاربردي است، و کدام يک از آن ها بهتر عمل مي کنند؟ مثلاً اگر تصميم بگيريم ميانگين توزيعي را با استفاده از ميانگين نمونه اي که از آن انتخاب شده تخمين بزنيم به جاي اينکه از ميانگين نمونه استفاده کنيم، مي توانيم بزرگ ترين و کوچک ترين مقادير در نمونه را قبل از تخمين حذف کنيم. زيرا در ميان نمونه هاي مختلف اين اعداد نسبتاً متفاوتند و احتمالاً با حذف آنها مي شود به تخمين مطمئن تري رسيد.شايد بخواهيم بدانيم براي رويکردهاي فراواني گرا در تخمين، که براي پارامتر مقداري ثابت اما مجهول درنظر مي گيرند، کدام يک از اين دو روش جوابي نزديک تر به جواب واقعي مي دهند. اما متأسفانه از آنجا که مقدار واقعي مجهول است، هيچ گاه به جواب اين سئوال دست پيدا نمي کنيم. از سوي ديگر علاقه منديم بدانيم با تکرار فرآيند نمونه برداري از اندازه گيري ها و تخمين از روي آنها، چند وقت يک بار مقدار تخميني نزديک به مقدار واقعي به دست مي آيد. گذشته از اين، با توجه به اينکه مقدار تخميني بر پايه ي يک فضاي نمونه تعيين شده است، به احتمال زياد با تخمين از روي نمونه هاي متفاوت به مقادير متفاوت مي رسيم. يعني مقدار تخمين زده شده خود يک متغير تصادفي است که بسته به نمونه ي انتخابي متفاوت است. اين مقدار به عنوان يک متغير تصادفي خود داراي يک توزيع است. اگر به اين نتيجه برسيم که توزيع به شدت در اطراف مقدار واقعي متمرکز است مي توان گفت روش تخمين استفاده شده روش خوبي است. در حالت کلي اگر روشي به نتايجي برسد که معمولاً به واقعيت نزديک هستند، آن را به عنوان يک روش مناسب تخمين در نظر مي گيريم. هر چند که اين روش مستقيماً در خصوص موضوع مورد مطالعه ي ما نيست اما به آن اعتماد مي کنيم. از اين گذشته، اگر شخصي 1000 بار دست به پيش بيني بزند و 999 بار درست از آب در بيايد، قطعاً مايليد براي پيش بيني هاي بعدي به او اعتماد کنيد. اين دقيقاً کاري است که در مورد راننده هاي قطار، خلبان ها و خدمتکاران رستوران و... انجام مي دهيد: به اين معني که مي دانيد رانندگان و خلبان ها به ندرت دچار حادثه مي شوند يا خدمتکاران رستوران به ندرت غذاي آلوده سرو مي کنند، بنابراين هر بار به کارشان اطمينان مي کنيد.
با استفاده از اين قاعده، معيارهاي متفاوتي براي ارزيابي روش هاي تخمين فراواني گرا ارائه شده است. يکي از معيارها اريبي (6) است. اين شاخص اختلاف ميان اندازه واقعي مقدار تخمين زده شده و ميانگين توزيع مقادير تخمين زده شده را نشان مي دهد. اگر اين اختلاف صفر باشد ( به اين معني که ميانگين توزيع مقادير تخميني برابر مقدار واقعي است )، روش تخمين را نا اريب مي دانيم.
براي مثال وقتي سکه اي را چندين بار پرتاب کنيم، تعداد شيرهايي که در اين پرتاب ها اتفاق مي افتد، تخميني تا اريب از احتمال رخ دادن شير در پرتاب سکه است: به اين معني که ميانگين توزيع مقادير اين نسبت ها ( نسبت شير به کل پرتاب ها ) در آزمايش هاي مکرر برابر احتمال وقوع شير است. براي درک موضوع فرض کنيد احتمال وقوع شير که البته براي ما نامشخص است برابر 55% است، زيرا اين نسبت يک تخمين گر نااريب از احتمال رخ دادن شير است.
در حالت کلي، تخمين گر نااريب در مقايسه با تخمين گر اريب بسيار بيشتر مورد توجه است. به طور ميانگين، تخمين گر اريب نتايجي بسيار متفاوت با واقعيت مي دهد.
ميانگين مربع خطاها، (7) معيار ديگري براي سنجش کيفيت تخمين گر است. اين معيار نشان مي دهد تخمين گر به چه ميزان مقادير را درست تخمين مي زند. براي هر مقدار خاص تخمين زده شده، اگر مي دانستيم مقدار واقعي پارامتر چقدر است مي توانستيم مجذور تفاوت ها ( مجذور خطاها ) ميان مقادير تخمين زده شده و مقدار واقعي پارامتر را بيابيم. مزيت عمده ي مربع سازي اين است که همه چيز را مثبت مي کند. از آن جا که مقدار تخمين زده شده يک متغير تصادفي است و به فضاي نمونه ي انتخابي بستگي دارد، مجذور خطا هم يک متغير تصادفي بوده و به نوبه ي خود داراي يک توزيع است. ميانگين مربع خطاي کوچک به اين معني است که به طور ميانگين مربع تفاوت ميان مقادير تخمين زده شده و مقدار واقعي پارامتر عدد کوچکي است. تخمين گري که ميانگين مربع خطاي بزرگي دارد در مقايسه با تخمين گري با ميانگين مربع خطاي کوچک از اهميت کمتري برخوردار است: يعني نمي توان مطمئن بود مقدار تخمين زده شده به مقدار واقعي نزديک است يا نه.
بازه برآورد
در بخش های قبل که بعضي از آماره هاي خلاصه معرفي شدند، ديديد که خلاصه کردن يک فضاي نمونه از داده ها توسط ميانگين يا هر آماره ي خلاصه ي ديگر چقدر سودمند است، اما باز هم اين آماره ي خلاصه به تنهايي ايده آل نيست. يعني، اين آماره ها به تنهايي نمي گويند اين مقادير نمونه با چه فاصله اي حول ميانگين پراکنده شده اند. اين مسئله را هم با معرفي آماره هاي خلاصه ي بيشتر مثل دامنه ي تغييرات و انحراف معيار، که بيانگر چگونگي پخش شدن مقادير نمونه بودند برطرف کرديم.مشکلات مشابهي در به دست آوردن برآورد نيز وجود دارد. تا اينجا برآوردهاي نقطه اي را بررسي کرديم که به نحوي بهترين تک نقطه ها به عنوان تخمين بودند. روش ديگر، معرفي محدوده يا بازه اي است که مطمئنيم مقدار واقعي را در بردارد. اجازه دهيد به پيشنهاد معامله ي 10$/ 5$ برگرديم. قبلاً بهترين تخمين ساده براي احتمال وقوع شير را به دست آورده ايم. در مقابل اين برآورد، مي توانيم محدوده اي را بيابيم که مطمئنيم مقدار واقعي پارامتر را در خود جاي داده است. مثلاً معتقديم مقدار حقيقي احتمال در بازه ي 1⁄4تا 2⁄5قرار خواهد گرفت که مثالي از بازه برآورد است.
اما از آنجا که مقدار حقيقي پارامتر مجهول است، نمي توان با اطمينان درباره ي اينکه هر کدام از بازه ها اين مقدار را در بردارند يا نه قضاوت کرد. حال فرض کنيم آزمون را بارها و بارها با نمونه هاي تصادفي متفاوت تکرار کنيم ( همان طور که درمورد تعريف اريبي عمل کرديم ). براي هر کدام از اين نمونه ها مي توان بازه ي تخميني محاسبه نمود. که اگر بازه ها به درستي محاسبه شده باشند مي توان گفت درصد مشخصي از بازه ها ( 95% يا 99% يا هر درصد انتخابي ديگر ) مقدار واقعي را در خود دارند.
پيشنهاد معامله ي 10$ / 5$ را به ياد آوريد، نمي توان براي هر بازه خاص که با توجه به نمونه هاي خاص، محاسبه شده با اطمينان ادعا کرد. اين بازه حتماً شامل مقدار واقعي است. اما مي توان گفت 95% ( يا هر درصد انتخابي ديگر ) از چنين بازه هايي شامل مقدار واقعي احتمال خواهد بود. از آنجا که 95% اين بازه ها مقدار حقيقي را در خود دارند، به مقدار قابل ملاحظه اي مطمئنيم بازه اي که از داده هاي واقعي به دست آورده ايم ( مثلا ترتيب ش خ ش خ خ خ ) شامل مقدار حقيقي است. به همين دليل، چنين بازه هايي را بازه هاي اطمينان (8) مي نامند.
در روش بيز ديديم که خروجي آناليز بيز يک توزيع پسين از مقادير است. اين توزيع نشان مي دهد درباره ي مقاديري که پارامترها به خود مي گيرند چه عقيده اي داريم. مثلاً اگر توزيع انحراف معيار کوچکي داشت به اين معني است که مطمئنيم مقادير پارامترها در محدوده ي باريکي حول ميانگين قرار دارند و به هم نزديکند. اما گاهي بهتر و ساده تر است که داده ها را با روش هايي شبيه به بازه ي اطمينان فوق خلاصه کنيم و بازه اي ارائه دهيم که توسط بزرگ ترين و کوچک ترين مقادير تعريف مي شود. مثلاً مي توانيم بازه اي را بيابيم که 95% مساحت زير منحني توزيع احتمال پسين را درخود داشته باشد. از آنجا که توزيع ها به نوعي بيانگر درجه ي اعتقاد هستند، مي توان اين بازه ها را بيانگر ميزان احتمال قرار داشتن مقدار واقعي در اين بازه دانست. براي تشخيص اين بازه ها از بازه هاي اطمينان فراواني گرا، اين بازه ها را بازه هاي اعتبار (9) مي نامم.
آزمون
آماردان ها فرآيندهايي که نشان مي دهند. پارامترهاي يک مدل، مقادير مشخصي اختيار مي کنند يا در محدوده ي خاصي قرار مي گيرند را با عبارت آزمون فرض (10) و آزمون معنا داري (11) معرفي مي کنند. درساده ترين حالت ممکن، اين موضوع به معني آزمايش يک پارامتر ساده است. مثلاً مي دانيم 50% افرادي که از يک بيماري خاص رنج مي برند به وسيله ي روش درماني استانداردي درمان مي شوند، اما با اين حال حدس مي زنيم روش درماني پيشنهادي جديدي، 80% از اين بيماران را مداوا خواهد کرد. پارامتر ساده اي که مي خواهيم تعيين کنيم نرخ درمان روش معالجه ي جديد است. به اين معني که مي خواهيم ببينيم اين نرخ 50% است يا 80%.اما واقعيت اين است که افراد با هم متفاوتند. از لحاظ سن، جنسيت، آمادگي براي درمان، شدت بيماري، وزن و بسياري جنبه هاي ديگر با هم تفاوت دارند. به اين معني که حتي اگر براي افراد مشابه، ميزان يکساني دارو تجويز کنيم، نتايج متفاوت خواهد بود و ممکن است بعضي ها درمان شوند و بعضي ها نه. علاوه بر اين، امکان دارد نتيجه براي يک بيمار خاص در زمان هاي مختلف و تحت شرايط مختلف متفاوت باشد. مي توانيم مسئله را بدين ترتيب مدل کنيم، P برابر است با احتمال اينکه بيمار به وسيله ي داروي تجويز شده درمان شود. مي دانيم در درمان استاندارد اين نسبت p=0/5 و حدس مي زنيم در روش جديد اين نسبت برابر p=0/8 باشد.
در حالت کلي، براي يافتن نرخ درمان بيماران، کاري که بايد انجام دهيم اين است که روش جديد را براي تمام بيماران آن هم در تمام شرايط ممکن به کار ببريم و ببينيم که چه تعدادي از آنها تحت اين روش درمان مي شوند. اما به وضوح پيداست اين کار شدني نيست و براي به دست آوردن اين نسبت بايد اين روش را فقط در مورد يک جامعه ي نمونه ي از کل مجموعه ي بيماران به کار بست. سپس نسبت بيماران درمان شده تحت اين روش را محاسبه مي کنيم. متأسفانه از آنجا که فقط با نمونه ها کار مي کنيم و نه با تمام بيماران، اين حقيقت که، 80% يا 60% يا هر درصد از بيماران در فضاي نمونه درمان شده اند لزوماً به معني اينکه همين درصد از کل بيماران هم درمان خواهند شد نمي باشد. زيرا اگر نمونه ي ديگري انتخاب کنيم، امکان دارد به نتيجه ي ديگري برسيم.
با اين حال، نسبت درمان، در نمونه ي انتخابي از جامعه اي که در آن فقط 50% بيماران درماني مي شوند، نسبت به نمونه ي انتخابي از جامعه اي که در آن، در مجموع، نسبت درمان 80% است، عدد کمتري خواهد بود.
معني اين حرف اين است که مي توانيم حد آستانه اي به نامt تعريف کنيم. اگر نسبت درمان در نمونه از t کمتر بود، فرضيه ي 50% و اگر بيشتر بود فرضيه ي80 % يا مي پذيريم. يا مشابهاً مي گوييم آماره ي نمونه در محدوده ي بحراني (12) يا عدم پذيرش (13) قرار مي گيرد. زيرا نسبت درمان روش استاندارد که 50 % بود مورد پذيرش قرار نگرفته است.
وقتي بدين شکل عمل مي کنيم، خطر بروز دو نوع خطا وجود دارد. ممکن است به اين نتيجه برسيم که داروي جديد 80% از بيماران را در کل جامعه ي بيماران درمان مي کند. در حالي که اين نرخ در واقع 50% است يا برعکس ميزان درمان داروي جديد را 50% تعيين کنيم در حالي که درعمل اين دارو در مجموع 80% بيماران را درمان مي کند. رويکرد آزمون فرضيه ي نيمن - پيرسن شرايط را طوري فراهم مي کند که احتمال بروز چنين خطايي مشخص و حتي الامکان کم باشد تا نسبت به نتيجه ي حاصل مطمئن باشيم.
حال روش کار را بررسي مي کنيم. کار را با يک فرض دلخواه شروع مي کنيم: فرض مي کنيم داروي جديد 50% بيماران را معالجه مي کند. اين فرض را فرض صفر (14) مي ناميم. فرض ديگر که اصطلاحاً به آن فرض جايگزين (15) يا مقابل مي گوييم نسبت درمان بيماران را 80% در نظر مي گيرد. حال تحت شرايطي که فرض صفر را در نظر گرفته ايم ( نرخ درمان 50% )، با استفاده از محاسبات پايه اي احتمالات محاسبه مي کنيم ببينيم چند درصد از نمونه ها، نرخ درماني بيشتر از t خواهند داشت. معمولاً t را به گونه اي انتخاب مي کنيم که اگر فرض صفر برقرار باشد، تنها 1 تا 5% از مواقع نرخ درمان در نمونه ها از مقدار t تجاوز کند.
در اين شرايط، وقتي فرض صفر برقرار است ( به اين معني که تنها 50 درصد از کل بيماران درمان مي شوند ) و ما درعمل نرخ درماني بيشتر از t به دست آورده ايم، به جاي 50% بر مبناي نرخ درمان 80% تصميم گيري خواهيم کرد، که باعث به وجود آمدن خطاي اول ذکر شده مي شود ( که طبق قرارداد به آن خطاي نوع اول مي گوييم، يعني زماني که فرض صفر صحيح است ولي ما فرض مقابل را در نظر مي گيريم ). نماد α معمولاً براي نمايش ميزان احتمال خطاي نوع اول به کار مي رود. انتخاب ما براي t در اين مثال نشان مي داد که مقدار α در 01/0 تا 05/0 قرار دارد. هر مقدار ديگري هم که بخواهيم مي توانيم براي α در نظر بگيريم و بر اساس آن مقدار t را تعيين کنيم.
اگر نرخ درمان در نمونه اي بيشتر از t به دست آمد دو معني دارد: اول اينکه فرض صفر درست است ( نرخ درمان 50% است ) و يک اتفاق غير محتمل رخ داده است ( نرخ نمونه ي بزرگ تر از t با احتمال α رخ داده است ) يا دوم اينکه اساساً فرض صفر صحيح نيست. اينها تنها موارد ممکن هستند. اينجا جايي است که رويکرد نيمن - پيرسن در آزمون فرض حضور مؤثر دارد. با انتخاب t به طوري که α به اندازه کافي کوچک باشد ( 01/0 تا 05/0 ) معمولاً به معني به اندازه کافي کوچک هستند )، به اطمينان نسبتاً زياد مي گوييم فرضيه ي صفر صحيح نيست، به اين دليل که اگر صحيح مي بود اتفاقي غير محتمل رخ داده بود ( نرخ بزرگ تر از t ).
نوع ديگر خطا ( خطاي نوع دوم ) زماني اتفاق مي افتد که فرض جايگزين صحيح است ( در اين مثال به اين معني است که نرخ درمان 80% است ) اما نرخ درمان در نمونه ي مورد مطالعه کمتر از t است. از آن جا که t را طوري انتخاب مي کنيم که با آن احتمال بروز خطاي نوع اول را کنترل کنيم، ديگر نمي توان به کمک آن احتمال خطاي نوع دوم را کنترل کرد. با اين حال مي توانيم احتمال بروز خطاي نوع دوم را با انتخاب نمونه اي به اندازه ي کافي بزرگ، به ميزان دلخواه کم مي کنيم. اين امکان از نتايج قانون اعداد بزرگ است. با بزرگ کردن اندازه ي نمونه محدوده ي تغييرات تخمين نمونه کوچک مي شود و به دنبال آن احتمال اينکه تخمين نمونه کمتر از t باشد هم کمتر مي شود. در واقع با بزرگ کردن نمونه به اندازه ي کافي مي توانيم احتمال بروز خطاي نوع دوم را تا مقداري که فکر مي کنيم مناسب است کم کنيم. نماد β معمولاً براي نمايش احتمال وقوع خطاي نوع دوم در نظر گرفته مي شود. 1-β را توان مي ناميم که برابر است با احتمال انتخاب فرض مقابل وقتي اين فرضيه صحيح است.
شرايط آزمون فرض که در بالا آمد چيزي شبيه شرايط موجود در دادگاه است، جايي که در آن در ابتداي امر متهم بي گناه فرض مي شود ( فرض صفر ) و بروز دو نوع خطا در آن امکان پذير است: 1. فرد بيگناهي، گناهکار شناخته شود ( خطاي نوع 1 ) و 2. يا شخصي گناهکار تبرئه شود ( خطاي نوع 2 ).
دقت شود که در آزمون فرض نيمن - پيرسن دو فرضيه داريم: فرضيه صفر و فرضيه جايگزين که گه گاه به آن فرض مقابل هم مي گويند. در آزمون معناداري فقط فرض صفر در نظر گرفته مي شود. هدف در اينجا رد فرض صفر يا عدم رد آن در شرايط زير است. وقتي مقدار يک آماره ي آزمون ( نرخ درمان در نمونه در مثال فوق ) از مقدار مورد انتظار آن آماره ي آزمون ( نرخ درمان در نمونه در مثال فوق ) از مقدار مورد انتظار آن آماره تحت فرض صفر بسيار دور باشد فرض صفر را در مي کنيم و زماني که مقدار آن خيلي از مقدار مورد انتظار دور نيست آن را مي پذيريم. از هيچ فرض جايگزيني به روشني نام برده نشده است. مقدار p، احتمال اينکه آماره ي آزمون مقداري که در واقعيت مشاهده کرده ايم يا مقداري بزرگ تر از آن به خود بگيرد را نشان مي دهد، آن هم در شرايطي که فرض صفر صحيح است.
ايده هاي آزمون معنا داري و فرضيه براي گونه هاي متنوعي از مسائل توسعه يافته اند. آزمون هاي ويژه معمولاً پس از توسعه به نام ارائه دهندگان آنها ( مثل آزمون والد (16) يا آزمون مان- ويتني (17) ) يا به نام توزيع آماره ي آزمون ( آزمون t يا آزمون کاي دو ) نام گذاري شده اند.
آزمون فرض بيز در حالت کلي سرراست تر است. تحت فرمول بندي بيز، احتمال پسين اينکه هر فرض صحيح باشد را داريم، و بنابراين مي توانيم از آن براي انتخاب يک فرضيه استفاده کنيم. البته شرايط معمولاً در عمل پيچيده تر از اين است.
تئوري تصميم
پيشتر فرآيند تشخيص اينکه پارامترهاي يک مدل، مقادير مشخص به خود مي گيرند يا در يک محدوده ي معين قرار دارند را به طور غير رسمي به عنوان آزمون معرفي کرديم. بيان مقابل توصيف خوبي براي هدف اکثر زمينه هاي علمي است: هدف، کشف چگونگي چيزها است. اما در زمينه هاي ديگر مثل تجارت و پزشکي، هدف صرفاً تعيين مقاديري که يک پارامتر مي گيرد نيست، بلکه کار کردن روي اين اطلاعات است. بيماري را تحت نظر مي گيريم و آزمايشات و مطالعات گوناگوني را روي او انجام مي دهيم و مي خواهيم با استفاده از نتايج حاصل بهترين روش عملکرد را انتخاب کنيم. عبارت بهترين ممکن است معاني مختلفي داشته باشد، اما به طور مختصر، تصميم داريم بهره وري، سود و منفعت را به حداکثر آن برسانيم يا به طور معادل ضرر و هزينه را حداقل کنيم. اگر بتوانيم چنين تابع مطلوبيتي (18) تعريف کنيم، تابعي که نشان مي دهد، اگر پارامتر مجهول هر کدام از مقادير ممکن خود را بگيرد و بر اساس آن عملکردي را انتخاب کنيم، ميزان بهره چقدر خواهد بود، در اين صورت با استفاده از اين تابع مطلوبيت مي توان ميان قواعد مختلف تصميم گيري که همان انتخاب عملکردهاي مختلف هستند دست به مقايسه زد. مثلاً ممکن است تصميمي که مي گيريم در راستاي بيشينه کردن حداقل بهره باشد صرف نظر از اينکه مقدار پارامتر مجهول چيست. در مقابل اگر در چهارچوب بيز کار مي کنيم، براي مقادير مختلف پارامتر مجهول يک توزيع پسين احتمال داريم. براي مقادير مختلف پارامتر مجهول يک توزيع پسين احتمال داريم. در اين شرايط مي توانيم براي هر يک از معيارهاي تصميم گيري ميانگين مقدار بهره را محاسبه کنيم، و معياري را که منجر به بيشترين مقدار ميانگين مي شود برگزينيم.به اين مثال توجه کنيد. شرکتي مي خواهد بداند از کدام يک از اين دو روش بهتر مي تواند براي ترغيب مشتريان جهت خريد جديدترين محصول خود استفاده کند. در روش اول با تماس تلفني محصول جديد را معرفي کند يا در روش دوم به وسيله ي نامه آنها را در جريان قرار دهد. بديهي است که همه ي افراد يک روش يکسان را در جريان قرار دهد. بديهي است که همه ي افراد يک روش يکسان را انتخاب نمي کنند، بديهي است که همه ي افراد يک روش يکسان را انتخاب نمي کنند، بعضي از تماس تلفني تأثير بيشتري مي پذيرند و بعضي به نامه عکس العمل بهتري نشان مي دهند، و البته اينکه هر يک از افراد در کدام دسته قرار مي گيرند را نمي دانيم. اما ممکن است شرکت اطلاعاتي درباره ي هر کدام از مشتريان داشته باشد: مثلاً اطلاعاتي که در زمان ثبت عضويت ارائه کرده اند، داده هايي که معرف خريدهاي قبليشان است و خلاصه اطلاعاتي از اين دست. مي توان با استفاده از اين داده ها، معيارهاي تصميم گيري را قاعده مند کرد. مثلاً: اگر مشتري کمتر از 25 سال و الگوي خريد قبلي مشخصي داشت از تماس تلفني و در غير اين صورت از روش مکاتبه استفاده مي کنيم. مي تواند قواعد ممکن مختلفي را براي تصميم گيري تنظيم کرد. مي توان براي هر کدام از اين روش ها، تماس تلفني يا مکاتبه ميزان بهره وري را محاسبه کرد. سپس قاعده اي را براي تصميم گيري انتخاب مي کنيم که داراي بيشترين حداقلِ بهره است. يا مي توانيم ميانگين بهره را براي توزيع مشتريان هر روش محاسبه کنيم، و به کمک آن ميانگين بهره ي هر روش تصميم گيري را به دست آوريم و در نهايت تصميمي بگيريم که بيشترين ميانگين بهره را دارد.
اما اکنون کجاي کار هستيم؟
سال هاي متمادي، نتايج به دست آمده از روش هاي آماري، موضوع مجادله هايي بوده اند که بعضاً بالا گرفته اند. اگر چه روش هاي مختلف در اين مقوله ممکن است به نتايج متفاوتي منجر شوند، اما به تجربه ثابت شده که استفاده ي دقيق و حساس اين روش ها توسط آماردان هايي که روش هاي مورداستفاده شان رامي شناسند و درک مي کنند، عموماً منجر به نتايج يکساني مي شود. تمام اينها جزئي از هنر آمار است و نشان مي دهد انجام يک تحليل آماري، صرفاً يک تمرين خشک رياضي نيست. براي انجام چنين تحليلي بايد داده ها و سابقه ي آنها را درک کرد.مکاتب گوناگون نتيجه گيري آماري براي اصول و قواعد مختلف، اهميت متفاوتي قائل هستند. بعضي از اين اصول عبارتند از: اصل درست نمايي (19) ( اگر دو مدل متفاوت توابع درست نمايي يکسان داشته باشند، بايد منجر به نتايج يکساني شوند )، اصل نمونه گيري مکرر (20) ( بايد بتوان فرآيندهاي آماري را بر اساس اينکه اگر به تعداد زيادي نمونه گيري اعمال شوند، به طور ميانگين چه رفتاري خواهند داشت، ارزيابي کرد ) و اصل کفايت (21) ( که مربوط است به خلاصه سازي داده ها به شکلي که اطلاعات کافي براي تخمين يک پارامتر دراختيارمان قرار بگيرد ). هر کدام از اين اصول و قواعد به خودي خود کاملاً قابل قبول و مستدل به نظر مي رسند، اما با اين حال گاه باهم ناسازگاري دارند.
طي ساليان دراز روش هاي فراواني گراي کلاسيک، پر کاربردترين روش براي استنتاج آماري بوده است، اما در ساليان اخير روش هاي بيزي به طور قابل ملاحظه اي طرفدار پيدا کرده اند. اين رشد محبوبيت نتيجه ي مستقيم پيشرفت کامپيوترهاي قدرتمند، توسعه ي روش هاي هوشمند کامپيوتري و ترويج مشتاقانه توسط حاميان اين روش هاست. جنبه هاي انساني فراز و نشيب هاي ايده هاي مختلف درباره ي استنتاج آماري در چند دهه ي اخير، خود داستان جالبي است.
به عنوان نکته ي پاياني: اميداوريم دراين مقاله روشن شده باشد که جنبه هاي سؤالات مختلفي مثل سؤالات زير را بيابيم: داده ها چه چيزي را به من نشان مي دهند؟ چه عقيده اي بايد داشته باشيم؟ چه بايد بکنم؟ و سؤالاتي از اين دست. روش هاي استنتاج مختلف براي يافتن پاسخ سؤالات مختلف، متفاوتند و براي هر سؤال بايد روش مناسب را پيدا کنيم.
پينوشتها:
1. point estimation.
2. maximum likelinood.
3. least squares estimation.
4. prior distribution.
5. posterior distribution.
6. bias
7. mean squared error.
8. confidence intervals.
9. credibility intervals.
10. hypothesis testing.
11. significance testing.
12. critical region.
13. rejection region.
14. null hypothesis.
15. alternative hypothesis.
16. Wald
17. Mann- Whitney.
18. utility function.
19. likelihood principle.
20. repeated sampling principle.
21. sufficiency principle.
هند، ديويد جي؛ (1391)، آمار، ترجمه ي بصير والي، تهران: انتشارات حکمت، چاپ اول