نويسنده: ديويد هند
برگردان: بصير والي



 

يک آماردان هيچ گاه نبايد بگويد مطمئنم.
آنون

ماهيت شانس

علم اداره کردن شرايط عدم اطمينان يکي از تعاريفي بود که در بخش اول براي آمار ارائه شد. کاملاً واضح است که دنيا مملو از شرايطي است که در آن اطمينان 100 % وجود ندارد. اين خود يکي از دلايل حضور همه جانبه روش هاي آماري است. آينده، سرزمين مجهولات و نادانسته هاست. نمي توان با قطعيت گفت که چه اتفاقي روي خواهد داد. بسياري از اوقات چيزي که انتظارش را نمي کشيم رخ مي دهد. اتومبيل ها خراب مي شوند، تصادف مي کنيم، رعد و برق خسارت هايي وارد مي کنند. شايد از اين مثال ها اين طور برداشت را کرده باشيد که تمام اين موارد نامطلوبند، اما نه، گاهي اوقات افراد در همين شرايط برنده ي قرعه کشي مي شوند، هيچ قطعيتي براي اينکه يک اسب خاص در مسابقه پيروز شود وجود ندارد اما اسب شما پيروز مي شود. نمي دانيم با پرتاب يک تاس چه عددي خواهد آمد اما عدد مورد نظر شما رخ مي دهد. در نهايت حتي نمي توانيم پيش بيني کنيم که چقدر زنده مي مانيم.
با اين حال علي رغم همه ي اين مسائل يکي از بزرگ ترين کشفيات بشر قوانين محکمي است که شانس و عدم قطعيت را پوشش مي دهد. البته در ابتدا کمي متناقض به نظر مي آيد. شرايط عدم قطعيت طبق طبيعت بديهي شان داراي هيچ قطعيتي نيستند، پس چطور مي توان چنين شرايطي را قانونمند کرد؟
يک پاسخ اين است که اگر چه رخدادهاي مجزا غير قابل پيش بيني و بدون هرگونه قطعيتي هستند اما اغلب مي توان درباره ي مجموعه اي از رخدادها اظهار نظر کرد و اين کار امکان پذير است. يک مثال قديمي پرتاب سکه است. با اينکه در پرتاب يک سکه نمي توان گفت شير مي آيد يا خط، اما اگر به تعداد دفعات زياد اين کار را انجام دهيم با اطمينان نسبتاً زياد مي توان گفت حدود نيمي از دفعات شير و نيمي خط خواهد آمد ( البته فرض بر اين است که سکه سالم باشد و هيچ گونه تردستي هم در هنگام پرتاب آن صورت نگيرد ). مثال ديگر در اين زمينه پسر يا دختر بودن نوزادي است که متولد خواهد شد؟ پس از لقاح درباره ي جنسيت فرزندي که به دنيا خواهد آمد نمي توان پيش بيني و اظهار نظر کرد اما همين قدر مي دانيم که در تعداد زياد تولدها کمي بيشتر از نصف فرزندان، پسر هستند.
اين خاصيت قابل مشاهده در طبيعت مثالي است براي قانوني که درباره ي شرايط عدم قطعيت برقرار است. اين قانون به قانون اعداد بزرگ معروف است. به خاطر اين حقيقت که هر چه موارد ( تعداد ) بيشتري را در نظر بگيريم، در نهايت نسبت رخدادها به يک عدد مشخص نزديک و نزديکتر مي شود ( در نيمي از موارد سکه شير و در نيمي خط مي آيد، همين طور درباره ي جنسيت فرزند ). اين قانون کاملاً با مفهوم بوده و يکي از قوي ترين ابزارهاي آماري براي کنترل، تسلط و نتيجه گيري از شرايط عدم قطعيت است.

درک مفهوم احتمال

بنابراين براي اينکه بتوانيم درباره ي شرايط غير قابل پيش بيني و عدم قطعيت، بدون ابهام صحبت کنيم، بايد از يک زبان دقيق استفاده کنيم درست شبيه هر نظام علمي ديگر: زبان احتمالات. اگر اولين بار است که با زبان احتمالات مواجه مي شويد هشدار مي دهم درست مثل يادگيري هر زبان جديدي مي بايست در ابتدا تلاش بيشتري انجام دهيد. در واقع ممکن است مجبور باشيد اين مقاله را بيش از يک بار مطالعه کنيد.
نهال زبان احتمال در قرن 17 بارور شد. رياضي داناني مثل، بليز پاسکال، پير دو فرما، کريستين هويگنز، ژاکوب برنولي، و بعدها پير سيمون لاپلاس، آبرهام دو مويير، سيمون دنيس پوآسون، آنتوني کورناب، جان ون و ديگران پايه هاي آن را ساختند. در اوايل قرن بيستم تمام ايده هاي زير بنايي آمار موجود بودند. در سال 1933 هم رياضي دان روسي آندره کولموگروف مجموعه اي از قوانين ارائه داد و به اين ترتيب حساب جامع احتمالات (1) شکل گرفت. بعد از آن هم اين قواعد تقريباً همه جا پذيرفته شدند.
قوانين کولموگروف سيستمي را براي کار با احتمالات ارائه مي دادند. اما اين سيستم ساختار رياضي داشت و براي اينکه در عمل و براي اظهار نظر درباره ي دنياي واقعي کاربرد پيدا مي کرد، لازم بود درباره ي نمادهاي آن صحبت مي شد. يعني بايد نشان مي داديم اين نمادهاي رياضي در دنياي واقعي بيانگر چه چيزي هستند و رياضيات چه مي گويد.
حساب احتمالات به هر رخداد محتمل، عددي بين 0 و 1 نسبت مي دهد که معرف احتمال وقوع آن رخداد است. احتمال 1 به معني حتمي بودن وقوع رخداد است ( مثل احتمال اينکه موقع نوشتن اين کتاب مرا پشت ميز تحرير بيابيد ) و احتمال 0 به اين معني است که وقوع اين رخداد غير ممکن است ( مثلاً احتمال اينکه شخصي دوي ماراتن را در 10 دقيقه به پايان برساند ). احتمال رخدادي هم که مي تواند اتفاق بيفتد ولي نه قطعي و نه غير ممکن است عددي بين 0 و 1 است.
يکي از تعابير عدد احتمال اين است که، درجه ي اعتقاد (2) افراد به رخ دادن يا ندادن يک اتفاق خاص را نشان مي دهد. از آنجا که افراد مختلف اطلاعات متفاوتي درباره ي يک رويداد دارند، بعضي ها اطلاعات بيشتر و بعضي کمتر، بنابراين امکان دارد انتظارات متفاوتي هم داشته باشند که همين موضوع، منشأ وجود اختلاف در احتمال وقوع يک رويداد خواهد بود. به اين دليل اين طرز نگرش به احتمالات، احتمال شخصي يا ذهني (3) مي گويند. اين نوع احتمال به شخصي که احتمال را تخمين مي زند وابسته است. از طرفي اين امکان وجود دارد که نظر کسي درباره ي يک رويداد با تکميل اطلاعاتش تغيير کند. ممکن است با توجه به تجربه هاي قبلي ( از سکه هايي که امتحان شده ) بر اين اعتقاد باشيم که در نيمي از اين موارد شير و در نيمي خط حاصل مي شود، اما پس از 100 پرتاب پياپي و مشاهده ي 100 بار وقوع خط، احتمالاً مشکوک شده و نظرمان را درباره ي احتمال وقوع آن تغيير مي دهيم.
ابزارهايي بر پايه ي استراتژي هاي شرط بندي براي تخمين احتمال ذهني ارائه شده اند، اما مشابه هر فرآيند اندازه گيري ديگر، در عمل محدوديت هايي براي دقت تخمين احتمالات وجود دارد.
نگاهي ديگر به احتمال يک رخداد، نسبت تعداد دفعاتي است که اين رويداد اتفاق مي افتد. وقتي در شرايط يکسان بي نهايت بار عملي را تکرار مي کنيم. پرتاب سکه ي سالم يکي از اين نمونه هاست. همان طور که ديديد وقتي سکه اي را پرتاب مي کنيم نسبت تعداد دفعاتي که خط مي آيد به کل دفعات پرتاب، به يک عدد مشخص نزديک مي شود. اين مقدار را احتمال وقوع رخداد خط و در هر پرتاب مجزاي سکه در نظر مي گيريم. به علت نقش فراواني يا شمارش در اين تعريف از احتمال، اين بيان، به بيان فراواني گرا (4) معروف است.
مشابه رويکرد ذهني اينجا هم محدوديت هايي وجود دارد که اجازه نمي دهد احتمال فراواني گراي دقيق را به دست آوريم. دو پرتاب يک سکه شرايط کاملاً يکساني ندارند. پس از يک پرتاب تعدادي از مولکول هاي اين سکه بر اثر ساييدگي از آن جدا مي شوند. جريان هاي هوايي در دو پرتاب متفاوت است. سکه در اثر تماس با انگشت ها در پرتاب اول به مقدار اندکي گرم تر مي شود و به هر حال فرآيند پرتاب سکه را در نهايت متوقف خواهيم کرد يعني در عمل نمي توانيم بي نهايت بار پرتاب سکه داشته باشيم. هر کدام از اين موارد نمونه هاي از محدوديت هاي عملي هستند که دست به گريبان آنها هستيم.
هر کدام از بيان هايي که درباره ي احتمال ذکر شد، ويژگي هاي خاص خود را دارند. رويکرد ذهني معمولاً در مواردي به کار مي رود که مي خواهيم احتمالي براي يک رخداد يکتا در نظر بگيريم يا جايي که بي نهايت تکرار معني ندارد. همين طور زماني که نمي توان به تعداد زياد تکرار در شرايط مساوي داشت. مثلاً نمي توان بي نهايت بار ترور رئيس جمهور آمريکا را آزمايش کرد و با توجه به نتيجه ي اين آزمايش ها احتمالي براي ترور شدن رئيس جمهور بعدي به دست آورد. بنابراين نمي توان به چنين رخدادي بيان فراواني گرا نسبت داد. به عبارت ديگر، رويکرد ذهني، احتمال را يکي از ويژگي هاي دنياي خارجي (مثل جرم يا طول ) نمي داند بلکه به آن به عنوان يکي از ويژگي هاي تقابل بين مشاهده گر و دنياي خارجي مي نگرد. احتمال ذهني چيزي شبيه زيبايي است. بعضي اعتقاد دارند اين موضوع، يک نقطه ضعف است: يعني ممکن است افراد مختلف از يک تحليلي مشابه با داده هاي يکسان نتايج متفاوتي بگيرند. بعضي هم بر اين اعتقادند که برعکس يکي از نقاط قوت است: به اين معني که دانش قبليمان مي تواند بر روي نتايج تأثيرگذار باشد.
با اين حال هنوز هم بيان هاي ديگري براي احتمال وجود دارد. رويکرد کلاسيک فرض مي کند تمام رخدادها، از رخدادهاي پايه اي شبيه به هم ساخته شده اند. مثلاً در پرتاب تاس ممکن است اعداد 1، 2، 3، 4، 5 يا 6 حاصل شود و به علت تقارن اين 6 نتيجه با هم يکسانند، بنابراين احتمال هر کدام برابر 1/6است ( جمع تمام اين احتمالات بايد برابر 1 باشد چرا که در هر حال رخ دادن يکي از اين 6 عدد حتمي است ). بنابراين احتمال رخ دادن يک عدد زوج برابر جمع احتمال هر کدام از رخدادهاي هم احتمال ومشابه 2، 4 يا 6 است که در نهايت برابر 1/2 است. در شرايط طبيعي پيدا کردن اين رخدادهاي مشابه با احتمال مساوي کار چندان ساده اي نيست. مثلاً فرض کنيم مي خواهيم بدانيم احتمال اينکه سفر صبحگاهي تا محل کار کمتر از يک ساعت طول بکشد چقدر است. واضح است پيدا کردن رخدادهاي پايه اي هم شانس در اينجا اصلاً کار ساده و روشني نيست. در مقايسه با پرتاب تاس، در اينجا هيچ تقارن روشني وجود ندارد. مشکل ديگر اين است که نوعي تسلسل و چرخه ي غلط در تعريف عناصر پايه با احتمال مساوي وجود دارد، چرا که به نوعي بايد احتمال را بر حسب احتمال تعريف کنيم.
لازم به ذکر است تمام اين بيان هاي متفاوت احتمال، از قواعد مشابه پيروي مي کنند و به وسيله ي ماشين رياضي مشابه مورد محاسبه قرار مي گيرند. در واقع اين معادل سازي آنها در دنياي واقعي است که با هم تفاوت دارد. به اعتقاد من حساب جامع آنها مشابه است اما در تئوري متفاوتند. در کاربردهاي آماري اين بيان هاي مختلف مي تواند به نتايج متفاوت بيانجامد.

قوانين شانس

تا اينجا يکي از قوانين احتمال را معرفي کرديم، قانون اعداد بزرگ. اين قانوني است که رياضيات احتمالات را، به مشاهدات تجربي درباره ي دنياي واقعي پيوند مي دهد. قوانين ديگر احتمالات به طور ضمني مربوط به خود اصول احتمالات هستند. بعضي از اين قوانين مهم، با مفهوم استقلال سروکار دارند.
دو پديده از هم مستقلند اگر، رخ دادن يکي از آنها تأثيري در احتمال رخ دادن ديگري نداشته باشد. مثلاً اينکه با دست چپ سکه اي را پرتاب کنيم و خط بيايد تأثيري در احتمال رخ دادن شير در پرتاب سکه با دست راست ندارد. بنابراين دو پرتاب فوق از هم مستقل هستند. اگر احتمال وقوع خط در پرتاب با دست چپ 1/2و با دست راست هم1/2 باشد، احتمال اينکه دو بار و هر بار با يک دست پرتاب کنيم و در هر دو پرتاب خط بيايد برابر است با 1/4= 1/2× 1/2 امتحان کردن آن هم کار ساده اي است. اگر با هر دو دست پرتاب کنيم انتظار داريم نيمي از پرتاب هاي دست چپ شير و نيمي ديگر خط باشد. براي دست راست هم نيمي شير و نيمي خط، چرا که نتيجه ي پرتاب دست چپ تأثيري بر نتيجه ي پرتاب دست راست ندارد. بنابراين حدود 1/4 از پرتاب هاي دست چپ و راست هر دو خط را نشان مي دهند. به طور مشابه انتظار داريم حدود 1/4چپ خط راست شير، 1/4چپ شير راست خط، 1/4 هر دو شير و 1/4 هم هر دو خط بيايند.
در مقابل احتمال اينکه شخصي در خيابان زمين بخورد با احتمال برفي بودن زمين در آن روز، قطعاً از هم مستقل نخواهند بود. اين پديده ها به هم وابسته هستند. يکي از اين پديده هاي وابسته ماجراي غم انگيز خانم سالي کلارک و از بين رفتن دو فرزند او در اثر يک عامل مشابه است. وقتي پديده هايي از هم مستقل نباشند، نمي توانيم احتمال وقوع همزمانشان را به سادگي از ضرب احتمال رخ دادن هر يک به طور جداگانه به دست آوريم. در واقع اين اشتباهي بود که در مورد خانم کلارک اتفاق افتاد. براي درک اين مطلب دو پديده را در نظر بگيريد که کاملاً به هم وابسته اند طوري که نتيجه ي يکي از اين رخدادها نتيجه ي ديگري را کاملاً مشخص مي کند. مثلاً آزمايش پرتاب سکه با دو رخداد زير را مد نظر قرار دهد. رخداد اول: طرف خط سکه رو قرار بگيرد. رخداد دوم طرف شير زير قرار بگيرد. هر کدام از اين پديده ها احتمال 1/2 دارند احتمال اينکه خط رو قرار بگيرد 1/2و احتمال اينکه شير در زير قرار بگيرد نيز برابر 1/2است. اما به وضوح پيداست که اين دو پديده از هم مستقل نيستند. در واقع کاملاً به هم وابسته اند. بنابراين وقتي يکي از اين پديده ها اتفاق بيفتد ( خط رو باشد ) دومي هم بايد به وقوع بپيوندد ( شير زير قرار بگيرد )، چرا که کاملاً به هم وابسته اند. بنابراين احتمال اينکه هر دو اين رخدادها اتفاق بيفتند برابر احتمال وقوع يکي از آنها است که 1/2است و اين مقداري نيست که اگر احتمالات جداگانه را در هم ضرب مي کرديم به دست مي آمد ( برابر 1/4).
در واقع وابستگي ميان دو پديده به اين معني است که، احتمال وقوع يکي از آنها به اينکه آيا ديگري رخ داده است يا نه بستگي دارد.
آماردان ها احتمال اينکه دو پديدده همزمان اتفاق بيفتند را احتمال توأم (5) آن دو پديده مي گويند. مثلاً مي توانيم درباره ي احتمال توأم زمين خوردن و برفي بودن خيابان صحبت کنيم. احتمال توأم دو پديده رابطه ي تنگاتنگي با احتمال مقابل دارد: احتمال وقوع يکي از اين دو پديده وقتي مي دانيم ديگري اتفاق افتاده است. اين احتمال جديد، احتمال شرطي (6) ناميده مي شود. احتمال رخ دادن پديده اي وقتي مي دانيم رخداد ديگري به وقوع پيوسته است. بنابراين زماني که مي دانيم برف باريده و خيابان برفي است مي توانيم درباره ي احتمال شرطي سرخوردن صحبت کنيم.
احتمال توأم رخ دادن A و B به سادگي برابر است با احتمال وقوع A ضرب در احتمال ( شرطي ) B، به شرط اينکه A رخ داده باشد ( احتمال B به شرط A ). احتمال توأم بارش برف و زمين خوردن برابر است با احتمال بارش برف ضرب در احتمال زمين خوردن به شرط بارش برف ( يعني احتمال زمين خوردن زماني که مي دانيم برف باريده است ).
براي درک بهتر مطلب مثال پرتاب تاس و دو پديده ي زير را در نظر بگيريد. تاسي را پرتاب مي کنيم، اگر عدد حاصل بر 2 بخش پذير بود رخداد را A و اگر بر 3 بخش پذير بود آن را B مي ناميم. احتمال توأم اين پديده ها برابر است با احتمال اينکه عدد حاصل هم بر 2 و هم بر 3 بخش پذير باشد، که برابر 1/6 است، زيرا در ميان اعداد 1، 2، 3، 4، 5 و 6 فقط يکي از اعداد ( عدد 6 ) هم بر 2 و هم بر 3 بخش پذير است. حال احتمال شرطي B به شرط A را به دست مي آوريم. يعني احتمال اينکه عدد حاصل بر 3 بخش پذير باشد با فرض اينکه مي دانيم بر 2 بخش پذير است. در ميان تمام اعداد که بر دو بخش پذيرند ( يعني در ميان 2، 4 و 6 ) فقط يکي بر 3 بخش پذير است. بنابراين احتمال شرطي برابر 1/3 است. در نهايت احتمال رخ دادن خود پديده ي A هم که مي دانيم 1/2 است ( نيمي از اعداد 1 تا 6 بر 2 بخش پذيرند ). لذا احتمال رخداد A ضرب در احتمال رخداد B به شرط A مساوي است با 1/6= 1/3× 1/2
همان طور که مشاهده مي شود، اين عدد برابر احتمال توأم وقوع عددي است که هم بر 2 و هم بر 3 بخش پذير باشد احتمال توأم وقوع دو پديده ي A و B به طور همزمان.
اين مطلب نشان مي دهد، احتمال وقوع رخداد A به شرط وقوع B لزوماً با احتمال وقوع B به شرط A برابر نيست. مثلاً احتمال اينکه کسي که شرکت بسيار بزرگي را اداره مي کند بتواند رانندگي کند با احتمال اينکه يک راننده بتواند شرکت بزرگي را اداره کند لزوماً برابر نيست. به اين ترتيب به قضيه ي بسيار مهم ديگري در احتمالات مي رسيم: قضيه ي بيز (7) ( يا قانون بيز ). به کمک اين قضيه مي توانيم دو احتمال شرطي را به هم مرتبط کنيم. احتمال A به شرط B و احتمال B شرط A.
قبلاً ديديم احتمال وقوع همزمان دو پديده ي A و B، برابر است با حاصل ضرب احتمال وقوع A در احتمال وقوع B به شرط A. اما اين مطلب را مي توان به شکل ديگري هم بيان کرد: احتمال اينکه دو پديده ي A و B همزمان اتفاق بيافتند برابر است با حاصل ضرب احتمال وقوع B در احتمال وقوع رخداد A به شرط وقوع B. تمام آن چيزي که قانون بيز بيان مي کند اين است که اين دو راه بيان هاي معادلي براي احتمال توأم دو پديده ي A و B هستند. يعني احتمال A در احتمال B به شرط A برابر است با احتمال B ضرب در احتمال A به شرط B و هر دو نيز برابر احتمال وقوع همزمان پديده هاي A و B هستند. در مثال مديريت شرکت و رانندگي، قضيه ي بيز مي گويد احتمال اينکه مدير يک شرکت بزرگ باشيد ضرب در احتمال اينکه بتوانيد رانندگي کنيد به اين شرط که مدير يک شرکت بزرگ باشيد، برابر است با احتمال اينکه بتوانيد رانندگي کنيد ضرب در احتمال اينکه مدير يک شرکت بزرگ باشيد به شرط اينکه بتوانيد رانندگي کنيد و هر دو برابرند با احتمال اينکه همزمان هم مدير يک شرکت بزرگ باشيد و هم بتوانيد رانندگي کنيد.
قانون ديگري در احتمال وجود دارد که نشان مي دهد اگر هر کدام از پديده ها بتوانند روي دهند اما وقوع هر دو پديده امکان پذير نباشد، احتمال اينکه يکي از اين پديده ها اتفاق بيافتد ( اولي يا دومي ) برابر است با حاصل جمع احتمال وقوع هر کدام از پديده ها به صورت جداگانه. اگر سکه اي را پرتاب کنيم واضح است که نمي تواند هم شير بيايد و هم خط لذا احتمال اينکه شير بيايد يا خط برابر است با جمع احتمال هر يک از آنها، که اگر سکه ي مورد نظر سالم باشد هر کدام از اين احتمالات برابر 1/2هستند. بنابراين احتمال اينکه يا شير بيايد يا خط برابر 1= 1/2+ 1/2 است که از ابتدا هم بديهي بود. احتمال 1 در اينجا به اين معني است که حتماً يکي از اين دو رويداد اتفاق خواهند افتاد ( فرض بر اين است که سکه نمي تواند بر لبه ي خود قرار بگيرد! ).
به مثال پرتاب تاس بر مي گرديم. احتمال اينکه در پرتاب تاس عادي زوج ديده شود برابر است با حاصل جمع احتمال وقوع هر يک از اعداد 2، 4و 6، چرا که هيچ يک از اين رخدادها نمي توانند با هم روي دهند و ضمناً راه ديگري هم براي آمدن يک عدد زوج در پرتاب يک تاس وجود ندارد.

متغيرهاي تصادفي (8) و توزيع هايشان

در بخش قبل ديديم که چقدر ساده مي توان آماره هاي خلاصه جهت کسب اطلاعات از مجموعه هاي بزرگ مقادير بعضي از متغيرها به کار برد، اين مجموعه ها را خلاصه کرد و به توزيعي براي اين مقادير رسيد. مي دانيم هر مجموعه ي واقعي از داده ها محدود است، به اين معني که تعداد متناهي از مقادير را در بر دارد. اين مجموعه متناهي مي تواند مقادير تمام يا بخشي از چيزهايي باشد که قرار است آنها را مورد مطالعه قرار دهيم ( مثلاً امتياز تمام بازيکنان ليگ برتر در يک سال خاص ).
يک فضاي نمونه، زير مجموعه اي از تمام مقادير مجموعه است. بعضاً ممکن است مجموعه ي کل جمعيت به درستي مشخص نباشد يا گاهاً بسيار بزرگ يا حتي نامتناهي باشد، بنابراين چاره اي نداريم جز اينکه با يک فضاي نمونه کار کنيم. مثلاً در هر بار آزمايش براي اندازه گيري سرعت نور انتظار داريم مقدار نسبتاً متفاوتي به دست آوريم. دليلش هم به وضوح عدم دقت دستگاه ها و فرآيندهاي اندازه گيري است. در واقع حداقل روي کاغذ مي توان اندازه گيري ها را تا ابد انجام داد يعني اين آزمايش پتانسيل داشتن جمعيت نامتناهي را دارد، اما از آنجا که اين عمل غير ممکن است ناچاريم به يک فضاي نمونه ي متناهي از اندازه گيري ها قانع شويم. هر کدام از اين اندازه ها ممکن است از ميان مجموعه اي از مقادير انتخاب شوند. در بعضي موارد هم جمعيت کل محدود است مثلاً، در مطالعه ي بيماري چاقي روي پيرمردهاي يک شهر خاص، با جمعيتي متناهي سر و کار داريم. در حالي که مي توان وزن تمام مردهاي شهر را اندازه گرفت، اما در عمل چنين تصميمي نمي گيريم، بلکه فقط با تعدادي از آنها کار مي کنيم که همان فضاي نمونه را تشکيل خواهند داد. مجدداً يادآوري مي کنم، هر مقدار در فضاي نمونه از کل جمعيت مقادير ممکن انتخاب مي شود.
در هر دو اين مثال ها تمام چيزي که قبل از اندازه گيري مي دانيم اين است که با مقاديري سرو کار خواهيم داشت که همه از جمعيت مقادير ممکن انتخاب مي شوند. هر مقداري با احتمال خاص خود اتفاق مي افتد که امکان دارد ميزان اين احتمال را ندانيم. مطمئناً نمي توان دقيقاً گفت چه مقداري در اندازه گيري وزن نفر بعدي به دست خواهيم آورد. مشابها در پرتاب تاس مي دانيم خروجي ها ( نتايج ) اعداد 1، 2، 3، 4، 5 يا 6 هستند. اگر تاس مکعب کامل باشد مي دانيم اين اعداد کاملاً مشابهند و احتمال وقوعشان يکي است ( تاس مکعب کامل است )، اما ديگر نمي توانيم بگوييم در پرتاب بعدي کدام عدد خواهد آمد. همانند اندازه گيري وزن و سرعت، اينجا نيز خروجي کاملاً تصادفي است به همين دليل چنين متغيرهايي را متغيرهاي تصادفي مي ناميم.
در مورد صدک ها، بيستمين صدک در يک توزيع برابر مقداري است که 20 % داده ها از آن کوچک ترند و 8 مين صدک مقداري است که 8 % داده ها کوچک تر از آن باشند. در حالت کلي صدک kام برابر عددي است که k% مقادير فضاي نمونه از آن کوچک تر هستند. مي توانيم اين تعريف صدک ها را نه فقط براي مجموعه ي نمونه که در حال بررسي آن هستيم، بلکه براي تمام مجموعه ي مقاديري که مي توانيم مورد مطالعه قرار دهيم، تعميم دهيم. اگر صدک 20ام يک مجموعه ي کامل از مقادير را بدانيم با توجه به آن مي توانيم بگوييم اگر مقداري را به صورت تصادفي از آن مجموعه انتخاب کنيم با احتمال 2 /0 کوچک تر از مقدار آن صدک است. در حالت کلي اگر تمام صدک هاي جمعيتي را بدانيم احتمال انتخاب عددي کمتر از 10 يا 16 يا 25% يا 98% يا هر درصد ديگري که مي خواهيم را نيز در اختيار داريم. يعني همه چيز را درباره ي هر توزيع ممکن از مقادير در اختيار داريم. هر چند نمي توان گفت عدد بعدي چه خواهد بود. اما مي توان تعيين کرد با چه احتمالي در 1% يا 2% کوچک ترين اعداد يا هر درصد ديگري قرار خواهد گرفت.
اين مجموعه ي کامل از چارک ها نام خاص خود را دارد. به اين مجموعه توزيع تجمعي احتمال (9) مي گوييم. اين توزيع احتمال است که نشان مي دهد با چه احتمالي، عددي کوچک تر از عدد مورد نظر ما رخ مي دهد و تجمعي است به اين دليل که به وضوح، با بزرگ تر شدن x احتمال وقوع عددي کوچک تر از x زياد مي شود. فرض کنيد اگر شخصي را به تصادف انتخاب کنيم به احتمال 1/2وزنش کمتر از 70 کيلوگرم باشد. با اين فرض بديهي است احتمال اينکه وزن افراد اين مجموعه کمتر از 80 کيلوگرم باشد بيشتر از 1/2خواهد بود، چرا که علاوه بر افراد زير 70 مي توان از افرادي با وزن 70 تا 80 کيلوگرم هم انتخاب کرد. در حالت حدي احتمال رخ دادن عددي کمتر يا مساوي بزرگ ترين مقدار در مجموعه برابر 1 است. بدين معني که حتماً رخ خواهد داد.
اين ايده در شکل 2 نشان داده شده است. در اين نمودار مقادير متغيرهاي تصادفي ( مثلاً وزن ) در محور افقي و احتمال رخ دادن عددي کمتر از عدد متناظر در محور افقي بر روي محور عمودي رسم شده است. اين شکل به ازاي هر مقدار متغير تصادفي x، احتمال انتخاب عددي کوچک تر از x را به طور تصادفي نشان مي دهد.
توزيع احتمال تجمعي يک متغير تصادفي، احتمال اينکه يک مقدار تصادفي کمتر از يک مقدار داده شده باشد را در اختيار ما قرار مي دهد. مي توان طور ديگري هم به مسئله نگاه کرد. مثلاً مي خواهيم احتمال قرار گرفتن يک مقدار تصادفي را ميان دو عدد مشخص بيابيم. اين احتمال به سادگي بر حسب مساحت محصور بين دو مقدار مورد نظر و نمودار چگالي احتمال بيان مي شود.
** توضيح تصوير:

value of random variable
1. توزيع تجمعي احتمال
** توضيح تصوير:

value of random variable
2. تابع چگالي احتمالي
در شکل 3 چنين نمودار چگالي احتمالي نشان داده شده است. در اين نمودار مساحت هاشور خورده ميان نقاط a و b احتمال اينکه مقدار تصادفي ميان اين دو عدد باشد را نشان مي دهد. اگر از چنين نموداري براي توزيع وزن مردان يک شهر استفاده کنيم، به وسيله ي آن مي توان احتمال قرار داشتن وزن شخص خاصي بين 70 و 80 کيلوگرم يا بين هر دو عدد ديگر را به دست آورد. همين طور مي توان تعيين کرد با چه احتمالي اين مقدار از عدد مشخصي کمتر يا بيشتر است. در حالت کلي مقادير تصادفي انتخابي تمايل دارد. در نواحي با احتمال بيشتر قرار بگيرند، و اين همان نقطه اي است که در آن چگالي احتمال ماکزيمم است.
توجه کنيد کل مساحت زير نمودار 3 بايد برابر 1 باشد، که متناظر با قطعيت رخداد است.
منحني هاي توزيع احتمال براي متغيرهاي تصادفي مختلف اشکال متفاوتي دارند. به عنوان مثال احتمال اينکه وزن يک زن مقداري بين 70 تا 80 کيلوگرم باشد، با احتمال اينکه وزن مردي بين همين دو مقدار باشد برابر نيست. انتظار داريم نمودار توزيع وزن زنان در مقايسه با مردان مقادير بزرگ تري را براي وزن هاي کمتر به خود بگيرد.
هر کدام از اين توزيع ها به دلايلي اهميت خاص خود را داشته و کاربردهاي خاصي دارند. در بعضي موارد توزيع هاي خاص يا تقريب هايي از آنها برخاسته از پديده هاي طبيعي و در بعضي ديگر نتيجه ي قوانين احتمالانند.
يکي از ساده ترين توزيع ها، توزيع برنولي (10) است. متغير تصادفي اين توزيع فقط دو مقدار به خود مي گيرد که اگر احتمال يکي را p بگيريم احتمال ديگري برابر 1- p خواهد بود. زيرا فقط دو مقدار مي تواند اتفاق بيافتد و بايد مجموع اين احتمالات برابر 1 باشد. البته قبلاً به طور ضمني مثال هايي از کاربرد اين توزيع را بيان کرده ايم. مسائلي با خروجي دو مقداري بسيار رايج هستند.مثل پرتاب سکه با دو خروجي شير و خط، تولد نوزاد با خروجي پسر يا دختر بودن نوزاد. در اين دومثال مقدار p برابر 1/2 است. بسياري از شرايط نيز وجود دارد که خروجي هاي دو مقداري مثلاً با مقادير بله / خير، خوب / بد، توقف/ حرکت و ... داريم.
توزيع ديگر توزيع دو جمله اي (11) است که از گسترش توزيع برنولي به دست مي آيد. اگر سکه اي را 3 بار پرتاب کنيم، تعداد دفعاتي که شير آمده، برابر 0، 1، 2 يا نهايتاً 3 خواهد بود. اگر در يک مرکز تلفن 3 اپراتور داشته باشيم که به محض تماس پاسخ گو باشند در اين صورت در يک زمان خاص ممکن است 0، 1، 2 يا 3 نفر از آنها مشغول باشند. توزيع دو جمله اي احتمال اينکه هر کدام از اعداد 0، 1، 2 يا 3 رخ دهند. را در اختيار مان قرار مي دهد. البته به 3 پرتاب يا 3 اپراتور محدود نيست و در حالت کلي صادق است. مثلاً اگر 100 بار سکه را پرتاب کنيم توزيع دو جمله اي مي گويد احتمال اينکه 0، 1، 2، ... يا 100 بار شير بيايد چقدر است.
مثال ديگري را در نظر بگيريد. تعداد ايميل هايي که روزانه به کامپيوتر افراد مي رسد معمولاً عددي تصادفي است. مثلاً به طور متوسط در هر صبح کاري حدوداً پنج ايميل در هر ساعت به من مي رسد. البته اين تعداد گه گاه تغيير مي کند. گاهي تا 10 ايميل در ساعت بالا مي رود و گاهي هم در يک ساعت اصلاً ايميلي نمي رسد.
توزيع پواسون (12) مي تواند براي توصيف توزيع احتمال تعداد ايميل هايي که در هر ساعت مي رسند استفاده شود. اين توزيع نشان مي دهد احتمال اينکه 1، 2، 3 و ... ايميل در هر ساعت برسد يا اصلاً ايميلي نرسد چقدر است ( اگر اين ايميل ها به طور مستقل از هم برسند و تعداد ايميل ها در هر ساعت ثابت باشد ). اين توزيع با توزيع دو جمله اي متفاوت است چرا که، هيچ حد بالايي براي تعداد ايميل هاي ورودي در هر ساعت وجود ندارد. همان طور که در پرتاب سکه ديديم اگر 100 پرتاب داشته باشيم حداکثر 100 بار مي تواند شير يا خط رخ دهد. در حالي که در يک روز پر کار ممکن است بيشتر از 100 ايميل در ساعت به دستمان برسد.
تا اينجا تمام توزيع هاي احتمالاتي که بررسي کرديم مربوط به متغيرهاي تصادفي گسسته بودند. جايي که متغيرهاي تصادفي تنها مي توانند مقادير مشخص و مجزا به خود بگيرند ( دو مقدار در توزيع برنولي، به تعداد پرتاب هاي سکه يا تعداد اپراتورها در توزيع دو جمله اي و مقادير 0، 1، 2، 3،.... در توزيع پراسون ). متغيرهاي ديگري هم وجود دارد که پيوسته هستند و مي توانند هر مقداري را در يک بازه به خود بگيرند. مثلاً متغير تصادفي قد افراد مي تواند هر مقداري را در يک بازه ي مشخص داشته باشد ( که بستگي به دقت وسايل اندازه گيري دارد ) و محدود به اعداد مثلاً 150، 160، 170 و... سانتي متر نيست.
اگر يک متغير تصادفي بتواند در يک بازه ( مثلاً بين 0 و 1 ) هر مقداري به خود بگيرد و تمام اعداد اين بازه از لحاظ شانس وقوع با هم برابر باشند مي گوييم اين متغير تصادفي از توزيع يکنواخت (13) پيروي مي کند. به عنوان مثال يک پستچي هر روز در بازه ي ساعت 10 تا 11 صبح به يک مکان مشخص مي رسد اما بيشتر از اين چيزي نمي دانيم ( به اين معني که به همان اندازه که ممکن است در بازه ي 05: 10 تا 10: 10 برسد امکان دارد در هر بازه ي 5 دقيقه اي ديگر نيز برسد ) در اين صورت زمان رسيدن او در اين بازه داراي توزيع يکنواخت است.
بعضي از متغيرهاي تصادفي هر مقدار مثبتي مي توانند داشته باشند. مثلاً مدت زمان رخ دادن يک پديده ي خاص. براي شفاف تر شدن مطلب مثال زير را در مورد طول عمر ظروف شيشه اي در نظر بگيريد. از آنجا که اين ظروف همانند انسان ها نيستند، نمي توان گفت در يک سال آينده احتمال شکستن يک ظرف 80 ساله بيشتر از احتمال شکستن يک ظرف 10 ساله است ( اگر بقيه ي شرايط کاملاً يکسان است ). در مقابل، احتمال مرگ يک پيرمرد 80 ساله در مقايسه با يک کودک 10 ساله را در طول يک سال آينده در نظر بگيريد. در مورد شيشه اگر بدانيم تا زمان t نشکسته است، احتمال شکستن آن در سال جاري باز هم همان مقدار قبلي است ( مجدداً يادآوري مي شود که بقيه ي شرايط بايد کاملاً يکسان باشند ). با اين توضيحات طول عمر ظروف شيشه اي داراي توزيعي است که به آن توزيع نمايي (14) مي گوييم. توزيع نمايي کاربردهاي بسيار زيادي دارد و تنها به اين مورد محدود نمي شود.
اما به نظر مي رسد که مشهورترين توزيع پيوسته، توزيع نرمال يا توزيع گوسي (15) باشد که اغلب به طور ساده توسط شکل کلي آن توصيف مي شود. همان طور که در نمودار 4 ديده مي شود اين توزيع به شکل يک زنگ است.
معني شکل اين است که احتمال رخ دادن مقاديري مياني به نسبت مقادير که در کناره ها قرار گرفته اند بيشتر است و هر چه از وسط شکل دور شويم احتمال رخ دادن کمتر هم مي شود. توزيع
** توضيح تصوير:

3. توزيع نرمال
نرمال تقريب خوبي براي بسياري از پديده هايي است که به صورت طبيعي رخ مي دهند. براي مثال توزيع قد يک مجموعه ي تصادفي از افراد از توزيع نرمال پيروي مي کند.
همچنين توزيع نرمال اغلب به عنوان مدل خوبي براي شکل توزيع آماره هاي نمونه ( چيزي شبيه آماره هاي خلاصه است ) زماني که فضاي نمونه بزرگي انتخاب مي کنيم، مطرح است. فرض کنيد به طور مکرر فضاهاي نمونه ي تصادفي از بعضي توزيع ها انتخاب کرده و ميانگين هر کدام از آنها را محاسبه کنيم. از آنجا که نمونه ها با هم متفاوتند. انتظار مي رود که ميانگين هاي حاصل هم متفاوت باشند و در نتيجه توزيعي از مقادير ميانگين ها خواهيم داشت. اگر هر کدام از اين فضاهاي نمونه به اندازه ي کافي بزرگ باشند، توزيع ميانگين هاي آنها تقريباً نرمال خواهد بود.
آمار مجموعه اي از ابزارهاي مجزا نيست، بلکه يک زبان به هم پيوسته است. چنين نکته اي در مورد توزيع هاي احتمالاتي هم وجود دارد. اگر چه اين توزيع ها به صورت جداگانه معرفي شدند، اما در حقيقت با هم ارتباط نزديکي دارند. مثلاً توزيع برنولي يک آزمايش از آزمايش هاي توزيع دو جمله اي است ( يعني همان توزيع دو جمله اي است اگر فقط دو خروجي داشته باشيم ). اگر چه رياضيات اين مطالب فراتر از سطح اين مقاله هاست، اما مي توان نشان داد که توزيع پواسون يک حالت حدي از توزيع دو جمله اي است. توزيع هاي پواسون و نمايي يک زوج طبيعي را شکل مي دهند. همين طور مي توان نشان داد هر چه تعداد رخ دادها را بيشتر کنيم توزيع دو جمله اي به توزيع نرمال نزديک تر مي شود و موارد بسياري از اين دست. در حقيقت تمام اين توزيع ها اجزاء يک پيکر در رياضيات هستند.
همان طور که مشاهده کرديد توزيع هاي فوق از طريق شکل هاي متفاوتي که دارند معرفي شدند. اما اين شکل ها به راحتي توسط رياضيات قابل بيانند. ديديم توزيع برنولي به وسيله ي يک مقدار p مشخص مي شود. مقادير مختلف p متناظر با توزيع هاي برنولي مختلف هستند. مي توان خروجي پرتاب سکه را با يک توزيع برنولي با احتمال آمدن خط برابر 1/2= p. و احتمال تصادف يک خودرو در طول مسافرت را با توزيع برنولي با p ( احتمال وقوع تصادف ) که مقدار بسيار کوچکي باشد مدل کرد. در اين شرايط p را پارامتر مي ناميم.
توزيع هاي ديگر هم به کمک پارامترهايشان بيان مي شوند. علاوه بر اين، پارامترها، کاملاً مشخص مي کنند درباره ي کدام عضو از خانواده ي توزيع ها صحبت مي کنيم. براي اينکه اين مطلب را بهتر درک کنيد به قانون اعداد بسيار بزرگ بر مي گرديم. اين قانون نشان مي داد اگر آزمايش هاي مستقلي را مکرراً انجام دهيم که خروجي آن A با احتمال P و B با احتمال P- 1 باشد، در اين صورت هر چه تعداد آزمايش ها را بيشتر کنيم نسبت رخ دادن A بيشتر به P نزديک مي شود. مي توان اين قانون را تعميم داد. به طور خاص فرض کنيد به جاي اينکه آزمايشي را تنها با دو خروجي در نظر بگيريم، رخدادي را مد نظر قرار دهيم که مي تواند هر مقداري از يک توزيع در يک بازه به خود بگيرد. مثلاً هر مقداري در بازه ي [1، 0 ]. فرض کنيد مکرراً مجموعه اي از n اندازه گيري از چنين توزيعي را انتخاب کنيم. طبق قانون اعداد بزرگ انتظار داريم، با بزرگ تر شدن n، ميانگين اين n عدد به يک مقدار ثابت ميل کند. در واقع مي توان تصور کرد که n را بدون محدوديت بزرگ مي کنيم و ميانگين اين فضاي نمونه که به طور حسي نامتناهي است را به دست مي آوريم. همان طور که پيداست اين ميانگين همان ميانگين کل توزيع است. براي مثال بااستفاده از اين ايده نه تنها مي توان در مورد ميانگين يک فضاي نمونه در توزيع نمايي که حتي در مورد ميانگين خود اين توزيع هم صحبت کرد. همان طور که توزيع هاي برنولي مختلف داراي پارامترهاي p مختلفي هستند، توزيع هاي نمايي متفاوت هم ميانگين هاي متفاوتي دارند. لذا ميانگين در اين حالت پارامتر توزيع نمايي محسوب مي شود.
در يکي از مثال هاي قبلي ديديم توزيع نمايي مي تواند مدل موجهي براي طول عمر يک ظرف شيشه اي باشد ( در شرايط مشخص ). حال مي توانيم دو دسته از چنين ظرف هايي را مد نظر قرار دهيم: يک دسته از شيشه هاي سخت و ضخيم و دسته ي ديگر از شيشه هاي ظريف و نازک ساخته شده اند. واضح است انتظار داريم به طور ميانگين ظروف دسته ي اول در مقايسه با دسته ي دوم عمر بيشتري داشته باشند. در نتيجه اين دو دسته پارامترهاي متفاوتي خواهند داشت.
به طريق مشابه براي توزيع هاي ديگر هم مي توان پارامترهاي مناسب تعريف کرد: يعني مي توان براي يک فضاي نمونه ي نامتناهي از يک توزيع مشخص، آماره هاي خلاصه را محاسبه کرد. مثلاً براي فضاهاي نمونه ي نامتناهي از اعضاي خانواده توزيع هاي نرمال مي توانيم ميانگين حساب کنيم. اما در اينجا کار اندکي پيچيده تر است، چرا که اعضاي اين خانواده از توزيع ها تنها به وسيله ي يک پارامتر قابل بيان نيست و براي توصيفشان به دو پارامتر احتياج داريم. در واقع بايد ميانگين و انحراف معيار توزيع را داشته باشيم. يا داشتن اين دو پارامتر، به طور يکتا مي دانيم درباره ي کدام عضو از خانواده ي توزيع هاي نرمال صحبت مي کنيم.
قانون اعداد بزرگ چيزهاي ديگري هم براي گفتن دارد. در نظر بگيريد تعداد زيادي مجموعه از يک توزيع داريم که هر کدام از اين توزيع ها اندازه اي برابر n دارند. ميانگين را براي هر مجموعه محاسبه مي کنيم. اين ميانگين ها خود فضاي نمونه اي از يک توزيع اند. توزيعي از مقادير ممکن براي ميانگين يک مجموعه ي n ، بهتر و بهتر مي شود. در واقع، علاوه بر اين، اين قضيه نشان مي دهد که ميانگين اين توزيع از ميانگين ها برابر است با ميانگين کل مقادير مجموعه و همين طور واريانس اين توزيع از ميانگين ها تنها n / 1 واريانس توزيع کل جمعيت است. اين نتيجه در آمار بي نهايت کاربردي و سودمند است. زيرا به کمک آن مي توان ميانگين يک مجموعه را با هر دقتي تخمين زد. فقط کافي است n را به اندازه کافي بزرگ انتخاب کنيم ( نمونه را به اندازه کافي بزرگ انتخاب کنيم ( نمونه را به اندازه کافي بزرگ انتخاب کنيم ). اندازه ي فضاي نمونه ( n ) را هم توسط قضيه حد مرکزي تعيين مي کنيم. به طور کلي، اين قانون که مي توان تخمين هاي بهتر و بهتري را فقط با انتخاب فضاي نمونه به اندازه ي کافي بزرگ به دست آورد بسيار قدرتمند است.
به مثال ديگري توجه کنيد. در نجوم و کيهان شناسي اشيائي که در فواصل خيلي دور قرار دارند بسيار کم نورند، و بررسي ها در اثر تغييرات سيگنال ها پيچيده مي شود. با اين حال اگر، تعداد زيادي تصوير از شي ء اي خاص تهيه کنيم و آنها را کاملاً روي هم قرار دهيم، مثل اين است که از تعداد زيادي اندازه گيري از شيء اي خاص، ميانگين گرفته باشيم، در حالي که تمام اندازه گيري ها از يک توزيع يکسان اما با بخش هاي تصادفي اضافي انتخاب شده اند. به اين معني که اثر بخش تصادفي اندازه گيري ها با گرفتن ميانگين کم مي شود و نمايي واضح از سيگنال اصلي که همان شيء کيهاني است به جا مي گذارد.

پي‌نوشت‌ها:

1. calculus of probability.
2. degree of belief.
3. subjective or personal probability.
4. frequentist.
5. joint probability.
6. conditional probability.
7. Bayes"s theorem
8. random variables.
9. cumulative probability distribution.
10. Bernoulli distribution.
11. binomial distribution.
12. Poisson distribution.
13. uniform distribution.
14. exponential distribution.
15. Gaussian distribution.

منبع مقاله :
هند، ديويد جي؛ (1391)، آمار، ترجمه ي بصير والي، تهران: انتشارات حکمت، چاپ اول