تحليل علمي انتخابات رياست جمهوري 88
تحليل علمي انتخابات رياست جمهوري 88
تحليل علمي انتخابات رياست جمهوري 88
نويسنده: سید مهدی سید نصرالله
(سازگاری نتایج انتخابات با آزمونهای بنفورد)
مقدمه: با توجه با داغ بودن موضوع صحت انتخابات در روزهاي اخير، مقاله اي با عنوان "مستندات علمی دستکاری در آراء انتخابات دهمین دوره انتخابات" در پایگاههای متعدد اینترنتی مرا بر آن داشت تا محاسبات ادعايي در آن مقاله را بررسی كنم كه نتيجه اين امر چيزي جز رد آن مقاله و اطمينان از نتايج انتخابات نبود. در مقاله ادعايي هيچ نموداري رسم نشده بود تا اصل ماجرا مشخص گردد و البته قسمتهاي اصلي مقاله يعني محاسبه ميزان خطا و انحراف، كاملا اشتباه بود و تعمداً از مقادیر نرمال نشده استفاده شده بود و نتيجه ديگري را به خواننده القا ميكرد. اما در مقاله پيش رو سه آزمون متعارف آماری براي بررسي علمي نتايج انجام شده است تا به طور كامل صحت داده ها تحليل گردد. اميد است تا خوانندگان گرامي، نگارنده را از نظرات خود بهرهمند سازند.
طی چند روز گذشته بحثهای فراوانی در خصوص امکان و احتمال تقلب در انتخابات ایران بعمل آمده است. با توجه به اینکه بازشماری آراء کاری پرزحمت برای دستگاه اجرایی و نظارتی انتخابات خواهد بود باید، کاندیداهای معترض شواهد و مستندات قابل قبولی را به این مراجعه اعلام نمایند تا دستکاری در نتایج انتخابات را آشکارا نشان دهد. راههای علمی زیادی وجود دارد که با استفاده از آمارهای اعلام شده توسط وزارت کشور این دستکاری ها در صورت وجود به نمایش گذاشته شود و يا صحت انتخابات از لحاظ شاخصهاي علمي آمار بررسي شود.
صحبت از تقلب در انتخابات تنها یک موضوع مختص به ایران و حتی کشورهای در حال توسعه نظیر ونزوئلا، مکزیک، و زیمباوه نیست و در سال 2000 شاهد بودیم که بحث تقلب در انتخابات ریاست جمهوری در ایالت فلوریدا به موضوع داغ آنروزها بدل شده بود. به هر حال آنچه مسلم است آنکه اهمیت سیاست و موضوع تقلب در انتخابات سبب شده که دانشمندان علم آمار با استفاده از کمترین داده های موجود از انتخابات روشهای آماری را طراحی کنند که با کمک آن بتوان با صراحت در مورد سلامت انتخابات اظهار نظر نمایند. یکی از معمول ترین این روشها روشی است که از قانون بن فورد (Benford’s Law) پیروی میکند. بطور خیلی مختصر و قابل درک برای خوانندگان این قانون به آن اشاره دارد که رقمهای مربوط به یک عدد (خواه یک رقمی یا بیش از یک رقمی) حاصل از شمارش یک پدیده در جهان خارج (جهان واقعی) از توزیع نرمال (Normal distribution) یا توزیع یک فرم (Uniform distribution) پیروی نمیکند بلکه از توزیعی شبیه توزیع Chi Square پیروی میکند. آقای بنفورد احتمال این اعداد را برای حوادثی چون انتخابات محاسبه کرده است. قابل ذکر است که اعداد ذکر شده در قانون بنفورد همانند قوانین نیوتن یک واقعیت علمی است و در حال حاضر علاوه بر مسئله انتخابات، برای رسیدگی به احتمال تقلب در سود سهام شرکتها و مسائل مالیاتی نیز از همین روش استفاده میشود.
اجازه بدهید چند خط از این مقاله را به توضیح ساده این قانون بپردازيم. در این قانون احتمال اینکه آخرین عدد سمت چپ یک عدد (فرض کنید تعداد آراء اخذ شده به نفع یک کاندیدا) که میتواند یکی از اعداد 1 تا 9 باشد با هم برابر نیست. بلکه احتمال آنکه رقم سمت چپ یک عدد، 1 باشد حدود 30% است در حالی که این احتمال برای عدد 9 در حدود 4.5%. همچنین است احتمال وجود عدد 0 تا 9 برای دومین رقم سمت چپ تعداد آراء اخذ شده به نفع یک کاندیدا كه آن نيز از قانون ديگري پيروي ميكند.
طبق اين قانون احتمال ظهور اعداد در رقم اول از رابطه 1 تبعيت ميكند:
براي توضيح بيشتر به توزيع رقمهاي اول، دوم و سوم يك دسته تصادفي ميپردازيم، براي نمونه يك دسته 20000تايي اعداد تصادفي كه به پيوست خواهد آمد را در نظر ميگيريم و توزيع اعداد 1 تا 9 را در ارقام اول تا سوم آن در جدول 2 بررسي ميكنيم.
همان گونه كه در جدول 2 ديده ميشود، توزيع اعداد در رقمهاي اول، دوم و سوم يك دسته تصادفي كاملا يكنواخت بوده و اين تفاوت، اصلي ترين تفاوت بين دادههاي به دست آمده از طبيعت و داده های دستکاری شده می باشد. چرا كه همان گونه كه ذكر شد، طبق قانون بنفورد براي دادههاي طبيعي اين نسبتها يكسان نيستند و مطابق جدول 1 ميباشند.
براي اينكه اهميت قانون بنفورد بهتر ديده شود، جدول 3 كه شامل مثالهايي از طبيعت و تطابق آن با قانون بن فورد است، نشان داده شده است.
همان گونه كه در جدول 3 ديده ميشود اعداد به دست آمده از طبيعت به طرز شگفت انگیزی در انواع كميتها از توزيع پيشبيني شده بنفورد تبعيت ميكند و البته جمعيت افراد و نتايج به دست آمده بر مبناي جمعيت نيز جزء اين كميت هاست.
نمودار 1 گوياي نتايج جدول 4 است كه مقايسه اين اعداد با حالت ايده آل كه در واقع معيار بنفورد ميباشد، نشان دهنده تطابق اين اعداد با مدل بنفورد است.
اگر بخواهيم اين اعداد را به صورت درصد نسبي نشان دهيم جدول 5 ارائه دهنده اين اعداد است.
اگر بخواهيم ميزان اين اختلاف را به صورت علمي حساب كنيم، بايد از روشهاي معتبر محاسبه خطا مانند Chi-Squared استفاده كنيم، بر مبناي اين رابطه داریم :
(2)
همان گونه كه ديده ميشود، بيشترين خطاي نسبي 0.07 مي باشد، كه با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
همان گونه كه در جدول 7 و نمودار 2 نشان داده شده است نتايج آراي تمامي نامزدها با مدل پيشبيني بنفورد تطابق بسيار خوبي دارد.
اگر نتايج جدول 7 را به صورت نسبي نشان دهيم به جدول 8 ميرسيم.
براي محاسبه خطا، اين بار نيز با استفاده از محاسبه Chi-Squared به تحليل نتايج ميپردازيم، که جدول 9 به همین منظور تهیه شده است.
همانگونه كه ديده ميشود، بيشترين خطاي نسبي براي اين آزمون 04/0 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
نمودار 3 گویای نتایج آزمون رقم سوم است:
بر همین اساس جدول 11 نسبت تكرار اعداد 0،1،2،3...،9 در سومين رقم سمت چپ تعداد آراي هر نامزد را نشان می دهد.
همانگونه كه ديده ميشود، بيشترين خطاي نسبي براي اين آزمون 0.03 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
1. پايگاه اينترنتي وزارت كشور www.moi.ir
2. “Detecting Problems in Survey Data using Benford’s Law”, George Judge, University of California at Berkeley, Laura Schechter, University of Wisconsin at Madison, November 1, 2007
3. “The Effective Use of Benford’s Law to Assist in Detecting Fraud in Accounting Data”, Cindy Durtschi,William Hillison, Carl Pacini, Journal of Forensic Accounting, Vol. V 2004, pp 17-34
4. “Election Forensics: Vote Counts and Benford's Law”, Walter R. Mebane, Jr., July 17, 2006
5. http://mathworld.wolfram.com/Chi-SquaredTest.html
6. http://mathworld.wolfram.com/BenfordsLaw.html
7. http://en.wikipedia.org/wiki/Benford's_law
8. http://en.wikipedia.org/wiki/Chi-square_distribution
9. http://en.wikipedia.org/wiki/P-value
منبع: سایت الف
/خ
مقدمه: با توجه با داغ بودن موضوع صحت انتخابات در روزهاي اخير، مقاله اي با عنوان "مستندات علمی دستکاری در آراء انتخابات دهمین دوره انتخابات" در پایگاههای متعدد اینترنتی مرا بر آن داشت تا محاسبات ادعايي در آن مقاله را بررسی كنم كه نتيجه اين امر چيزي جز رد آن مقاله و اطمينان از نتايج انتخابات نبود. در مقاله ادعايي هيچ نموداري رسم نشده بود تا اصل ماجرا مشخص گردد و البته قسمتهاي اصلي مقاله يعني محاسبه ميزان خطا و انحراف، كاملا اشتباه بود و تعمداً از مقادیر نرمال نشده استفاده شده بود و نتيجه ديگري را به خواننده القا ميكرد. اما در مقاله پيش رو سه آزمون متعارف آماری براي بررسي علمي نتايج انجام شده است تا به طور كامل صحت داده ها تحليل گردد. اميد است تا خوانندگان گرامي، نگارنده را از نظرات خود بهرهمند سازند.
طی چند روز گذشته بحثهای فراوانی در خصوص امکان و احتمال تقلب در انتخابات ایران بعمل آمده است. با توجه به اینکه بازشماری آراء کاری پرزحمت برای دستگاه اجرایی و نظارتی انتخابات خواهد بود باید، کاندیداهای معترض شواهد و مستندات قابل قبولی را به این مراجعه اعلام نمایند تا دستکاری در نتایج انتخابات را آشکارا نشان دهد. راههای علمی زیادی وجود دارد که با استفاده از آمارهای اعلام شده توسط وزارت کشور این دستکاری ها در صورت وجود به نمایش گذاشته شود و يا صحت انتخابات از لحاظ شاخصهاي علمي آمار بررسي شود.
صحبت از تقلب در انتخابات تنها یک موضوع مختص به ایران و حتی کشورهای در حال توسعه نظیر ونزوئلا، مکزیک، و زیمباوه نیست و در سال 2000 شاهد بودیم که بحث تقلب در انتخابات ریاست جمهوری در ایالت فلوریدا به موضوع داغ آنروزها بدل شده بود. به هر حال آنچه مسلم است آنکه اهمیت سیاست و موضوع تقلب در انتخابات سبب شده که دانشمندان علم آمار با استفاده از کمترین داده های موجود از انتخابات روشهای آماری را طراحی کنند که با کمک آن بتوان با صراحت در مورد سلامت انتخابات اظهار نظر نمایند. یکی از معمول ترین این روشها روشی است که از قانون بن فورد (Benford’s Law) پیروی میکند. بطور خیلی مختصر و قابل درک برای خوانندگان این قانون به آن اشاره دارد که رقمهای مربوط به یک عدد (خواه یک رقمی یا بیش از یک رقمی) حاصل از شمارش یک پدیده در جهان خارج (جهان واقعی) از توزیع نرمال (Normal distribution) یا توزیع یک فرم (Uniform distribution) پیروی نمیکند بلکه از توزیعی شبیه توزیع Chi Square پیروی میکند. آقای بنفورد احتمال این اعداد را برای حوادثی چون انتخابات محاسبه کرده است. قابل ذکر است که اعداد ذکر شده در قانون بنفورد همانند قوانین نیوتن یک واقعیت علمی است و در حال حاضر علاوه بر مسئله انتخابات، برای رسیدگی به احتمال تقلب در سود سهام شرکتها و مسائل مالیاتی نیز از همین روش استفاده میشود.
اجازه بدهید چند خط از این مقاله را به توضیح ساده این قانون بپردازيم. در این قانون احتمال اینکه آخرین عدد سمت چپ یک عدد (فرض کنید تعداد آراء اخذ شده به نفع یک کاندیدا) که میتواند یکی از اعداد 1 تا 9 باشد با هم برابر نیست. بلکه احتمال آنکه رقم سمت چپ یک عدد، 1 باشد حدود 30% است در حالی که این احتمال برای عدد 9 در حدود 4.5%. همچنین است احتمال وجود عدد 0 تا 9 برای دومین رقم سمت چپ تعداد آراء اخذ شده به نفع یک کاندیدا كه آن نيز از قانون ديگري پيروي ميكند.
طبق اين قانون احتمال ظهور اعداد در رقم اول از رابطه 1 تبعيت ميكند:
براي توضيح بيشتر به توزيع رقمهاي اول، دوم و سوم يك دسته تصادفي ميپردازيم، براي نمونه يك دسته 20000تايي اعداد تصادفي كه به پيوست خواهد آمد را در نظر ميگيريم و توزيع اعداد 1 تا 9 را در ارقام اول تا سوم آن در جدول 2 بررسي ميكنيم.
همان گونه كه در جدول 2 ديده ميشود، توزيع اعداد در رقمهاي اول، دوم و سوم يك دسته تصادفي كاملا يكنواخت بوده و اين تفاوت، اصلي ترين تفاوت بين دادههاي به دست آمده از طبيعت و داده های دستکاری شده می باشد. چرا كه همان گونه كه ذكر شد، طبق قانون بنفورد براي دادههاي طبيعي اين نسبتها يكسان نيستند و مطابق جدول 1 ميباشند.
براي اينكه اهميت قانون بنفورد بهتر ديده شود، جدول 3 كه شامل مثالهايي از طبيعت و تطابق آن با قانون بن فورد است، نشان داده شده است.
همان گونه كه در جدول 3 ديده ميشود اعداد به دست آمده از طبيعت به طرز شگفت انگیزی در انواع كميتها از توزيع پيشبيني شده بنفورد تبعيت ميكند و البته جمعيت افراد و نتايج به دست آمده بر مبناي جمعيت نيز جزء اين كميت هاست.
آزمون رقم اول
نمودار 1 گوياي نتايج جدول 4 است كه مقايسه اين اعداد با حالت ايده آل كه در واقع معيار بنفورد ميباشد، نشان دهنده تطابق اين اعداد با مدل بنفورد است.
اگر بخواهيم اين اعداد را به صورت درصد نسبي نشان دهيم جدول 5 ارائه دهنده اين اعداد است.
اگر بخواهيم ميزان اين اختلاف را به صورت علمي حساب كنيم، بايد از روشهاي معتبر محاسبه خطا مانند Chi-Squared استفاده كنيم، بر مبناي اين رابطه داریم :
(2)
همان گونه كه ديده ميشود، بيشترين خطاي نسبي 0.07 مي باشد، كه با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
آزمون رقم دوم
همان گونه كه در جدول 7 و نمودار 2 نشان داده شده است نتايج آراي تمامي نامزدها با مدل پيشبيني بنفورد تطابق بسيار خوبي دارد.
اگر نتايج جدول 7 را به صورت نسبي نشان دهيم به جدول 8 ميرسيم.
براي محاسبه خطا، اين بار نيز با استفاده از محاسبه Chi-Squared به تحليل نتايج ميپردازيم، که جدول 9 به همین منظور تهیه شده است.
همانگونه كه ديده ميشود، بيشترين خطاي نسبي براي اين آزمون 04/0 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
آزمون رقم سوم
نمودار 3 گویای نتایج آزمون رقم سوم است:
بر همین اساس جدول 11 نسبت تكرار اعداد 0،1،2،3...،9 در سومين رقم سمت چپ تعداد آراي هر نامزد را نشان می دهد.
همانگونه كه ديده ميشود، بيشترين خطاي نسبي براي اين آزمون 0.03 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد دادهها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.
نتيجه گيري نهايي
1. پايگاه اينترنتي وزارت كشور www.moi.ir
2. “Detecting Problems in Survey Data using Benford’s Law”, George Judge, University of California at Berkeley, Laura Schechter, University of Wisconsin at Madison, November 1, 2007
3. “The Effective Use of Benford’s Law to Assist in Detecting Fraud in Accounting Data”, Cindy Durtschi,William Hillison, Carl Pacini, Journal of Forensic Accounting, Vol. V 2004, pp 17-34
4. “Election Forensics: Vote Counts and Benford's Law”, Walter R. Mebane, Jr., July 17, 2006
5. http://mathworld.wolfram.com/Chi-SquaredTest.html
6. http://mathworld.wolfram.com/BenfordsLaw.html
7. http://en.wikipedia.org/wiki/Benford's_law
8. http://en.wikipedia.org/wiki/Chi-square_distribution
9. http://en.wikipedia.org/wiki/P-value
منبع: سایت الف
/خ
مقالات مرتبط
تازه های مقالات
ارسال نظر
در ارسال نظر شما خطایی رخ داده است
کاربر گرامی، ضمن تشکر از شما نظر شما با موفقیت ثبت گردید. و پس از تائید در فهرست نظرات نمایش داده می شود
نام :
ایمیل :
نظرات کاربران
{{Fullname}} {{Creationdate}}
{{Body}}