https://frosthead.com

Използване на математиката за изследване на резултатите от изборите в Иран

Статистиците и политолозите провеждат ден на полето с резултатите от изборите в Иран в началото на този месец. Изборите бяха ли фалшифицирани? Може никога да не знаем, но има достатъчно погребан в математиката, за да ни накара да мислим, че може би е било така. Дори и тогава обаче има достатъчно, за да ни накараме да повярваме, че всичко е законно. Ето няколко анализа, които ми се сториха особено интересни:

Чисти данни

Веднага след изборите се появиха съмнения относно легитимността на данните, тъй като всеки път, когато се пускаше нова партида от резултати от гласуването (те излизат на парчета в Иран, подобно на Съединените щати), процентът на гласовете отива на президента Махмуд Ахмадинеджад беше същото: 67 процента. Данните обикновено не са чисти и някои започнаха да се чудят дали резултатите са били фалшифицирани.

Анализ на професора по математика от Университета на Уисконсин Джордан Елънбърг в Slate обаче задълбочава по-задълбочено данните, за да покаже, че той всъщност е по-слаб, отколкото може да се очаква. Резултатите не излизат град по град, но в големи партиди, които комбинират данни от няколко области, което означава, че общият брой на гласовете на Ахмадинеджад е наистина среден. И Законът за големите числа диктува, както Елънбърг пише:

Средните стойности на много различни количества могат и обикновено дават резултати, които изглеждат почти напълно еднакви. Като се имат предвид достатъчно данни, хората, които са останали, обикновено се отменят.

Елънбърг заключава, че данните „определено са достатъчно разхвърлени, за да бъдат верни“.

Законът на Бенфорд

Няколко анализа разгледаха първите цифри от резултатите от изборите в Иран, за да проверят дали съответстват на закона на Бенфорд, който е:

В списъци с числа от много (но не всички) източници на данни от реалния живот водещата цифра се разпределя по специфичен, нееднакв начин. Според този закон първата цифра е 1 почти една трета от времето, а по-големите цифри се появяват като водеща цифра с по-ниска и по-ниска честота, до точката, в която 9 като първа цифра се среща по-малко от един път на двадесет. Това разпределение на първите цифри възниква логично всеки път, когато набор от стойности се разпредели логаритмично.

Един анализ, използващ този въпрос, от Boudewijn Roukema от университета Николай Коперник в Полша, стигна до заключението, че има близо два пъти повече преброявания на гласове, започващи с цифрата 7 за Мехди Каруби, отколкото би се очаквало със закона на Бенфорд. Освен това Рукема подозираше, че резултатите за Ахмадинеджад, в които имаше по-малко 1 и повече 2 и 3 от очакваното, биха били вероятни, ако някой реши да манипулира резултатите, като промени 1-те точки в началото на гласуването на 2s и 3 мастни киселини. Това също би довело до надценяване на общата сума на Ахмадинеджад с няколко милиона гласа.

Уолтър Мебане, политолог и статистик в Мичиганския университет, също използва закона на Бенфорд в своя анализ, в който също открива няколко нередности в резултатите от изборите в Иран. Но дори той признава, че макар резултатите му да са „съвместими с широко разпространени измами“, те също са „съвместими с това, че Ахмадинеджад действително е спечелил“.

Последните две цифри

Двама аспиранти по политология в Колумбийския университет взеха още трети в данните. В анализ, обобщен в изданието на Washington Post, те проучиха последните две цифри от броя на гласовете от 29 провинции за всеки от четирите кандидати (например, ако някой получи 14 579 гласа, само 7 и 9 бяха взети предвид в Анализът).

Последните две цифри в резултатите от изборите са случаен шум и разпределението на цифрите трябва да бъде сравнително равномерно - всяка цифра трябва да се появява около 10 процента от времето. Хората обаче са лоши генератори на произволни числа и когато съставяме числа, сме склонни да избираме някои числа по-често от други. В резултатите на Иран само 4 процента от числата завършват в цифрата 5, докато цифрата 7 се появява 17 процента от времето. Резултати, които се отклоняват толкова много, биха се очаквали при около четири от всеки 100 избора.

Хората също имат проблеми с създаването на числа, които имат съседни цифри (т.е. има по-малка вероятност да излезете със 72, отколкото с 23), но тези числа трябва също да следват случайни модели и около 70 процента от двойките трябва да се състоят от несъседни цифри. В резултатите на Иран обаче само 62 процента го правят. Отново тези резултати биха могли да се очакват на около 4 от всеки 100 избора. Но комбинацията от двата резултата би се очаквала само при 1 от всеки 200 избори. Невъзможно е, може би, но не невъзможно.

Къде ни оставя това? Може никога да не разберем дали отчетените резултати са реални или не. Личният ми любим бит от данни от всичко това обаче не изисква изчисления, които да водят до въпроси за легитимността на изборите. Този цитат от Абас-Али Кадходей, говорител на Съвета на пазителите на Иран, би накарал почти всеки да мисли два пъти:

Статистиката, предоставена от Mohsen Resaei, в която той твърди, че повече от 100% от тези, които отговарят на изискванията, са гласували в 170 града, не са точни - инцидентът е станал само в 50 града.

(За повече информация за анализите на резултатите от изборите в Иран, вижте Nate Silver на сайта petthirtyeight.com)

Използване на математиката за изследване на резултатите от изборите в Иран