konst90: (Default)
[personal profile] konst90
Александр Киреев [livejournal.com profile] kireev в своём блоге обратил внимание, что результаты выборов в Саратовской области, скорее всего, были подделаны.
Для тех, кто не в курсе, кратко сообщаю - по результатам анализа протоколов на сайте ЦИК выяснилось, что на большом количестве избирательных участков был зафиксирован один и тот же процент голосов за Единую Россию - 62,2±0,04%. Графически это выглядит вот так (все картинки кликабельны):



График построен следующим образом. У [livejournal.com profile] podmoskovnik были взяты результаты голосования в виде текстового файла. Я работал последним архивом от 19 сентября, но можете взять и более новый. Затем загнал всё это в MATLAB, где для каждой партии по каждому участку был рассчитан процент голосов. После этого все результаты были округлены до 0,1%, и для каждого значения была вычислена частота, с которой оно встречается. Скрипт и исходники можно скачать по ссылке на Google Drive.

Обратите внимание на множество пиков на графике. Большинство из них не являются свидетельством фальсификаций.
Удивление, например, вызывает пик 50%. Появляется этот пик потому, что при делении числа голосов на число избирателей дробь 1/2 образуется ощутимо чаще, чем например 53/100. Точно так же объясняются пики 33,3% и 66,7% (n/3), 25% и 75% (n/4), n/5 и так далее. Чем больше знаменатель, тем меньше пик. Причём они общие - посмотрите на 20% или 33,3%, например.
Однако видны и другие пики. Например, у Единой России возникли пики 42,9%, 55%, 62,2% и 100%. С последним всё понятно - это горные республики, где голосуют по велению Аллаха (а ты докажи, что не Аллаха). 55% - тоже красивое число, но с натяжкой. 42,9% ещё ждёт своего исследователя.

А вот пик 62,2% имеет вполне ясное происхождение. Аналогичное происхождение имеют пики 11,8% у КПРФ и 6,1% у Справедливой России. Они появились из Саратова. Рассмотрим его подробнее.

Самым интересным (пока) оказался ОИК 163, что в Саратовской области. В нём 373 участка. И на них был продемонстрирован феноменальный с точки зрения статистики результат. Из 373 участков на 80 с лишним был показан одинаковый с точностью до 0,1% (то есть до одного человека) результат. И так три раза - за три партии. И ещё раз - за четвёртую, 60+ участков.



Или не феноменальный? Давайте попробуем оценить его вероятность.

Для начала построим распределение голосов по участкам при случайном голосовании. При помощи функции rand будем создавать виртуальных избирателей. Голосовать они будут так же, как и в Саратове - с вероятностью 62,2% он отдаст голос за ЕР, 11,8% - за КПРФ, 9,1% за ЛДПР и 6,1% за Справедливую Россию. Затем для каждого участка возьмём его реальную явку и создадим на них это количество наших рандомов. А затем построим зависимость точно так же, как и для реальной жизни. Сначала для всей России - 93231 виртуальный избирательный участок.

У нас вполне ожидаемо получилось нормальное (Гауссово) распределение. Видны пики на красивых дробях - вплоть до 1/6 (16,7%). И, конечно, максимумы на тех значениях, что взяты за базу:



А теперь - виртуальный Саратов. Контуры Гаусса угадываются, но уже слабо - сказывается малый размер выборки:



Но может быть, надо попробовать ещё раз? Возможно. Но давайте теперь оценим вероятность такого события теоретически.

Итак, у нас есть 373 участка, на них было от 51 до 2765 избирателей, в среднем - 870. Округлим до 1000.
Пусть город у нас полностью однородный - как и виртуальный Саратов. Тогда мы можем оценить вероятность того, что из 1000 человек за Единую Россию проголосовали ровно 622 человека, когда для каждого человека вероятность проголосовать была те же 62,2%.
Для этого воспользуемся функцией БИНОМРАСП в Excel.

БИНОМРАСП(622; 1000; 0,622; 0) = 0,02601

Получается, что вероятность получить на участке ровно 622 голоса из тысячи равна всего лишь 2,6%. Умножим их на 373, получим 9,69 - примерное число участков, которые должны показать такой результат. Смотрим на наш виртуальный Саратов - примерно сходится.

Но ведь у нас такой результат показали не 10-15 участков, а целых 62. При помощи той же функции оценим, какова вероятность получить 62,2% ровно на 62 участках из 373, если вероятность такого результата на одном участке - 2,6%.

БИНОМРАСП(62; 373; 0,02601; 0) = 6,087E-31

Но нас ведь устроит и результат, когда на участке больше 62 совпадений? Посчитаем...

БИНОМРАСП(63; 373; 0,02601; 0) = 6,087E-31
БИНОМРАСП(64; 373; 0,02601; 0) = 8,021E-32
БИНОМРАСП(65; 373; 0,02601; 0) = 1,037E-32

И так далее. Дальше считать уже бессмысленно, потому что результат получается на порядки меньше. Поэтому просуммируем то, что есть, и запишем ответ.

Вероятность случайного совпадения голосов на 62 или более участках из 373 со значением 62,2%±0,05% составляет приблизительно 7*10-31

казалось бы, на этом можно поставить точку. Однако у нас есть ещё три партии, у которых число совпадений ещё выше. Значит, вероятность совпадений будет ещё ниже, так что показатель степени улетит к -40, а то и -50. А мы помним, что вероятность совпадения двух событий равна произведению вероятностей каждого, а при умножении показатели степеней складываются...

Excel не хватило разрядов.

Date: 2016-09-24 12:10 pm (UTC)
From: [identity profile] verola.livejournal.com

Эх, Костя, Костя. Отлично!

А почему не на 114 участках из 373 со значением 9.1% ±0,05% ? Результат ЛДПР ?

Ведь это резко круче )

Но и это огромное преувеличение вероятности — потому что не все избиратели были из распределения со средним 9.1% — те кто дали ЛДПР 20% не были из него

Значение на 114 участках было получено из 150 участков, относящихся возможно к этому распределению — и оно всё легло в интервал [8.9, 9.3}

Но даже это неверно. Участки были разные по числу людей — и в некоторых попасть в 9.1 было невозможно (то же самое верно про 62.2) Это невозможно на участке, где 300 человек проголосовало

Почему интереснее про ЛДПР? Потому что про ЕР написали уже все. Потому что у ЛДПР эта вероятность ниже ещё на 50 порядков.

Date: 2016-09-24 12:21 pm (UTC)
From: [identity profile] konst90.livejournal.com
Потому что e-30 уже достаточно для того, чтобы заявлять о том, что всё нарисовано. С этой точки зрения что -30 степень у ЕдРо, что -50 или какая она там у ЛДПР - всё едино. Смысла не вижу. Хочется - бери методику и считай, а мне лень по второму разу доказывать очевидное :)

Date: 2016-09-24 12:30 pm (UTC)
From: [identity profile] verola.livejournal.com

Ну прости. не хотела обидеть

Работа прекрасная

Делаю перепост

Date: 2016-09-24 12:32 pm (UTC)
From: [identity profile] verola.livejournal.com
Появляется этот пик потому, что при делении числа голосов на число избирателей дробь 1/2 образуется ощутимо чаще, чем например 53/100.

Увы, я не понимаю этой фразы

Date: 2016-09-24 04:14 pm (UTC)
From: [identity profile] konst90.livejournal.com
http://kobak.livejournal.com/102646.html

Вот тут хорошо написано, откуда эти пики берутся
Edited Date: 2016-09-24 04:14 pm (UTC)

Date: 2016-09-24 06:05 pm (UTC)
sergey_cheban: (Default)
From: [personal profile] sergey_cheban
Вероятность получить результат 621 или 627 голоса тоже достаточно высока. Т.е. итоговая вероятность совпадения результатов на 62 участках будет примерно на порядок больше, чем по Вашим расчётам.

Date: 2016-09-24 06:46 pm (UTC)
From: [identity profile] konst90.livejournal.com
Хм. Да, согласен. Не сообразил.

Date: 2016-09-26 06:16 am (UTC)
From: [identity profile] shukshin.livejournal.com
В 2011 ещё придумали, что для уничтожения пиков на кратных достаточно добавлять к числу избирателей случайную величину от -0.5 до +0.5. Это почти не меняет результат, но убирает эффект кратности

Date: 2016-09-27 06:40 pm (UTC)
From: [identity profile] Денис Витман (from livejournal.com)
1. Мы не можем утверждать, что нет каких-то дополнительных (не искусственных) факторов, которые приводят к максимуму в 62%. Так что я бы для верности повысил вероятность до 20%
2. Надо понимать, что мы искали аномалию - то есть не из 373, а какова вероятность на ленте из 97000 значений найти отрезок длинной в 373 значения, содержащий 62 одинаковый значения вероятность появления которых равна (см. пункт 1).

В итоге получается 1 на 10 000 000 :) Что конечно выглядит гораздо реалистичнее )

Date: 2016-09-28 03:52 am (UTC)
From: [identity profile] konst90.livejournal.com
1. Например?

2. Умножьте результат на количество ОИК, которые были проверены (225). Мы же не в наборе искали, а среди участков.

3. А потом возведите свои 1/е7 в четвертую степень - партий четыре. А потом еще в квадрат - за одномандатников. Все равно дофига получится.

Date: 2016-11-13 11:41 pm (UTC)
From: [identity profile] dedfiend.livejournal.com
Александр Киреев kireev в своём блоге обратил внимание что результаты выборов в Саратовской области

April 2017

S M T W T F S
      1
2345678
9101112131415
16171819202122
2324 2526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 26th, 2017 08:05 pm
Powered by Dreamwidth Studios