lqp - Post a comment
( Read Comments )
TimeText
09:03 am
[info]lqp

[Link]

про фальсификационистов
(перепост с фсбука)
В продолжение ттемы о фальсификационистах.

Следуя рекомендации товарища Мавроева я постараюсь свести к минимуму личные нападки и перейти сразу к делу. Но имейте в виду - мне есть что сказать по поводу личностей, которые...молчу, молчу.

Другим популярным приемом "математических разоблачения фальсификации голосования" является поиск "неправдоподобных совпадений" результатов голосования, скажем на разных участках одного избирательного округа. Делается это примерно так. Результаты голосования (или явку, или любую другую цифру из избирательного протокола) опять-таки превращаются в процентики, с некоторым округлением. Часто до десятых долей процента, но бывают и весьма причудливые варианты. Затем ищется и торжественно предьявляется "неправдоподобно большое" число участков R, имеющих один и тот же процентик X. Иногда это дополняется вольными рассуждениями про то, что-де, такое совпадение может быть случайным в одном случае на гугильон, иногда читателю предлагается многозначительно "делать выводы самому". Например, журнал лжеюзера kireev сейчас наполнен такими разоблачениями чуть менее чем целиком, можете полюбопытствовать.

Что я тут имею сказать.

Во первых, педагогический момент. Отмечу, что как и в предыдущем случае мы имеем дела с тем же приемом: к действительным данным применяется на первый взгляд невинное (часто вообще не упоминаемое отдельно) но на самом деле весьма нетривиальное преобразование - и затем те или иные регулярности в результате этого преобразования - контролируемого и определяемого разоблачителем - обявляются результатом фальсификации исходных данных. Если я буду продолжать репортажи из жизни фальсификационистов, то этот прием нам еще неоднократно встретится. Никакие процентики ни у участковой, ни у окружной избирательной комиссии в отчетах конечно не присутствуют, они упоминаются, в лучшеми случае, в пресс-релизе ЦИКа, на самом верху.

Во вторых, главное. Вся это метода живо напоминает известную байку про техасского стрелка, который сначала стреляет по амбару и лишь потом рисует мишень вокруг пробоин (см https://en.wikipedia.org/wiki/Texas_sharpshooter_fallacy).

Действительно, если бы мы предсказывали заранее, получение именно этого процентика X именно на этих участках было бы крайне мало вероятно. Как и любой другой конкретной комбинации, собственно. Но фальсификационисты не делают никаких предсказаний заранее. Они смотрят в полученные результаты и ищут там нужные им совпадения. А цепочку из ͟к͟а͟к͟и͟х͟-͟н͟и͟б͟у͟д͟ь͟, все равно каких R участков, с, к͟а͟к͟и͟м-͟н͟и͟б͟у͟д͟ь͟, все равно каким но одинаковым процентиком X найти в случайном наборе данных гораздо легче чем кажется на первый взгляд даже для сравнительно больших R.

Давайте посчитаем. У нас на 84 субьекта федерации приходится около 97000 избирательных участков. Несколько субьектов очень маленькие (Чукотка, Еврейский АО), так что можно округленно считать, что на одну полноразмерную область приходится 1200 избирательных участков. Округляя процентики до первой значащей цифры после запятой мы делим все возможные участки на, ... ээээ....1000 возможных цепочек? Нет не на 1000. Распределение голосов очень неравномерно и большая часть этого диапазона пуста или почти пуста. Можно безопасно предположить, что результаты 80% участков будут расположены в пределах ± 10 процентных пунктов от среднего значения. Таким образом возможных цепочек будет всего 200, в которых распределено 1000 избирательных участков. Какой максимальный размер цепочки избирательных участков с одинаковыми, с точностью до первой цифры после запятой, результатами мы можем ожидать a) почти наверняка, б) с разумной, около 1/2 вероятностью, в) хотя бы однажды среди всех 80 субьектов федерации?

Если вам не нравятся эти исходные цифры вы можете посчитать сами, - это займет не более получаса, - например взяв 15 процентных пунктов вместо 10 или 60% (800) избирательных участков вместо 80% (1000). Разница будет непринципиальна - я считал и не хочу загромождать без того огромный пост.

Для начала, есть известный в математике ͟п͟р͟и͟н͟ц͟и͟п͟ ͟Д͟и͟р͟и͟х͟л͟е͟, гласящий, что если мы рассаживаем A голубей по B ящикам каким угодно способом то по крайне мере в одном из ящиков у нас будет не менее чем A/B голубей. Таким образом, размер максимальной по субьекту федерации цепочки ни при каких обстоятельствах не может быть меньше 1000/200=5 участков. Но на самом деле при сколь-нибудь больших A и B достижение этого минимума будет крайне маловерояным.

Существует так называемый "Парадокс дней рождения": в случайной группе людей (удовлетворяющей случайному равномерному распределению по датам рождения) вероятность того что у каких-то двух людей совпадет день рождения превышает 1/2 начиная с размера группы в 23 человека, то есть с малой доли от всех возможных 365 дней. Для тотго чтобы дни рождения с вероятностью 1/2 совпали у трех человек, группа должна быть больше 87 человек, у четырех - 186, у пяти - 312 и только при совпадении с вероятностью 1/2 дней рождения шести человек - 459, - мы переваливаем за число дней в году, гарантирующее нам по принципу Дирихле хотя бы одно совпадение.

Вот тут ( https://oeis.org/A014088/a014088.txt ) человек посчитал все вероятности для обобщенного парадокса дней рождения по выведенной им здесь (https://projecteuclid.org/euclid.aos/1176345593) точной формуле, которая является частным случаем так называемого мультиномиального распределения. Мне слабо сходу написать расчет этой формулы - там идет суммирование факториалов больших чисел и прочие вычислительные кошмары, а вместо этого написал медленно работающую но простую программу, которая считает те же вероятности методом монте-карло, то есть многократно (миллион раз) пробуя различные случайные варианты. Сравнив ее с аналитическим значениями для парадокса дней рождения получил расхождения во втором-третьем знаке после запятой (т.е. третий знак может отличаться на 1-2), что достаточно для наших целей.

Вот моя программка
----
#!/usr/bin/perl -w

# нам нужен хороший ГСЧ с длинным периодом
use Math::Random::MT qw(srand rand irand);
use List::Util qw(max);

use constant NPASS => 1000_000;
use constant NCELLS => 200;
use constant NBALLS => 1000;

foreach (1 .. NPASS) {
%Cells=();
$Cells{int rand NCELLS}++ foreach (1 .. NBALLS);
$Maxcell{max values %Cells}++; }

foreach (sort {$a <=> $b} keys %Maxcell){
#цепочка, вероятность, вероятность не меньше
print $_,"\t",$Maxcell{$_}/NPASS."\t",1.0-$cdf,"\n";
$cdf+=$Maxcell{$_}/NPASS; }
----

Теперь запускаем программу с данными для нашего случая - 1000 избирательных участков, раскидываемых по 200 процентикам - и получаем такой результат.
---
9 0.000724 1
10 0.05476 0.999276
11 0.275277 0.944516
12 0.340226 0.669239
13 0.202342 0.329013
14 0.084262 0.126671
15 0.029334 0.0424089999999999
16 0.009437 0.0130749999999999
17 0.002646 0.00363799999999992
18 0.00075 0.000991999999999882
19 0.000185 0.000241999999999853
20 3.9e-05 5.69999999998627e-05
21 1.4e-05 1.79999999998515e-05
22 3e-06 3.99999999989298e-06
23 1e-06 9.99999999917733e-07

---
Иными словами мы почти наверняка находим в каждом из субьектов федерации цепочку в 11 участков с "одинаковыми" значениями, с вероятностью в 2/3 - в 12 участков и по крайне мере однажды на РФ - с вероятностью большей 3/80, - в 15 участков.

То есть примерно те же самые цифры что и в разоблачениях лжеюзера kireev. У него в несколькиких места х есть более длинные списки, но там и критерий "совпадения" пропорционально более размытый.

Ловкость рук, чо.
Reply:
 
From:
Identity URL: 
имя пользователя:    
Вы должны предварительно войти в LiveJournal.com
 
E-mail для ответов: 
Вы сможете оставлять комментарии, даже если не введете e-mail.
Но вы не сможете получать уведомления об ответах на ваши комментарии!
Внимание: на указанный адрес будет выслано подтверждение.
Username:
Password:
Subject:
No HTML allowed in subject
Message:



Notice! This user has turned on the option that logs your IP address when posting.
Powered by LJ.Rossia.org