lqp - про фальсификационистов
August 3rd, 2020
09:03 am

[Link]

Previous Entry Add to Memories Tell A Friend Next Entry
про фальсификационистов
(перепост с фсбука)
В продолжение ттемы о фальсификационистах.

Следуя рекомендации товарища Мавроева я постараюсь свести к минимуму личные нападки и перейти сразу к делу. Но имейте в виду - мне есть что сказать по поводу личностей, которые...молчу, молчу.

Другим популярным приемом "математических разоблачения фальсификации голосования" является поиск "неправдоподобных совпадений" результатов голосования, скажем на разных участках одного избирательного округа. Делается это примерно так. Результаты голосования (или явку, или любую другую цифру из избирательного протокола) опять-таки превращаются в процентики, с некоторым округлением. Часто до десятых долей процента, но бывают и весьма причудливые варианты. Затем ищется и торжественно предьявляется "неправдоподобно большое" число участков R, имеющих один и тот же процентик X. Иногда это дополняется вольными рассуждениями про то, что-де, такое совпадение может быть случайным в одном случае на гугильон, иногда читателю предлагается многозначительно "делать выводы самому". Например, журнал лжеюзера kireev сейчас наполнен такими разоблачениями чуть менее чем целиком, можете полюбопытствовать.

Что я тут имею сказать.

Во первых, педагогический момент. Отмечу, что как и в предыдущем случае мы имеем дела с тем же приемом: к действительным данным применяется на первый взгляд невинное (часто вообще не упоминаемое отдельно) но на самом деле весьма нетривиальное преобразование - и затем те или иные регулярности в результате этого преобразования - контролируемого и определяемого разоблачителем - обявляются результатом фальсификации исходных данных. Если я буду продолжать репортажи из жизни фальсификационистов, то этот прием нам еще неоднократно встретится. Никакие процентики ни у участковой, ни у окружной избирательной комиссии в отчетах конечно не присутствуют, они упоминаются, в лучшеми случае, в пресс-релизе ЦИКа, на самом верху.

Во вторых, главное. Вся это метода живо напоминает известную байку про техасского стрелка, который сначала стреляет по амбару и лишь потом рисует мишень вокруг пробоин (см https://en.wikipedia.org/wiki/Texas_sharpshooter_fallacy).

Действительно, если бы мы предсказывали заранее, получение именно этого процентика X именно на этих участках было бы крайне мало вероятно. Как и любой другой конкретной комбинации, собственно. Но фальсификационисты не делают никаких предсказаний заранее. Они смотрят в полученные результаты и ищут там нужные им совпадения. А цепочку из ͟к͟а͟к͟и͟х͟-͟н͟и͟б͟у͟д͟ь͟, все равно каких R участков, с, к͟а͟к͟и͟м-͟н͟и͟б͟у͟д͟ь͟, все равно каким но одинаковым процентиком X найти в случайном наборе данных гораздо легче чем кажется на первый взгляд даже для сравнительно больших R.

Давайте посчитаем. У нас на 84 субьекта федерации приходится около 97000 избирательных участков. Несколько субьектов очень маленькие (Чукотка, Еврейский АО), так что можно округленно считать, что на одну полноразмерную область приходится 1200 избирательных участков. Округляя процентики до первой значащей цифры после запятой мы делим все возможные участки на, ... ээээ....1000 возможных цепочек? Нет не на 1000. Распределение голосов очень неравномерно и большая часть этого диапазона пуста или почти пуста. Можно безопасно предположить, что результаты 80% участков будут расположены в пределах ± 10 процентных пунктов от среднего значения. Таким образом возможных цепочек будет всего 200, в которых распределено 1000 избирательных участков. Какой максимальный размер цепочки избирательных участков с одинаковыми, с точностью до первой цифры после запятой, результатами мы можем ожидать a) почти наверняка, б) с разумной, около 1/2 вероятностью, в) хотя бы однажды среди всех 80 субьектов федерации?

Если вам не нравятся эти исходные цифры вы можете посчитать сами, - это займет не более получаса, - например взяв 15 процентных пунктов вместо 10 или 60% (800) избирательных участков вместо 80% (1000). Разница будет непринципиальна - я считал и не хочу загромождать без того огромный пост.

Для начала, есть известный в математике ͟п͟р͟и͟н͟ц͟и͟п͟ ͟Д͟и͟р͟и͟х͟л͟е͟, гласящий, что если мы рассаживаем A голубей по B ящикам каким угодно способом то по крайне мере в одном из ящиков у нас будет не менее чем A/B голубей. Таким образом, размер максимальной по субьекту федерации цепочки ни при каких обстоятельствах не может быть меньше 1000/200=5 участков. Но на самом деле при сколь-нибудь больших A и B достижение этого минимума будет крайне маловерояным.

Существует так называемый "Парадокс дней рождения": в случайной группе людей (удовлетворяющей случайному равномерному распределению по датам рождения) вероятность того что у каких-то двух людей совпадет день рождения превышает 1/2 начиная с размера группы в 23 человека, то есть с малой доли от всех возможных 365 дней. Для тотго чтобы дни рождения с вероятностью 1/2 совпали у трех человек, группа должна быть больше 87 человек, у четырех - 186, у пяти - 312 и только при совпадении с вероятностью 1/2 дней рождения шести человек - 459, - мы переваливаем за число дней в году, гарантирующее нам по принципу Дирихле хотя бы одно совпадение.

Вот тут ( https://oeis.org/A014088/a014088.txt ) человек посчитал все вероятности для обобщенного парадокса дней рождения по выведенной им здесь (https://projecteuclid.org/euclid.aos/1176345593) точной формуле, которая является частным случаем так называемого мультиномиального распределения. Мне слабо сходу написать расчет этой формулы - там идет суммирование факториалов больших чисел и прочие вычислительные кошмары, а вместо этого написал медленно работающую но простую программу, которая считает те же вероятности методом монте-карло, то есть многократно (миллион раз) пробуя различные случайные варианты. Сравнив ее с аналитическим значениями для парадокса дней рождения получил расхождения во втором-третьем знаке после запятой (т.е. третий знак может отличаться на 1-2), что достаточно для наших целей.

Вот моя программка
----
#!/usr/bin/perl -w

# нам нужен хороший ГСЧ с длинным периодом
use Math::Random::MT qw(srand rand irand);
use List::Util qw(max);

use constant NPASS => 1000_000;
use constant NCELLS => 200;
use constant NBALLS => 1000;

foreach (1 .. NPASS) {
%Cells=();
$Cells{int rand NCELLS}++ foreach (1 .. NBALLS);
$Maxcell{max values %Cells}++; }

foreach (sort {$a <=> $b} keys %Maxcell){
#цепочка, вероятность, вероятность не меньше
print $_,"\t",$Maxcell{$_}/NPASS."\t",1.0-$cdf,"\n";
$cdf+=$Maxcell{$_}/NPASS; }
----

Теперь запускаем программу с данными для нашего случая - 1000 избирательных участков, раскидываемых по 200 процентикам - и получаем такой результат.
---
9 0.000724 1
10 0.05476 0.999276
11 0.275277 0.944516
12 0.340226 0.669239
13 0.202342 0.329013
14 0.084262 0.126671
15 0.029334 0.0424089999999999
16 0.009437 0.0130749999999999
17 0.002646 0.00363799999999992
18 0.00075 0.000991999999999882
19 0.000185 0.000241999999999853
20 3.9e-05 5.69999999998627e-05
21 1.4e-05 1.79999999998515e-05
22 3e-06 3.99999999989298e-06
23 1e-06 9.99999999917733e-07

---
Иными словами мы почти наверняка находим в каждом из субьектов федерации цепочку в 11 участков с "одинаковыми" значениями, с вероятностью в 2/3 - в 12 участков и по крайне мере однажды на РФ - с вероятностью большей 3/80, - в 15 участков.

То есть примерно те же самые цифры что и в разоблачениях лжеюзера kireev. У него в несколькиких места х есть более длинные списки, но там и критерий "совпадения" пропорционально более размытый.

Ловкость рук, чо.

(18 comments | Leave a comment)

Comments
 
From:[info]salas
Date:August 3rd, 2020 - 03:59 am
(Link)
Вы критикуете, насколько я понял, демонстрацию совпадений в произвольной цепочке избирательных участков из всей 1000 участков какого-то региона (а не, например, из 50 участков в отдельном районе). Не подскажете конкретную ссылку на именно такой фокус?
From:[info]lqp
Date:August 3rd, 2020 - 05:59 am
(Link)
Для любой уже найденной цепочки всегда можно сочинить легенду - чем именно это цепочка выделяется изо всех прочих. Добавление этой легенды в текст ничего в вероятностях не меняет.

При этом, возможно я недостаточно четко это проговорил, но если цепочка длинной 12 там с вероятностью в 2/3, то цепочек длиной 10 и тем более 8 среди 1000 участков региона будет десятки, на любой вкус и с любой легендой.

Я, прежде всего, устанавливаю корректное представление о том, что вероятно а что нет.
From:(Anonymous)
Date:August 3rd, 2020 - 10:39 am
(Link)
Изыди и не капай тама и тута с твоего трипперного гнойного языка.
From:[info]salas
Date:August 3rd, 2020 - 03:14 pm
(Link)
Ну, опять же, можно какие-нибудь ссылки, где легенда не совпадает с организационной структурой избирательных комиссий? А то ваше утверждение, что добавление легенды в текст ничего в вероятностях не меняет, верно только для достаточно разнообразных легенд.

From:[info]lqp
Date:August 3rd, 2020 - 10:16 pm
(Link)
Нет нельзя.

Потому что мне бы пришлось не только додумывать за разоблачителей их аргументацию, но и изучать за них исходные данные. Я принципиально не занимаюсь такими вещами. Бремя доказательства ваших утверждений лежит на вас.

Давайте начистоту. Вы хотите вынудить меня высказать какое-нибудь утверждение о конкретных результатах конкретного голосования, чтобы затем начать обсуждать уже его, переместившись в позицию прокурора. Или на худой конец сделать вид, будто речь идет о равноправных конкурирующих версиях.

Нет.

Я не обсуждаю результаты голосования - я обсуждаю приемы мошенников-фальсификационистов. В частности здесь я показываю, что их подразумеваемая предпосылка, которой они кормят простаков - что речь идет о событиях настолько невозможных, что в расчете конкретных вероятностей уже нет необходимости, "и так все ясно" - ложна.

Если бы они сами верили в то, что рассказывают простакам - они бы сами, без моей помощи эти вероятности расчитали. Но Вы прекрасно знаете, что этого не будет.
From:[info]salas
Date:August 3rd, 2020 - 11:15 pm
(Link)
Нет. Я хочу, чтобы Вы привели ссылку на пример того, что критикуете. Ну, нет так нет. В общем-то, я так и думал — но было любопытно уточнить — вдруг, например, это я не нашёл чего-нибудь, хотя бы приблизительно похожего на объект Вашей критики?
From:[info]salas
Date:August 3rd, 2020 - 11:46 pm
(Link)
На самом деле, всё чуть сложнее. Все эти подсчёты мне вообще-то не очень интересны. Ну какая мне разница, нарисованы результаты голосования за чёрт знает что или нет?

А вот совсем другой вопрос — как так вообще сложилось, что просьба привести ссылки автоматически приводит к записи в конкурирующую секту… Ну, и должна же в конце концов быть какая-то симметрия в этих обвинениях? А то несколько лет уже в красные записывают, надо же хоть когда-то и в синие.
From:(Anonymous)
Date:August 4th, 2020 - 09:36 am
(Link)
да нет, конечно

просто автор рассчитал какой-то эталон ростом 1 метр и весом 1 килограмм методом монте-карло. а про соотносимость его реальными данными сказать ничего не может. это примерно как его стенания и расчет про пик на 50%, но скромное молчание про пики вроде 70%, 75%, 80%. то есть все признаки того, что автор туповат и любит доебаться до мышей. имеет полное право, хуле. так что может, он прав, может, нет; прав он и в чем конкретно прав - выяснять за него никто не станет, нет никакого смысла.

просто потому что априори любой чиновник в сраной врет всегда - про выборы, не про выборы, про всё вообще. открыл рот - значит напиздел.
From:(Anonymous)
Date:August 3rd, 2020 - 07:25 am
(Link)
Крылатую Пихоту России - с юбилеем! И небесный покровитель у ВДВ классный - Саид Гафуров.
From:[info]lqp
Date:August 3rd, 2020 - 10:23 pm
(Link)
lj.rossia.org/users/lqp/578021.html
From:(Anonymous)
Date:August 3rd, 2020 - 06:59 am
(Link)
сгинь, пропагандошка
From:[info]docent
Date:August 3rd, 2020 - 07:25 am
(Link)
зачет.
Теперь предъявить это блогеру кирееву и посмотреть что он налепит в ответ.
From:(Anonymous)
Date:August 3rd, 2020 - 09:35 am
(Link)
Привет, питух анальный
From:(Anonymous)
Date:August 3rd, 2020 - 08:03 pm
(Link)
возьми и предъяви, хуле. весь материал тебе предоставлен.
From:(Anonymous)
Date:August 3rd, 2020 - 07:37 am
(Link)
но это мягко говоря не главный мат аргумент в пользу фальфикаций
отклонение от нормального распределения четко растет вместе с явкой
и растет в пользу путина
так что идите лесом программистишки-путиноиды
[User Picture]
From:[info]nashgold
Date:August 3rd, 2020 - 08:29 am
(Link)
>Elections are falsified. Putin is a con-man


Keep suffering, Russian scum. Putin does the good thing - he sells Russia for cheap.
From:(Anonymous)
Date:August 3rd, 2020 - 09:35 am
(Link)
Закусь для алкаша, который совсем без закуси сбухался и вместо мозгов у него каша из рыготины?
From:(Anonymous)
Date:August 3rd, 2020 - 08:05 pm
(Link)
>Иными словами мы почти наверняка находим в каждом из субьектов федерации цепочку в 11 участков с "одинаковыми" значениями, с вероятностью в 2/3 - в 12 участков и по крайне мере однажды на РФ - с вероятностью большей 3/80, - в 15 участков.

какими будут эти "одинаковые значения"? это случайная величина?
Powered by LJ.Rossia.org