Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет mi_b ([info]mi_b)
@ 2009-10-15 17:03:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Как надо рисовать регрессии
В комментариях к предыдущему посту, [info]vvagr@lj дал ссылку на доклад Илларионова двухлетней давности, как раз про корреляцию явки на выборы и голосов "кандидата власти": http://www.iea.ru/article/polit_svoboda/26-12-07.ppt

В докладе он прямо таки определяет индекс честности выборов как эту самую корреляцию. По этому индексу, например, американские выборы 2004 и второй тур украинских выборов 2004 идеально честные, с корреляциями от -7% до +5%, то есть, без зависимости между явкой и процентом кадидата власти. Картинки там такие:




Украинская картинка называется "2-й раунд, 31 октября 2004 г.", что несколько запутывает, потому что выборы 2004 прошли в три раунда (много кандидатов 31.10, Ющенко против Януковича 21.11 и переголосование после Майдана 26.12). Официальные данные лежат тут и из них видно, что точки на слайде больше всего похожи на второй раунд от 21.11.

Интересно, однако, не это. А то, что, хотя по илларионовскому индексу честности эти выборы просто образцовые, не хуже американских, посмотрев на картинку чтуь внимательнее можно заметить, что точки лежат полумесяцем. В тех областях, где победил Ющенко, есть сильная положительная корреляция между явкой и его процентом голосов; такая же корреляция есть в тех областях, где победил Янукович, между явкой и голосами за Януковича.

Наверное, Илларионов как-то комментировал это устно на докладе, но на слайдах это отражения не нашло. Использование в такой ситуации регрессии по всей выборке либо бессмысленно, либо грубая манипуляция: в расколотой стране выборы могут иметь индекс фальсификации сколь угодно низкий при полном жульничестве на всех участках.

Официальные данные по ссылке выше лежат в формате, который мой Эксель читает напрямую, так что посчитать корреляции корректно несложно. Получилось довольно забавно. Во втором раунде для "голубых" областей R^2 высокое, 0.75, для "оранжевых" оно пониже, но тоже немаленькое 0.50. В третьем раунде "голубое" R^2 слегка вырастает до 0.80, зато "оранжевое" его почти догоняет, дойдя тоже до 0.75. То есть, если считать жульнической победу Януковича во втором туре, то победа Ющенко в третьем туре жульническая ровно настолько же (с точностью до третьего знака ;) Украинские значения R^2 по победителям совершенно огромные: 0.75 соответствует корреляции аж в 87%.





На картинках цвет точки и линии регрессий покрашены в синий (Янукович) и оранжевый (Ющенко); пунктиром показаны (неинтересные) регрессии по полной выборке; сплошной линией - регрессии по областям, где победил каждый кандидат. Первая из этих картинок соотвествует второй картинке Илларионова, а пунктирные линии на ней - линиям у него не картинке.


Вобщем, мне из этого кажется, что корреляция между явкой и голосами победителя бывает и просто от мобилизации электората, а не от вброса. Ну или наблюдатели ОБСЕ врут про честность выборов ;)




(Добавить комментарий)


[info]scriptum@lj
2009-10-15 13:24 (ссылка)
корреляция - необходимое, но не достаточное условие

(Ответить) (Ветвь дискуссии)


[info]mi_b@lj
2009-10-15 13:26 (ссылка)

да нет, даже не необходимое. думаю, на следующих выборах могут и о рандомизации позаботиться, чай несложно

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]scriptum@lj
2009-10-15 13:51 (ссылка)
Ну да, постфактум несложно.

(Ответить) (Уровень выше)


[info]gwadelup@lj
2009-10-15 13:48 (ссылка)
Эммм... а тестик на значимость эстиматоров прогнать можно или хотя бы дать саму регрессию и стандартные ошибки? А то визуально этой регрессии грош цена. Вообще конечно по картинкам Heteroscedasticity (как это на русском-то будет?) жуткая.

(Ответить) (Ветвь дискуссии)


[info]mi_b@lj
2009-10-15 13:59 (ссылка)
на обеих картинках p-value < 0.3% для регрессий, показаннхы сплошными линиями, по точкам выше 50 (т.е. по результатам только победителей в каждой области). Для регрессий по полной выборке, конечно, p-value большие и все результаты незначимы.

в каком смысле там вариации неоднородны я не понял

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gwadelup@lj
2009-10-15 14:10 (ссылка)
Этакая подково-образность данных в украинских выборах относительно явки смущает невероятно, такое ощушение, что две абсолютно разные популяции (в смысле не те, что разноцветные) :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mi_b@lj
2009-10-15 16:14 (ссылка)
именно про это мой пост ;) подкова состоит из двух половин - верхняя, результаты победителей в каждой области и симметричная ей нижняя, которая примерно 100-верхняя, резудьтаты проигравшего. регрессией естественно описывать точки одного цвета в одной половине, скажем, верхней. тогда это можеть иметь отношение к манипуляции в пользу кандидата в той области, где он, в силу популяности, контролирует местную власть. Илларионов же фиттил регрессию ко всем точкам одного цвета.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gwadelup@lj
2009-10-15 16:43 (ссылка)
Да, я примерно так же подумал, когда увидал, уж слишком странно выглядит отсутствие наблюдений в центральной части при большой явке.

Хехе, нас бы за рисование регрессии по такой подкове сильно бы шлёпали на уроке статистики/эконометрики :). Впрочем, есть ложь, есть наглая ложь, а есть статистика.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]veroniq@lj
2009-10-16 04:48 (ссылка)
в том-то все и дело, что вместо этой последней "статистики" тоже ложь :)

(Ответить) (Уровень выше)


[info]_ab_@lj
2009-10-15 14:49 (ссылка)
Гетероскедастичность :-). Но она влияет на стандартные ошибки, а не на величину коэффициентов. И, кроме того, в данном случае указывает на плохую спецификацию модели, как хозяин дневника прекрасно показал.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gwadelup@lj
2009-10-15 15:21 (ссылка)
На величину нет, а вот на статистическую значимость очень даже. Какой толк от регрессии, если она даже в 90% интервал не попадает или сколько в данном случае нужно использовать?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]_ab_@lj
2009-10-15 17:18 (ссылка)
Вопрос, мне кажется, отчасти философский :-). Ведь в некоторых случаях мы имеем дело не с выборкой, а с генеральной совокупностью и с помощью регрессии хотим описать данные в этой генеральной совокупности. В принципе, тогда стандартные ошибки нас могут и не интересовать.

Да и значимость - понятие условное, основанное на конвенции. В больших выборках многие коэффициенты, не значимые в малых выборках, станут значимыми. Я не очень понимаю, что означают точки на украинских графиках (области?), но если взять данные на уровне УИК, то скорее всего регрессионные коэффициенты изменятся мало, а стандартные ошибки уменьшатся.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]veroniq@lj
2009-10-16 06:25 (ссылка)
собственно говоря, большинство стандартных статистических методов, особенно на небольших выборках придуманы для нормального распределения. (в том числе, значение корреляции, стандартного отколонения, все эти критерии значимости и тп)
дальше можно обобщить на распределениея "Похожие" на нормальные, дальше на унимодальные и тп.
а в случае со смесью распределений все уже совсем не так. здесь мы имеем смесь двух распределений, сильно разных.
и кстати унимодальность в большинстве случаев очень критичное условие. как мы прекрасно наблюдаем на этом примере :)

кстати, что бывает при смеси распределений. немецкие демографы смотрели на кривые смертности. по объединенным данным. и получили уменьшение интенсивности сметности где-то от 75 до 80 лет. долго думали. потом сделали отдельно по восточной и западной германии. и все нормалльно - ничего не убывает :)

(Ответить) (Уровень выше)


[info]_ab_@lj
2009-10-15 14:40 (ссылка)
Спасибо, забавно. Классический случай плохо специфицированной модели, в учебник можно вставлять.

(Ответить)