Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет salas ([info]salas)
@ 2012-10-20 06:33:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
о днях рождения
Задачка по мотивам выборов в КС. Дано N избирателей. В случае, если у двух избирателей совпадает ФИО и дата рождения, возникает техническая проблема. Оценить масштаб проблемы в зависимости от N.

Тред у Волкова, выношу из каментов свою версию.

Предельные случаи: N ~ 105 — нынешние выборы в КС, N ~ 108 — всеобщие выборы в России.
f,i,o — частота самой распространённой фамилии, имени, отчества (считаем независимыми; предполагаю в реальности положительную корреляцию). Кажется, f ~ 10-2, i,o ~ 10-1 => fio ~ 10-4
Пусть дни рождения распределены равномерно на отрезке в D дней, порядка 104.
Тогда с конкретно этими ФИО матожидание количества коллизий будет порядка (Nfio)2/D. С нашими значениями параметров — от 10-2 до 104. Т.е. где-то на первых миллионах должны напороться даже не на какую попало пару, а конкретно на Смирновых Владимиров Сергеевичей.
Если считать, что другие фамилии и имена столь же распространены — то (Nfio)2/(Dfio) = N2fio/D. Подставляем — от 102 до 108. Это оценка сверху.

Волков говорит, что не попалось ни одного совпадения, а у меня оценка матожидания сверху 102 — легко видеть, что оценка грубовата, и прикольно было бы придумать, как её улучшить.


(Добавить комментарий)


[info]leonwolf@lj
2012-10-20 01:48 (ссылка)
не могу согласиться с оценками частоты фамилий, имен, отчеств
самые популярные имена и отчества не могут быть порядка 10%, это порядка 2-3%
и еще вы не учли пол :)

(Ответить) (Ветвь дискуссии)


[info]salas@lj
2012-10-20 02:41 (ссылка)
Пол — и правда. На таком уровне достаточно считать, что он учитывается в фамилии — не 1% Ивановых, а 0.5% "Иванов" и 0.5% "Иванова". А имена тогда просто из своих половин.

Про имена хорошо выглядящих данных сходу не нашёл. В Википедии (http://ru.wikipedia.org/wiki/%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%BE%D0%B5_%D0%BB%D0%B8%D1%87%D0%BD%D0%BE%D0%B5_%D0%B8%D0%BC%D1%8F#.D0.A7.D0.B0.D1.81.D1.82.D0.BE.D1.82.D0.BD.D0.BE.D1.81.D1.82.D1.8C_.D0.B8.D1.81.D0.BF.D0.BE.D0.BB.D1.8C.D0.B7.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.B8.D0.BC.D1.91.D0.BD) есть табличка "10 наиболее частотных имён новорождённых в Москве в XX веке", там верхние строчки 10–15%. Вроде как, anecdotal evidence и обсчёт первого попавшегося списка (выпускники 57 школы; да, тот ещё список:)) порядок величины подтверждают.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]leonwolf@lj
2012-10-20 02:50 (ссылка)
просто даже только пол снижает ведь все оценки на порядок, то есть в 8 раз

мне кажется, здесь так грубо не получить релевантные результаты

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]salas@lj
2012-10-20 03:07 (ссылка)
Не 8, а 2, потому что пол — это не 3 независимых бита, а 1. :)

Думаю, первая оценка — на каком N попадётся пара Ивановых Александров Владимировичей — довольно приличная. А вот дальше — про одинаковую распространённость имён — сразу ясно, что предположение никуда не годится, Ваш эксперимент только подтверждает.

(Ответить) (Уровень выше)