Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет clement ([info]clement)
@ 2007-08-07 20:59:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
статистика
Други милые,

А кто-нибудь сведующий в статистике среди вас есть? Я, к сожалению - а когда-то думалось, что к счастью - ее не выбрал в университете, и вот теперь страдаю из-за отсуствия базы. Проблема в следующем: у меня есть набор чисел (с повторениями). Предполагая, что новые примеры распределены так же как и оный набор требуется найти значение n, такое что вероятность того, что новый пример превысит n не выше заданного значения. Понятно, что если я знаю форму распределения (нормальное, пуассоново, и т.д.), то задача сводится к применению стандартной формулы. Что делать, если я форму не знаю? Мне бы не хотелось "руками" подбирать наиболее подходящий вид распределения, равно как не хотелось бы пробовать всяческие Anderson-Darling tests (т.к., насколько я понял они проверяют только нормальность - так?).

Наверное, это что-то общеизвестное и я просто не знаю основ.


(Читать комментарии) - (Добавить комментарий)


[info]clement@lj
2007-08-07 17:24 (ссылка)
Я проверил небольшой кусочек на нормальность по тесту Шапиро-Вилка (благо в R встроен) - получил 0.766. Мне совершенно непонятно насколько сие хорошо. На другом кусочке получил 0.508, что мне нравится еще меньше. t тест дал для второго куска следующее:

One Sample t-test

data: Res
t = 56.106, df = 433, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval: 49.96493 53.59267
sample estimates: mean of x 51.7788


Но разве t тест не предполагает нормальность распределения данных, которую Шапиро-Вилк и должен проверять?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-08-07 17:51 (ссылка)
Нормальность принято проверять используя QQ plot (qqnorm в R). Это визуальная проверка, т.е, ты не получишь однозначного ответа на вопрос, насколько твои данные нормальны, но примерно оценить сможешь.

Что же касается t-test то его используют налево и направо не особо заморачиваясь проверкой нормальности при условии достаточно большой выборки. В основном потому что особого выбора нету, но за этим также стоит некао теоретическое обьяснение (которое я не помню).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-07 18:14 (ссылка)
Данные мои, к сожалению, не нормальны - по крайней мере, если я правильно интерпретирую график:
Image

Но дело здесь даже не в этом - мне бы хотелось (если это, конечно, возможно) получить чудо-машинку, в которую можно ввести данные, а получить не степень нормальности, а наиболее подходящее распределение из некоего списка, на основании которого и можно было бы что-то предсказывать. При этом машинка должна коим-то образом выбирать распределение сама, а не прибегать к помощи пользователя (qqnorm). Что же касается t-теста, то мне не очень понятно, как его результаты можно для этих целей использовать - что мне скажет в приведенном выше примере, что мое распределение, к примеру, пуассоново, гамма или ещё какое экзотическое? Или же я хочу невозножного?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-08-07 18:23 (ссылка)
Опасаюсь что такая "машинка" не существует, я по крайней мере ни с чем таким не сталкивался.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-07 18:38 (ссылка)
А жаль... Буду думать дальше.

(Ответить) (Уровень выше)


[info]tienare@lj
2007-08-08 12:25 (ссылка)
я заранее прошу прощения, может быть я не то советую, упрощаю. Но на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора. Ведь набор этот в данном случае выступает как ген.совокупность и нужно определить доверительный интервал значений для заданной вероятности (например, 0,05, как это чаще всего бывает) именно исходя из того, что как в ген.совокупности, так бдет и в остальных случаях. То есть в каждом случае смотреть, попадает ли новое значение в доверительный интервал под эту частоту или не попадает.

Функция простого распределения в любом стат.пакете позволяет ее получить (частоту делить на общее количество случаев, например 1/25, что означает вероятность встречаемости 0,04). Все что Вам нужно, методом интуитивного подбора найти то верхнее значение, которое будет соответствовать 0,05. В смысле, не 0,05, а такой, какая вам нужна. Это и будет верхняя граница. Мне кажется, что такой подбор не займет много времени.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-08 14:29 (ссылка)
на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора.

Боюсь, что нет - набор мне заранее неизвестен. Иными словами у меня есть серия из тысячи экспериментов, в ходе которой получилось: сто пятьдесят один раз - 20; шестьсот сорок четыре раза - 58; сто шесьдесят пять раз - 88; двадцать семь раз - 118, семь раз - 148; пять раз - 178 и один раз - 208. Мне кажется разумным предположить, что мой эксперимент даст ответ 20 с вероятностью 0,151; и ответ 58+30n с вероятностью зависящей от n.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tienare@lj
2007-08-08 14:52 (ссылка)
я бы построила график нелинейной функции и по нему предсказывала бы вероятность (внутреннюю валидность) каждого нового значения эксперимента

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 07:33 (ссылка)
Есть какой-то способ делать это автоматически?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tienare@lj
2007-08-09 07:42 (ссылка)
в статистических программах есть обычно функция графика/диаграммы по частотному распределению

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 08:10 (ссылка)
Спасибо

(Ответить) (Уровень выше)


[info]goujat@lj
2007-11-16 07:08 (ссылка)
Нашёл вас по поиску. Скажите, пожалуйста, есть какие-либо русские ресурсы, тусовки по R?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-11-16 07:13 (ссылка)
Именно русские ? Не в курсе. Не уверен что есть. Могу подкинуть пару англоязычных.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]goujat@lj
2007-11-16 07:14 (ссылка)
Подкиньте, пожалуйста.
R-Help-лист читать практически невозможно из-за неудобной формы подачи материала.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-11-16 08:36 (ссылка)
В первую очередь таки R-help - на мой взгляд он совсем неплох, плюс там тусуюется пара монстров типа Brian Ripley и на правильно сформулированные вопросы отвечают, вобщем полезное место. Есть поиск - http://tolstoy.newcastle.edu.au/R/

А чем он собственно так уж неудобен ?

Кстати, возможно стоит перенести дискуссию в мой журнал, дабы не засорять журнал Алика.

(Ответить) (Уровень выше)


(Читать комментарии) -