Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет clement ([info]clement)
@ 2007-08-07 20:59:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
статистика
Други милые,

А кто-нибудь сведующий в статистике среди вас есть? Я, к сожалению - а когда-то думалось, что к счастью - ее не выбрал в университете, и вот теперь страдаю из-за отсуствия базы. Проблема в следующем: у меня есть набор чисел (с повторениями). Предполагая, что новые примеры распределены так же как и оный набор требуется найти значение n, такое что вероятность того, что новый пример превысит n не выше заданного значения. Понятно, что если я знаю форму распределения (нормальное, пуассоново, и т.д.), то задача сводится к применению стандартной формулы. Что делать, если я форму не знаю? Мне бы не хотелось "руками" подбирать наиболее подходящий вид распределения, равно как не хотелось бы пробовать всяческие Anderson-Darling tests (т.к., насколько я понял они проверяют только нормальность - так?).

Наверное, это что-то общеизвестное и я просто не знаю основ.


(Добавить комментарий)


[info]gruimed@lj
2007-08-07 16:41 (ссылка)
А ты уверен что тебе не подойдет обычный z-test или one sample t-test ? Они конечно предполагают нормальность, но как правило считается что если выборка достаточно большая (больше 30) то сойдет и без.

Кроме того, можно проверить твои данные на нормальность.

(Ответить) (Ветвь дискуссии)


[info]clement@lj
2007-08-07 17:24 (ссылка)
Я проверил небольшой кусочек на нормальность по тесту Шапиро-Вилка (благо в R встроен) - получил 0.766. Мне совершенно непонятно насколько сие хорошо. На другом кусочке получил 0.508, что мне нравится еще меньше. t тест дал для второго куска следующее:

One Sample t-test

data: Res
t = 56.106, df = 433, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval: 49.96493 53.59267
sample estimates: mean of x 51.7788


Но разве t тест не предполагает нормальность распределения данных, которую Шапиро-Вилк и должен проверять?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-08-07 17:51 (ссылка)
Нормальность принято проверять используя QQ plot (qqnorm в R). Это визуальная проверка, т.е, ты не получишь однозначного ответа на вопрос, насколько твои данные нормальны, но примерно оценить сможешь.

Что же касается t-test то его используют налево и направо не особо заморачиваясь проверкой нормальности при условии достаточно большой выборки. В основном потому что особого выбора нету, но за этим также стоит некао теоретическое обьяснение (которое я не помню).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-07 18:14 (ссылка)
Данные мои, к сожалению, не нормальны - по крайней мере, если я правильно интерпретирую график:
Image

Но дело здесь даже не в этом - мне бы хотелось (если это, конечно, возможно) получить чудо-машинку, в которую можно ввести данные, а получить не степень нормальности, а наиболее подходящее распределение из некоего списка, на основании которого и можно было бы что-то предсказывать. При этом машинка должна коим-то образом выбирать распределение сама, а не прибегать к помощи пользователя (qqnorm). Что же касается t-теста, то мне не очень понятно, как его результаты можно для этих целей использовать - что мне скажет в приведенном выше примере, что мое распределение, к примеру, пуассоново, гамма или ещё какое экзотическое? Или же я хочу невозножного?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-08-07 18:23 (ссылка)
Опасаюсь что такая "машинка" не существует, я по крайней мере ни с чем таким не сталкивался.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-07 18:38 (ссылка)
А жаль... Буду думать дальше.

(Ответить) (Уровень выше)


[info]tienare@lj
2007-08-08 12:25 (ссылка)
я заранее прошу прощения, может быть я не то советую, упрощаю. Но на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора. Ведь набор этот в данном случае выступает как ген.совокупность и нужно определить доверительный интервал значений для заданной вероятности (например, 0,05, как это чаще всего бывает) именно исходя из того, что как в ген.совокупности, так бдет и в остальных случаях. То есть в каждом случае смотреть, попадает ли новое значение в доверительный интервал под эту частоту или не попадает.

Функция простого распределения в любом стат.пакете позволяет ее получить (частоту делить на общее количество случаев, например 1/25, что означает вероятность встречаемости 0,04). Все что Вам нужно, методом интуитивного подбора найти то верхнее значение, которое будет соответствовать 0,05. В смысле, не 0,05, а такой, какая вам нужна. Это и будет верхняя граница. Мне кажется, что такой подбор не займет много времени.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-08 14:29 (ссылка)
на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора.

Боюсь, что нет - набор мне заранее неизвестен. Иными словами у меня есть серия из тысячи экспериментов, в ходе которой получилось: сто пятьдесят один раз - 20; шестьсот сорок четыре раза - 58; сто шесьдесят пять раз - 88; двадцать семь раз - 118, семь раз - 148; пять раз - 178 и один раз - 208. Мне кажется разумным предположить, что мой эксперимент даст ответ 20 с вероятностью 0,151; и ответ 58+30n с вероятностью зависящей от n.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tienare@lj
2007-08-08 14:52 (ссылка)
я бы построила график нелинейной функции и по нему предсказывала бы вероятность (внутреннюю валидность) каждого нового значения эксперимента

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 07:33 (ссылка)
Есть какой-то способ делать это автоматически?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tienare@lj
2007-08-09 07:42 (ссылка)
в статистических программах есть обычно функция графика/диаграммы по частотному распределению

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 08:10 (ссылка)
Спасибо

(Ответить) (Уровень выше)


[info]goujat@lj
2007-11-16 07:08 (ссылка)
Нашёл вас по поиску. Скажите, пожалуйста, есть какие-либо русские ресурсы, тусовки по R?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-11-16 07:13 (ссылка)
Именно русские ? Не в курсе. Не уверен что есть. Могу подкинуть пару англоязычных.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]goujat@lj
2007-11-16 07:14 (ссылка)
Подкиньте, пожалуйста.
R-Help-лист читать практически невозможно из-за неудобной формы подачи материала.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gruimed@lj
2007-11-16 08:36 (ссылка)
В первую очередь таки R-help - на мой взгляд он совсем неплох, плюс там тусуюется пара монстров типа Brian Ripley и на правильно сформулированные вопросы отвечают, вобщем полезное место. Есть поиск - http://tolstoy.newcastle.edu.au/R/

А чем он собственно так уж неудобен ?

Кстати, возможно стоит перенести дискуссию в мой журнал, дабы не засорять журнал Алика.

(Ответить) (Уровень выше)


[info]maxim29672@lj
2007-08-07 21:06 (ссылка)
в случае nonnormal распределения with unknown variance при числе наблюдений >30 можно использовать t test если variance известен то подойдет z test если число наблюдений <30 то и в первом и во втором случаях ни t ни z не подходят

(Ответить) (Ветвь дискуссии)


[info]clement@lj
2007-08-08 04:24 (ссылка)
Большое спасибо!

Насколько я понимаю, t тест позволяет мне оценить значение среднего. Можно ли при тех же условиях (ненормальное распределение, дисперсия неизвестна, кол-во примеров превышает 30) оценивать не среднее, но искать границу, т.е. значение m такое что P(Х > m) не превышает некоей заданной величины?

Не могли ли бы Вы порекомендовать книгу или статью, в которой бы упоминались критерии применимости t теста для ненормальных распределений (я нашел статью (http://en.wikipedia.org/wiki/Statistical_hypothesis_testing) в Википедии, но хотелось бы найти лучший источник).

(Ответить) (Уровень выше)


[info]sneval@lj
2007-08-08 06:41 (ссылка)
alik, situatija takaja
given dataset D, you order it from small to large , e.g. {1,2,5,7,9, ...}
find: M such that p(X>M)<=p
p'
[Error: Irreparable invalid markup ('<p-e [...] p'|d|>') in entry. Owner must fix manually. Raw contents below.]

alik, situatija takaja
given dataset D, you order it from small to large , e.g. {1,2,5,7,9, ...}
find: M such that p(X>M)<=p
p'<p-e (where e is very small)
p'|D| from the ordered set (from the example p'(9) = 5 )
threashold M = ((p'*D) - threashold number)
now
p(X>M)=~ p'|D|/|D| = p'
\sigma(x>M)~1/\sqrt{D}, koeffizient ty dolzhen opredelit sam
nadejus eto dast intuition
good luck, snezhana

(Ответить) (Ветвь дискуссии)


[info]clement@lj
2007-08-08 13:54 (ссылка)
Прошу прощения, но я не понял.

1) Упорядочиваем числа по возрастанию (или все же неубыванию?)
2) p' - это что? Вероятность или порядковый номер в упорядоченном списке?
Ты хочешь сказать, что вероятность получить значение больше некоего М равна порядковому номеру этого М деленному на количество примеров (или все же 1 - это число)?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sneval@lj
2007-08-08 14:05 (ссылка)
1) Упорядочиваем числа по возрастанию (или все же неубыванию?)
po vozrastaniju
2) p' - это что? Вероятность или порядковый номер в упорядоченном списке?
verojatnost, nemnogo menshaja p
naprimer est 5 chisel, verojatnost vypadenija odnogo iz nih 1/5, togda p'=1/6, naprimer
Ты хочешь сказать, что вероятность получить значение больше некоего М равна порядковому номеру этого М деленному на количество примеров (или все же 1 - это число)?
1 - eto chislo i eta formula est priblizhenije, k kotoroj escho nuzhno vyschitat koeffizient (posmotri raschet distribution coefficient po knizhkam ili v inete, eto ne ochen trivialno)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-08 14:40 (ссылка)
Спасибо.

(Ответить) (Уровень выше)


[info]burrru@lj
2007-08-08 19:02 (ссылка)
Скорее всего, помогут работы Невзорова о теории рекордов.

(Ответить) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 07:30 (ссылка)
Спасибо, буду смотреть.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]burrru@lj
2007-08-09 08:50 (ссылка)
Esli nuzhny obschie idei, to ya mogu rasskazat' (po skaipu) ili napisat' (po meilu).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]clement@lj
2007-08-09 08:57 (ссылка)
Буду премного благодарен aserebrenik@yahoo.com

(Ответить) (Уровень выше)