clement: статистика

(Читать комментарии) - (Добавить комментарий)

clement@lj
2007-08-07 17:24 (ссылка)

Я проверил небольшой кусочек на нормальность по тесту Шапиро-Вилка (благо в R встроен) - получил 0.766. Мне совершенно непонятно насколько сие хорошо. На другом кусочке получил 0.508, что мне нравится еще меньше. t тест дал для второго куска следующее:

One Sample t-test

data: Res
t = 56.106, df = 433, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval: 49.96493 53.59267
sample estimates: mean of x 51.7788

Но разве t тест не предполагает нормальность распределения данных, которую Шапиро-Вилк и должен проверять?

(Ответить) (Уровень выше) (Ветвь дискуссии)

gruimed@lj
2007-08-07 17:51 (ссылка)

Нормальность принято проверять используя QQ plot (qqnorm в R). Это визуальная проверка, т.е, ты не получишь однозначного ответа на вопрос, насколько твои данные нормальны, но примерно оценить сможешь.

Что же касается t-test то его используют налево и направо не особо заморачиваясь проверкой нормальности при условии достаточно большой выборки. В основном потому что особого выбора нету, но за этим также стоит некао теоретическое обьяснение (которое я не помню).

(Ответить) (Уровень выше) (Ветвь дискуссии)

clement@lj
2007-08-07 18:14 (ссылка)

Данные мои, к сожалению, не нормальны - по крайней мере, если я правильно интерпретирую график:

Но дело здесь даже не в этом - мне бы хотелось (если это, конечно, возможно) получить чудо-машинку, в которую можно ввести данные, а получить не степень нормальности, а наиболее подходящее распределение из некоего списка, на основании которого и можно было бы что-то предсказывать. При этом машинка должна коим-то образом выбирать распределение сама, а не прибегать к помощи пользователя (qqnorm). Что же касается t-теста, то мне не очень понятно, как его результаты можно для этих целей использовать - что мне скажет в приведенном выше примере, что мое распределение, к примеру, пуассоново, гамма или ещё какое экзотическое? Или же я хочу невозножного?

(Ответить) (Уровень выше) (Ветвь дискуссии)

	gruimed@lj 2007-08-07 18:23 (ссылка)
	Опасаюсь что такая "машинка" не существует, я по крайней мере ни с чем таким не сталкивался. (Ответить) (Уровень выше) (Ветвь дискуссии)

	clement@lj 2007-08-07 18:38 (ссылка)
	А жаль... Буду думать дальше. (Ответить) (Уровень выше)

tienare@lj
2007-08-08 12:25 (ссылка)

я заранее прошу прощения, может быть я не то советую, упрощаю. Но на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора. Ведь набор этот в данном случае выступает как ген.совокупность и нужно определить доверительный интервал значений для заданной вероятности (например, 0,05, как это чаще всего бывает) именно исходя из того, что как в ген.совокупности, так бдет и в остальных случаях. То есть в каждом случае смотреть, попадает ли новое значение в доверительный интервал под эту частоту или не попадает.

Функция простого распределения в любом стат.пакете позволяет ее получить (частоту делить на общее количество случаев, например 1/25, что означает вероятность встречаемости 0,04). Все что Вам нужно, методом интуитивного подбора найти то верхнее значение, которое будет соответствовать 0,05. В смысле, не 0,05, а такой, какая вам нужна. Это и будет верхняя граница. Мне кажется, что такой подбор не займет много времени.

(Ответить) (Уровень выше) (Ветвь дискуссии)

clement@lj
2007-08-08 14:29 (ссылка)

на мой взгляд Ваша задача сводится к поиску вероятности (относительной частоты встречаемости) каждого значения из данного набора.

Боюсь, что нет - набор мне заранее неизвестен. Иными словами у меня есть серия из тысячи экспериментов, в ходе которой получилось: сто пятьдесят один раз - 20; шестьсот сорок четыре раза - 58; сто шесьдесят пять раз - 88; двадцать семь раз - 118, семь раз - 148; пять раз - 178 и один раз - 208. Мне кажется разумным предположить, что мой эксперимент даст ответ 20 с вероятностью 0,151; и ответ 58+30n с вероятностью зависящей от n.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	tienare@lj 2007-08-08 14:52 (ссылка)
	я бы построила график нелинейной функции и по нему предсказывала бы вероятность (внутреннюю валидность) каждого нового значения эксперимента (Ответить) (Уровень выше) (Ветвь дискуссии)

	clement@lj 2007-08-09 07:33 (ссылка)
	Есть какой-то способ делать это автоматически? (Ответить) (Уровень выше) (Ветвь дискуссии)

	tienare@lj 2007-08-09 07:42 (ссылка)
	в статистических программах есть обычно функция графика/диаграммы по частотному распределению (Ответить) (Уровень выше) (Ветвь дискуссии)

	clement@lj 2007-08-09 08:10 (ссылка)
	Спасибо (Ответить) (Уровень выше)

	goujat@lj 2007-11-16 07:08 (ссылка)
	Нашёл вас по поиску. Скажите, пожалуйста, есть какие-либо русские ресурсы, тусовки по R? (Ответить) (Уровень выше) (Ветвь дискуссии)

	gruimed@lj 2007-11-16 07:13 (ссылка)
	Именно русские ? Не в курсе. Не уверен что есть. Могу подкинуть пару англоязычных. (Ответить) (Уровень выше) (Ветвь дискуссии)

	goujat@lj 2007-11-16 07:14 (ссылка)
	Подкиньте, пожалуйста. R-Help-лист читать практически невозможно из-за неудобной формы подачи материала. (Ответить) (Уровень выше) (Ветвь дискуссии)

gruimed@lj
2007-11-16 08:36 (ссылка)

В первую очередь таки R-help - на мой взгляд он совсем неплох, плюс там тусуюется пара монстров типа Brian Ripley и на правильно сформулированные вопросы отвечают, вобщем полезное место. Есть поиск - http://tolstoy.newcastle.edu.au/R/

А чем он собственно так уж неудобен ?

Кстати, возможно стоит перенести дискуссию в мой журнал, дабы не засорять журнал Алика.

(Ответить) (Уровень выше)

(Читать комментарии) -