lqp - April 3rd, 2017

April 3rd, 2017

April 3rd, 2017
08:05 pm

[Link]

Фишеровские критерии значимости как социальная траблема
Изучаю нравы и обычаи американских психологических, биологических и медицинских научных учреждений. Там открывается такая жуть, что по сравнению с ней ритуальный каннибализм аборигенов Островов Кука кажется милой этнографической деталью. Сначала собирался суммировать все в одну запись, но понимаю, что это тема для обширной монографии. Буду выкладывать небольшие кусочки, как их будет не лень писать.

Справочно про классические параметрические критерии значимости, на жаргоне всяких там биологов-психологов называющиеся "статистические тесты". Все нижесказанное касается именно параметрических критериев, основанных на вычислении моментов выборок, таких как критерий Фишера (f-test), z-критерий Фишера (z-test), критерий Стьюдента (t-test) и т.п. Сказанное не обязательно верно для непараметрических и ранговых критериев, а тем более для критериев согласия, хотя бы и того же имени. Также речь не идет об Общем Критерии Значимости из Википедии.

Критерии значимости проваливаются в традиционную яму между дисциплинами. Основная масса их пользователей сосредоточена в биологии, психологи, гуманитарных науках итп, которые (ниже мы увидим что это важно) стремятся к строгости своих выводов, но не выработали еще (надеюсь, что еще) связной количественной математической модели своего предмета. С точки зрения биологов-психологов "статистические тесты" являются сложнейшей математикой и едва ли не квинтэссенцией статистической науки. Поэтому существа этих методов они не изучают, а изучают - с похвальным прилежанием, едва ли не заучивая наизусть - руководства по эксплуатации, выдержанные в стиле "а ты, чукча, покорми собак и ни к чему не прикасайся". Именно способность процитировать руководство наизусть и называется среди них "знанием статистики".

С другой стороны, с точки зрения математиков, критерии значимости являются чисто техническим трюком, вроде приемов пользования логарифмической линейкой. Соответственно, они их тоже не изучают, бо нечего там изучать. На все критерии вместе взятые отводится от силы пара занятий, из который мало кто что-то запоминает. Я вот лично ничего не запомнил, пришлось разбираться заново.

Никакой тайны тут на самом деле нет. Критерии значимости полностью вычислительно эквивалентны нахождению матожиданий (или других моментов) двух выборок, построению для них доверительных интервалов и проверке, что эти интервалы не пересекаются. Критерии различаются тем, какую информацию о выборках они используют для построения доверительных интервалов. И это всё - ничего _сверх_ того критерии значимости не содержат. Поэтому встречающееся временами поведение "мы сначала построили доверительные интервалы, а потом для пущей надежности еще провели статистические тесты" - это масло масляное. Сакраментальное p-value - это просто ширина доверительного интервала, значению p соответствует (100-p*100)-процентному доверительному интервалу, запись p<0.05 означает 95% доверительный интервал, что для достаточно больших выборок примерно соответствует двум стандартным отклонениям.

Эачем это нужно, в таком случае? Для физика, а тем более инженера, экспериментальные цифры как правило представляют самостоятельный интерес, имеют конкретный физический смысл. Физик _все_ _равно_ будет вычислять среднее, оно ему интересно само по себе, независимо от "статистических тестов". Более того, и стандартное отклонение для физика обычно тоже имеет ясный физический смысл - это ошибка его измерительного прибора, часто даже заранее откалиброванная. Поэтому в точных науках критерии значимости в явном, упакованном виде используются редко.

В биологии-психологии все по другому. Конкретные цифры, получаемые в экспериментах тут обычно не имеют самостоятельного значения. Ибо являются неизвестной функцией великого множества условий и обстоятельств эксперимента, частью произвольных, частью неконтролируемых, частью вовсе неизвестных. Включая такой специфический параметр как радиус кривизны рук экспериментатора, да. Поэтому единственный осмысленный вопрос, который тут можно ставить - достаточно ли различны между собой две группы наблюдений, чтобы это нельзя было списать на случайность. То есть ровно тот самый вопрос, на который и отвечают критерии значимости, безо всяких промежуточных понятий и теорий.

При этом знание промежуточных цифр не только маловажно, но вполне может быть и вредно, если провоцирует неквалифицированное философствование по их поводу. Типовой пример, приводимый во многих учебниках - если изучаемые выборки имеют большую разницу средних ("величину эффекта" как у них принято говорить), но при этом настолько большой разброс, что критерий не сходится, у многих возникает соблазн под каким-либо предлогом проигнорировать большую дисперсию и заявить что большая величина эффекта сама по себе доказывает значимость результата. В то время как на самом деле единственное что оно доказывает, так это хреновое качество эксперимента.

Поэтому, а также под влиянием Фишера и Неймана-Пирсона (_другого_ Неймана и _другого_ Пирсона), у которых был свой интерес, англо-американские биологии-психологи полностью переключились с доверительных интервалов и прочего содержательного анализа на формальные "статистические тесты". Да так крепко что сейчас, когда некоторые из них пропагандируют возвращение обратно к доверительным интервалам - они вынужденны описывать их заново, как совершенно новое понятие - и не в учебниках, а в реферируемых биостатистических журналах (напр).


В теории это прекрасно. На практике однако возникает та проблема, что теряется смысл. Среднее значение, дисперсия, доверительный интервал - это все более или менее физически осмысленно. Ну или во всяком случае доступно для понимания при должном старании. А теперь попробуйте объяснить, что именно измеряет критерий значимости безо всех этих промежуточных костылей. В особенности если религия запрещает вам говорить о вероятности применительно к физическим величинам, неизвестным переменным и вообще любым обьектам, не являющимися элементами выборки.

Это такие специфические тараканы англо-американской статистики, известные как фреквентизи и мизесианская теория вероятности. В самой математике эта теория уже без малого сто лет как сдана в кунсткамеру, к френологии, витализму, месмеризму и прочим торсионным полям. Но учебники по статистике для биологов-психологов в США до сих пор пишут люди, которые учились у профессоров, которые учились у профессоров, которые учились у профессоров, которые учили статистику по Рихарду Мизесу. Существуют забавные статьи в высокорейтинговых биостатистических журналах (целый жанр), где маститые авторы перечисляют десятки неправильных, по их мнению, способов понять p-value, но при попытке сформулировать единственно правильное понимание безнадежно запутываются сами.

Другой практический эффект состоит в том что теряется представление о качестве измерений. Физик, гдядя на график понимает, что его проблема в плохой точности данных, и ему любой ценой нужно повысить ее хотя бы на порядок. Биолог-психолог вообще может не понимать, и часто не понимает, что его данные содержат шум, и что этот шум зависит от способа проведения эксперимента. Единственный параметр который он непосредственно видит - это размер выборки. Но если от погрешности единичного измерения мощность критерия значимости зависит линейно или даже лучше, то от размера выборки она зависит как корень квадратный или около того. То есть чтобы повысить разрешающую способность в три раза, выборку нужно сделать больше в десять, а чтобы повысить в десять - нужна в сто раз большая выборка. Что как правило находится далеко за пределами физических возможностей исследователя. Отсюда фатализм, поклонение языческим богам и странные ритуалы вроде пресловутой "рандомизации".

В англоязычной (и переводной) литературе критерии значимости часто смешиваются с теорией проверки статистических гипотез, известной как теория Неймана-Пирсона (_другого_ Неймана и _другого_ Пирсона). Ну, знаете весь этот жаргон - "нулевая гипотеза", "альтернативная гипотеза", "ошибка первого рода", "ошибка второго рода" итп. Это ошибка (принципиального рода:-). Критерии значимости в принципе возможно (не без скрипа) встроить в теорию Неймана-Пирсона - но для этого к ним нужно добавить еще столько же вычислений плюс вагон с прицепом дополнительной информации, в контексте научного исследования (а не, скажем, проверки качества продукции) обычно отсутствующей.

Критерий значимости проверяет значимость имеющихся у нас различий между выборками. Он _не_ _предполагает _ _никаких_ альтернативных гипотез. У нас либо достаточно оснований для того чтобы сделать вывод (с заданным нами уровнем надежности) о различии выборок, либо нет. Если нет - то критерий значимости не дает нам никаких объяснений, почему именно нет. Может быть у нас недостаточно данных. Может быть наши данные слишком плохого качества. Ножет быть на самом деле различия вовсе нет. А может быть нам просто не повезло. Критерии значимости позволяют нам судить о статистическом различии выборок. Критерии значимости ничего определенного не могут сказать нам об их сходстве. Если же нас интересует не различие, а именно сходство, мы должны воспользоваться совершенно другим классом статистических критериев, называемыми критериями однородности.

Простое логическое отрицание тут не работает. Можно провести аналогию с доказательством теоремы. Как известно, отсутствие доказательства не есть доказательство отсутствия. Если Вася может доказать теорему, то это говорит о правильности теоремы. Но если Вася не может доказать теорему, то это говорит только о неспособности к этому Васи. Может быть теорема верна, а может быть и нет, мы по прежнему этого не знаем. Я так подробно об этом рассказываю, потому что это вообще типовая, эээ, fallacy среди наших "научных журналистов" и "доказательных медиков".

Интересным - и вовсю используемым, скажем фармацевтической индустрией, - свойством критериев значимости является то, что на реальных данных при достаточно большом размере выборке они _всегда_ положительны: ∀ P>0 ∃ N ∈ N ∀ X=(Xn),Y=(Yn),n=1..N:p(F(X,Y)) < P. Имеются в виду выборки во многие тысячи и десятки тысяч значений. Иначе говоря, имея достаточно денег и времени на эксперименты, организация всегда может купить себе значимость - главное чтобы у нее знак был правильный.

Я сам это не до конца понимаю, но в первом приближении это можно объяснить так. Критерий значимости меряет различия между выборками. Но на самом деле две разные выборки в чем-то _всегда_ различны - уже просто по факту того, что это две _разные_ выборки. По мере увеличения размера выборок метод замечает все более тонкие и малозначительные различия между ними (а равно отличия закона распределения реальных данных от модели, например ассиметрию распределения) и в конечном счете начинает учитывать всякий бессмысленный шум. Чтобы такой фигни не было надо, как я понимаю, ставить p в зависимость от N, но это непросто математически строго сформулировать и поэтому никто не делает.

Наконец центральным пунктом нареканий на критерии значимости являются пресловутые пять процентов, (или p<0.05 как это обычно записывается). Это по всем меркам чудовищно большое значение. Но это тема для отдельной телеги.

Tags:

(11 comments | Leave a comment)

Previous Day 2017/04/03
[Archive]
Next Day
Powered by LJ.Rossia.org