Иногда, когда окончательно достает писать тезисы, хочется поизвращаться. В прошлом году плодом таких извращений стали тезисы на психологию 21 века. Частично они были навеяны семинаром у шефа, где разбирали стихи, уж не помню в связи с чем конкретно. В общем, что выросло — то выросло. Решил выложить здесь, пусть живет, на поисковые запросы откликается. Плюс интересно, а вы когда-нибудь такой фигней страдали? Или это только я так извращаюсь?

В психологии часто встречаются планы исследований, где ученому нужно проверить гипотезу через сравнение средних по нескольким группам. Очевидным примером подобного плана послужит анализ того, как влияют несколько факторов, или проверка различий на нескольких группах. Например, если поставлен вопрос о том, вызывают ли игры в сети Интернет агрессивность в реальном общении, можно сравнить группу тех, кто играет, с контрольными группами не интернет-игроков и совсем не играющих. В качестве метода выберем мы восемь шкал Басса-Дарки и группы сравним по критерию U Манна-Уитни. Здесь возникает проблема, ведь мы проверяем статистикой ровно шестнадцать гипотез, а вследствие и вероятность ошибки становится больше. Напомним, что значимость уровня α=0,05 означает, что мы результат на других испытуемых, избранных из совокупности волею случая, не повторим с вероятностью лишь 5%. Но уровень α=0,05 для гипотезы не означает, что будет он точно такой же для эксперимента. Когда есть «семейство» гипотез, что значит проверку гипотез естественным образом связанных или влияющих вместе на выбор решения (Westfall et al., 1999), вероятность ошибки «семейства» равна 1-(1-α)^n, где α есть уровень значимости отдельных гипотез, а n означает количество наших гипотез. Так, в нашем примере вероятность ошибки, а значит и шанс не получить по хотя бы одной из гипотез различия, выбрав других испытуемых, равна, приблизительно, 0,56.

Все, что описано выше, вполне тривиально и объясняется в лекциях по матстатистике. Проблема лишь в том заключается, что объясняется это для параметрических методов. Для них предлагается выбор ANOVA как лучшего метода и тесты пост-фактум с учетом количества проверенных нами гипотез. Однако, и непараметрика требует также подобного рода коррекции. Увы, ни в одной из дипломных работ студентов-психологов за последние годы (найденных нами на сайте psydiplom.ru) учтено это не было. Одной из причин, на наш взгляд, для такого подхода является то, что в пакете SPSS попросту методов нет для учета проблемы. В это же время, есть процедуры, что нам позволяют легко и изящно вручную учесть вероятность ошибки «семейства» гипотез. Из них наиболее просто использовать метод, что был Benjamini & Hochberg (1995) предложен недавно.

Предполагает их метод всего лишь три шага:

  1. выстраивание всех полученных для M нулевых гипотез H(i) уровней значимости p(i) в порядке возрастания;
  2. последовательная проверка неравенства p(i)<=i*α/M начиная с i=M по убыванию;
  3. отвержение всех нулевых гипотез H(1)..H(k), где k — первое i для которого выполняется указанное неравенство.

Нужно заметить, что хоть этот метод и относительно мягок, он тем не менее, снизит для наших гипотез уровень α. Пусть шесть гипотез проверено было, и в них получили мы p равные 0,001, 0,003, 0,009, 0,037, 0,043, 0,140. Проверив неравенство p(i)<=i*0,05/6, начиная с i=6, мы обнаружим, что верно оно для i=3, что нам позволяет отвергнуть первые три нулевые гипотезы. А два результата, «статистически значимых на уровне p<0,05», не значимы стали с учетом коррекции. Пусть будет противен для Бога такой результат, он обоснован. Ведь проверять 6 гипотез направленных вместе на общую цель затея не слишком хорошая, но тем не менее, встретить подобное можно почти повсеместно. И, очевидно, любая коррекция не панацея. Хоть снизили мы вероятность найти псевдозначимые результаты, но увеличили шанс результат пропустить.

В заключение немного прозы. Применение статистических методов всегда содержит в себе некоторый элемент произвольности. В случае множественных сравнений этот элемент виден из определения «семейства» гипотез, кроме того, кто может решить насколько важна ошибка первого рода в сравнении с ошибкой второго рода? С нашей точки зрения, это всегда своего рода игра, но эта игра, так же как и наука в целом, имеет свои правила. Учет множественности сравнений при анализе значимости результатов — это правило, для нарушения которого требуется серьезное обоснование. Необоснованное игнорирование этого правила — это, в общем и целом, признак либо неосведомленности, либо небрежности.