Когнитивная психология и эмоции
Субъективные заметки постдока-психолога
Записи в рубрике «анализ данных»

R functions for formatting results «APA style» and other stuff

13 апреля 2015, анализ данных Метки:

For those of you using R and writing papers in APA style: I’ve uploaded some of the functions I commonly use for describing the results in Markdown to Github: https://github.com/ralfer/apa_format_and_misc/. I find them quite time-saving during initial stages of writing the manuscript. See some examples here: https://github.com/ralfer/apa_format_and_misc/blob/master/example/example.md.

Видео лекций по статистике и R на русском

6 февраля 2014, анализ данных Метки: , ,

Институт Биоинформатики выложил видеозаписи нашего с Анатолием Карповым курса по статистике и R. Задумка курса заключалась в том, чтобы попробовать объяснять биологам статистику так, как она обычно дается гуманитариям — на простых примерах с минимумом математики. Курс вышел очень сжатым — у нас было всего 14 занятий на теорию и практику с нуля. Надеюсь, несмотря на эту сжатость, все же что-то удалось объяснить.

Если у вас видео не проигрывается, вот прямая ссылка: http://www.youtube.com/watch?v=jE2bgVl2xPk&feature=share&list=PLjKdf6AHvR-GOGfUrUJ8c6La_Fq5s2O0U

Как анализ данных может помочь разделить каузацию и корреляцию

15 августа 2013, анализ данных Метки: ,

В нас (психологов) достаточно методично вдалбливают в университете, что статистические методы показывают только наличие взаимосвязи, вопрос о причинно следственных связях решается только путем эксперимента. Оказывается, что это не совсем так, и вроде бы существуют алгоритмы позволяющие в некоторых случаях говорить о том, где причинно-следственные связи более вероятны.

Например, взгляните на этот график и попытайтесь определить, какая из переменных является причиной, а какая — следствием:

Причины и следствия

Это пример со статистического соревнования на kaggle.com, посвященного как раз алгоритмам выделения причинно-следственных связей. Если вы хотите увидеть ответ, выделите мышкой текст после этого предложения. С точки зрения авторов, переменная B — причина, А — следствие. В данном случае, B — это высота над уровнем моря, а А — среднегодовая температура (по всей видимости, по шкале Фаренгейта). На форуме соревнования есть интересное обсуждение на тему «действительно ли подобное разделение возможно», почитайте, интересно, полно здравой критики.

R — быстрое считывание и объединение csv файлов

28 июля 2013, анализ данных Метки: ,

Топорный вариант (медленный):

data <- data.frame()
for (i in file_list){
   data <- rbind.fill(data, read.csv(i, stringsAsFactors=F))
}

Быстрый вариант:

data <- do.call("rbind.fill", lapply(file_list, 
              FUN = function(i) read.csv(i, stringsAsFactors=F))
                )

stringsAsFactors важно, поскольку, если в первом файле представлены не все уровни фактора, при объединении может получиться ерунда

Про SDT и ROC, вопросы

21 ноября 2012, анализ данных Метки: , , ,

В наших исследованиях мы хотим показать, что субъективная уверенность в ответе содержит в себе компонент эмоциональной оценки. Для этого, кроме всего прочего я пытаюсь использовать аппарат теории обнаружения сигнала (SDT). В первом эксперимент испытуемые определяют по неполному (или замаскированному) изображению его категорию — человек, предмет, животное. После этого одни испытуемые отвечают на вопрос, насколько им понравилось предъявленное изображение, другие — насколько они уверены в ответе. Обе шкалы 100-бальные. Я пытаюсь сравнить между собой шкалу оценки объекта и шкалу уверенности, и делаю это следующим образом — перевожу значения по шкалам в z-значения для каждого испытуемого, затем строю кривые ROC, используя в качестве зависимой переменной правильность ответа. Затем сравниваю area under curve для обеих шкал друг с другом и с показателем 0.5 как уровнем угадывания. Получаю, что для уверенности AUC больше  чем для оценки, и для обеих шкал AUC > 0.5.  Вопрос: насколько разумны эти операции?

Кроме того, есть второй эксперимент. В нем испытуемые должны определять, одинаковые или разные пары карт им предъявляются и оценивать свою уверенность в ответе. Перед каждой парой карт им также показывается привлекательная либо непривлекательная лицо (фотография).  Кроме того, испытуемые делятся на две группы, которые различаются по инструкции. Одним дается условно обычная инструкция, другим в качестве дополнения говориться, что мы хотим, чтобы они контролировали влияние своих эмоций при оценках уверенности. Нас интересует влияние двух факторов, привлекательности лица и инструкции на 1) оценки уверенности как таковые — предполагается, что после привлекательного лица оценки уверенности будут выше, и 2) изменение способности к различению правильных и неправильных ответов по степени уверенности в зависимости от инструкции и привлекательности лица. С первым все просто и понятно, вроде как. Проблема со вторым. Я опять же строю кривые ROC для z-значений уверенности. Получаю вот такую картинку (кликабельна):

Сравнение AUC показывает, что в случае привлекательного лица и инструкции на контроль эмоций «разрешающая способность» z-значений оценок уверенности ниже, в сравнении с непривлекательными лицами в этой группе. Вопрос, опять же, так можно делать? В смысле можно ли использовать ROC для подобного сравнения? Кроме того, вопрос еще такой: на графике видно, что для привлекательного лица и контроля эмоций есть bias. Это так? Чем его померить?

Вопросы для специалистов, наверное, примитивные, и не исключено, что я где-то сильно туплю, но как рз поэтому я и хочу понять, все ли я правильно делаю.

пс. кривые строились в R с помощью пакета pROC.