Когнитивная психология и эмоции
Субъективные заметки аспиранта-психолога
Записи в рубрике «анализ данных»

Несколько мастер-классов по R, 26-27 апреля

23 апреля 2012, анализ данных Метки: , , , ,

«Анализ данных в среде R»

Коллеги, мы рады пригласить вас на серию мастер-классов по анализу данных в среде R, которые пройдут в рамках конференции «Психология XXI века» 26-28 апреля в Санкт-Петербурге.
Особенность R в том, что это – стремительно развивающийся и набирающий популярность язык программирования для статистической обработки данных и работы с графикой. В настоящее время R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом в своей области. Наиболее привлекательные строны языка R – высокая гибкость, огромное сообщество пользователей и разработчиков. Бесплатность пакета делает его серьезной альтернативой таким коммерческим пакетам для анализа данных, как IBM SPSS или Statistica.

Мы предлагаем вам принять участие в нескольких мастер-классах, на которых наши коллеги из МГУ и СПбГУ расскажут об основных принципах R, поделятся опытом решения основных задач, возникающих при анализе данных психологических исследований. Некоторое время будет уделено и новым идеям в сфере анализа данных и представления результатов анализа.

Наша цель – представить психологам-исследователям новый и перспективный инструмент для анализа данных, а также встретиться и познакомиться с теми, кто занимается статистическим анализом данных исследований, интересуется R и новыми идеями в количественной психологии.

Пожелания к участникам
- знание базовых методов анализа данных в психологии или смежных науках (желательно в объеме учебника А.Д.Наследова «Математические методы психологического исследования. Анализ и интерпретация данных» или его аналогах);
- умение работать в каком-либо стат.пакете для анализа данных (SPSS, Statistica, Stata, Matlab, R, SAS и проч.).

Ведущие мастер-классов:

Иван Воронин Психологический институт РАО, лаборатория возрастной психогенетики; МГУ, факультет психологии. Интересы: все, что связано с R и мат.методами

Марат Зайнутдинов СПбГУ, факультет психологии, лаборатория психофизиологии. Интересы: Big data analysis, machine learning, AI

Андрей Четвериков СПбГУ, факультет психологии, лаборатория когнитивной психологии. Интересы: мешанные модели, анализ взаимодействий, контрасты, бутстреп, структурное моделирование, проблемы p, IRT, SDT.

Программа:

26 апреля
18.00-19.00 Иван Воронин Введение в R
19.20-20.20 Марат Зайнутдинов Описательные статистики и проверка гипотез в R

27 апреля
13.00-14.00 Марат Зайнутдинов Многомерные методы: факторный анализ
14.15-15.15 Андрей Четвериков Регрессионный анализ и смешанные модели
15.30-16.30 Андрей Четвериков Графики и представление результатов в R
16.45-18.00 Иван Воронин Literate Statistical Practice продолжение »

Точечная гистограмма в R (dotplot, ggplot2)

25 марта 2012, анализ данных Метки: , , , ,

В ggplot2 версии 0.9.0 добавился интересный вариант визуализации данных — dotplot. По сути это гистограмма, которая отражает напрямую количество наблюдений. Не знаю, как это по другому описать, просто взгляните на график:

Dotplot + density plot, ggplot2

Dotplot + density plot, ggplot2

Линиями отражено распределение плотности, «точками» — наблюдения. Шкала x — средняя точность ответов. Данные представлены для двух групп из одного из моих экспериментов. На графике четко видно, что в обеих группах есть люди, которые просто не прочитали инструкцию, или прочитали неправильно (точность 0.1 — правильный ответ на уровне шанса) =)

Делается такой график вполне просто:

> ggplot(data=art_ev_aggr,aes(x=accuracy)) 
+ geom_density(aes(linetype=factor(target_time),y=..scaled..)) 
+ geom_dotplot(dotsize = .5,aes(size=2, fill=factor(target_time)))
+ labs(fill="Target time", linetype="Target time")

Подключение к MySQL в R под Ubuntu с использованием RODBC

22 марта 2012, анализ данных Метки: , , ,

Много страшных слов в заголовке вышло.
Есть 2 (известных мне) способа подключиться к базе данных MySQL ищ R: RMySQL и RODBC. Про RMySQL под Windows я уже писал, под Ubuntu с установкой RMySQL вообще проблем нет (sudo apt-get install r-cran-rmysql). Но у меня почему-то последнюю неделю RMySQL глючит, постоянно выдавая ошибки:

Warning messages:
1: In mysqlFetch(res, n, ...) :
  RS-DBI driver warning: (error while fetching rows)
2: In mysqlQuickSQL(conn, statement, ...) : pending rows

Поэтому я решил попробовать второй способ, RODBC.
Установка:

sudo apt-get install iodbc libmyodbc unixodbc-dev r-cran-rodbc

Запускаем «odbcinst -j»:

unixODBC 2.2.14
DRIVERS............: /etc/odbcinst.ini
SYSTEM DATA SOURCES: /etc/odbc.ini
FILE DATA SOURCES..: /etc/ODBCDataSources
USER DATA SOURCES..: /home/ralfer/.odbc.ini

Редактируем odbcinst.ini, добавляем информацию о драйвере mysql:

[MySQL]
Description     = MySQL driver
Driver          = /usr/lib/odbc/libmyodbc.so
Setup           = /usr/lib/odbc/libodbcmyS.so

Добавляем информацию о подключении в .odbc.ini (USER DATA SOURCES):

[test]
Driver   = MySQL
database = dbname
password = pass
server   = www.host.com
user     = user_name
uid      = user_name

Проверяем:

$ odbcinst -q -s
[test]
$ odbcinst -q -d 
[MySQL]
$ isql test
+---------------------------------------+
| Connected!                            |
|                                       |
| sql-statement                         |
| help [tablename]                      |
| quit                                  |
|                                       |
+---------------------------------------+
SQL>

Запускаем R, подключаем RODBC:

#проверяем наличие подключения
> odbcDataSources()
test      
  "MySQL" 
> library(RODBC)
#подключаемся
> con <-odbcDriverConnect("dsn=test")
> con
RODBC Connection 1
Details:
  case=nochange
  dsn=tests
#запрос делается так
> sqlQuery(con, "запрос")

Все.

Большая часть информации о настройке ODBC почерпнута отсюда.

Настройки конфигурации в R

6 января 2012, анализ данных Метки: ,

При запуске R настройки считываются из нескольких файлов, которые подробно описаны тут. Для пользовательских настроек предполагается использовать два файла: .Renviron и .Rprofile , которые берутся из рабочей директории или домашней директории юзера. Первый предназначен для хранения переменных окружения, второй — для выполнения команд после запуска. Мои конфиги сейчас выглядят так:

.Renviron:

R_PDFLATEXCMD="~/texlive/2011/bin/x86_64-linux/pdflatex"
R_LATEXCMD="~/texlive/2011/bin/x86_64-linux/latex"
R_HISTSIZE='100000'

Первые две переменных задают пути к latex и pdflatex, третья — размер истории в консоли R.

.Rprofile:

#жесткое задание репозитория
r <- getOption("repos") 
r["CRAN"] <- "http://cran.gis-lab.info"
options(repos = r)
rm(r)
 
#алиасы для команд
s <- base::summary;
h <- utils::head;
n <- base::names;
 
#маленькая функция для загрузки пакетов в определенную директорию
inst.pkg <- function(pkg){
  install.packages(pkg,destdir="~/r-packages/")
}
 
#подгрузка наиболее часто используемых библиотек
library(doBy)
library(ggplot2)
library(car)
library(coin)

В общем, я его только сегодня начал использовать, по мере необходимости буду пополнять. Вот тут люди свои конфиги выкладывали, тоже интересно.

Statgeeks, встреча номер 3: «Мета-анализ: принципы и проблемы»

23 ноября 2011, анализ данных Метки: , , ,
Слово Филиппу Управителеву:
Коллеги!

Следуя запросу, я позволил себе несколько изменить содержание грядущей встречи.
поэтому…

В этот четверг я буду делать доклад на тему «Мета-анализ: принципы и проблемы». В докладе я постараюсь раскрыть задачи мета-анализа исследований, описать последовательность и статистические методы анализа, модели фиксированных и случайных эффектов, проговорить критические замечания к логике мета-анализа.

Время — 24.11 в 19.00;
Место — факультет психологии СПбГУ (наб.Макарова, 6), ауд.213.

приходите сами и приглашайте коллег!

С уважением,
Филипп А.Управителев