Когнитивная психология и эмоции
Субъективные заметки постдока-психолога
Записи в рубрике «анализ данных»

Задачка на сегодня

15 июля 2012, анализ данных Метки: , , , , ,

Задачка на сегодня — научиться рисовать такую хрень подобного рода таблографик в ggplot2.

"Лесной" график (forest plot) из metafor

«Лесной» график (forest plot) из metafor

Самое сложное — это сделать легенду, чтоб не вручную координаты прописывать.

Интересный графичек

7 июля 2012, анализ данных Метки: ,

По сути это jitter plot но с фиксированным сдвигом для точек. Ну и на смесь dot plot и volcano plot похоже. Раньше такого не видел.

Диапазон долей правильных ответов

Диапазон долей правильных ответов

Установка TrueType шрифтов (TTF) в R

2 июля 2012, анализ данных Метки: , , , ,

Если вы когда-либо делали графики с русскими подписями в R, то знаете, что периодические появляются проблемы со шрифтами. То буквы слипаются, то вообще одни точки, то еще что. Например вам может выдаваться что-нибудь типа такого:

Warning: conversion failure on 'контроль' in 'mbcsToSbcs':
dot substituted for <ba>

Большую часть этих проблем можно решить с помощью tikz, если вы работаете с pdf. Однако для экспорта в виде растровых (png, jpeg) изображений такой вариант не очень подходит. Убив пару часов я-таки нашел способ, как можно побороть большую часть проблем. Дело в том, что в используемых по умолчанию шрифтах (тех, которые использует postscript) все крайне плохо с кириллицей. Однако просто взять и указать какие-то системные шрифты вместо стандартных не получится. Postscript жаждет видеть только шрифты в определенном формате, а именно в формате afm, а большинство используемых системы шрифтов хранятся в формате True Type Font (ttf). Кроме того, после конвертации их еще надо импортировать, что тоже не очень тривиально. Для того, чтобы решить все проблемы разом есть прекрасный пакет extrafont. Для того, чтобы все заработало, нужно установить пакет, а затем выполнить команду font_import(). Она автоматически находит все шрифты в системе и конвертирует их в нужный формат. После чего можно посмотреть, какие шрифты доступны с помощью fonttable() или fonts(). После этого для использования шрифтов вам достаточно будет подгрузить их с помощью команды loadfonts() и указать нужный шрифт при создании графика. Например:

library(ggplot2)
library(gridExtra)
png('fonttest%03d.png', width=450,height=450)
p <- ggplot(mtcars, aes(x=wt, y=mpg)) + geom_point()+
xlab("Много-много русских буков")+ylab("Русские буковы по вертикали")
 
#шрифт по умолчанию
grid.arrange(p + theme_gray(base_family="sans"),
p + theme_gray(base_family="Impact"),
p + theme_gray(base_family="FreeMono"),
p  + theme_gray(base_family="Droid Serif"))
dev.off()
Пример использования TrueType шрифтов в R

Пример использования TrueType шрифтов в R

Под Windows для работы пакета вам также понадобится указать путь к Ghostscript:

Sys.setenv(R_GSCMD="C:/Program Files/gs/gs9.05/bin/gswin32c.exe")

Почему в 99% случаев не стоит использовать 3D диаграммы и графики

15 июня 2012, анализ данных Метки: , , ,

3D диаграммы и графики очень часто используются для представления данных, что в работах студентов, что в журналах, что в бизнесе. Основная идея, стоящая за этим безобразием, выражена в вики весьма ясно: «Изображение в объёмном виде упрощает понимание информации. Такие диаграммы выглядят убедительнее». Что характерно, в качестве авторитетного источника к этому утверждению указан совершенно левый сайт.

На деле трехмерные диаграммы в большинстве случаев затрудняют и искажают восприятие информации. Мнение нормальных людей на эту тему хорошо выражено на следующей диаграмме:

Круговая диаграмма в 3D

Для круговых 3d диаграмм искажение данных это самая большая проблема. Все очень просто, величину переменной на круговой диаграмме отражает площадь куска диаграммы. Однако если в 3d, во-первых, появляются искажения, связанные с объемом куска диаграммы, а во-вторых, искажения, связанные с перспективой. Вот, например, три диаграммы, построенные на одних и тех же значениях:

Пример того, чем плохи трехмерные круговые диаграммы

Пример того, чем плохи трехмерные круговые диаграммы

Первая диаграмма более-менее отражает реальные данные, хотя и не лучшим образом — она позволяет сказать, что фиолетовая, голубая, оранжевая и зеленая части равны, но достаточно трудно сказать, что они в ровно два раза меньше красной. Вторая диаграмма (верхняя правая) добавляет объем и перспективу, третья (нижняя) — не так много объема, зато дополнительный эффект перспективы. Уже на второй диаграмме зеленая часть визуально больше фиолетовой и голубой, а вопрос о равенстве зеленого и оранжевого куска может вызвать у зрителя мучительные сомнения. На нижней же диаграмме утверждение о том, что зеленый кусок равен оранжевому, заставит усомниться в психическом здоровье докладчика.

В случае столбиковых диаграмм основная проблема продолжение »

Очень хороший выпуск журнала The Psychologist

28 апреля 2012, наука Метки: , ,

The Psychologist, в отличие от Psychologies, читать стоит. Это, пожалуй, единственный достойный научно-популярный психологический журнал, который я знаю. Так вот, в его новом выпуске есть специальный раздел с обсуждением проблемы репликации в психологии. Мне особенно понравилась идея Дэна Саймонса о создании специального журнала для репликаций с предварительным peer review, т.е. рецензированием исследования до его проведения, и заметка Генри Л. Рёдригера III (то, что его так зовут восхищает меня уже давно). Очень советую почитать в pdf или через сайт. Несколько цитат оттуда:

I recall the aphorism (attributed to Confucius) that ‘One replication is worth a thousand t-tests’.

Most people don’t count conference as ‘real’ for the scientific literature, and our case provides another good reasons for this attitude.

Replicate your own work prior to publication. Don’t let others find out that you are wrong or that your work is tightly constrained by boundary conditions.

Картинка выпуска ненавязчиво намекает на книгу «Карточный дом» Роберта Дейвиса. Она тоже хороша, поищите в интернетах.