Нашел очень интересную дискуссию на тему будущего открытого кода в бизнес-аналитике. Один автор выступает, условно, за открытый код, другой сомневается в его будущем. Я согласен, скорее, со второй точкой зрения, несмотря на всю мою любовь к открытому кода. Вкратце, аргументы сторон.

За открытый код:

  • Деньги, вложенные в покупку ПО, более выгодно вкладывать в развитие аналитиков, «покупку талантов», экспериментирование на основе результатов анализа и прочее.
  • Высококлассная  аналитика всегда будет предполагать нестандартные подходы, соответственно, вне зависимости от ПО, его придется дорабатывать. У OpenSource в этом отношении больше возможностей, хотя бы в плане доступности уже разработанных кусков кода.
  • Коммерческое ПО ограничивает аналитиков в том плане, что если написано, что «даются более точные прогнозы , позволяющие снизить накладные расходы» (что угодно), то это и только это  будет требоваться менеджерами. В то же время, зачастую аналитик может обнаруживать «инсайты» в данных, в отношении которых трудно оценить точно их полезность.
  • Плюс к этому, вложения в коммерческое ПО увеличивают склонность к консервативному поведению за счет того, что аналитики и их непосредственное начальство в большей степени рискует своим политическим капиталом. «Мы вам купили программу за большие деньги, а вы нам не можете однозначный прогноз дать?».

Против:

  • Поддержка 365/24/7. Открытое ПО вряд ли когда-либо ее обеспечит.
  • Большей части рынка аналитики достаточно шаблонных решений.
  • Затраты на обучение могут перекрывать стоимость лицензий.
  • Отсутствие отполированного графического интерфейса мешает обучению. Замечу, впрочем, что далеко не везде он отполирован (AMOS с 90-х мало поменялся), и в любом случае, приходится потом переходить к синтаксису.
  • Готовые предложения для каждой области аналитики. Одно — для фармацевтов, другое — для страхования, третье — для медиа и т.п. Взгляните на предложение SAS.
  • Возможность интеграции OpenSource в коммерческое ПО. На самом деле, очень сильный аргумент. Если можно иметь и то, и то, зачем выбирать?
  • Недостаточные вложения со стороны компаний, представляющих открытое ПО, в «экосистему». Разработчики коммерческого ПО устраивают вебинары и конференции, поддерживают блоги, поддерживают использование или оценку их ПО независимыми организациями и т.д. Открытое ПО живет в основном на энтузиазме (пока к нему не подключится гигант типа Гугла).
  • Слишком много вариантов =) Шесть типов кластерного анализа заставляют аналитика тратить время на определение оптимального подхода.
  • Наконец, «если вы такой умный, почему вы такой бедный?». Точнее, «если открытое ПО настолько хорошо, почему оно еще не захватило рынок?».

Я сейчас использую параллельно SPSS и R, плюс иногда Statistica. SPSS прежде всего из-за связки с AMOS и в сторонних проектах, где требуется что-то сделать быстро. R — в своих исследованиях и тех проектах, где нужен вдумчивый анализ, методы заранее не заданы, но есть четкие гипотезы и не так много переменных. Data Mining  удобнее проводить в Statistica/SPSS.