Статья. Опубликована в журнале Открытые системы. СУБД. — 2012. — №04 . — 3 c.
Еще недавно практически все, что связано со статистической обработкой данных, прочно ассоциировалось с пакетами SPSS и SAS, но за несколько лет в лидеры вышел язык R, и чем дальше, тем сильнее укрепляются его позиции. За последние несколько лет весьма скромно начинавший свое существование язык R приобрел невероятную популярность, став одним из основных инструментов для специалистов по статистике. По оценке аналитиков, тех, кто пишет на R, уже свыше двух миллионов, и их число постоянно растет — язык постепенно превращается в стандарт де-факто для категории специалистов, называющих себя data scientist. Язык R признан в качестве аналитического мэйнстрима, он используется во множестве организаций, встраивается во всевозможные системы, разработчики пишут для него пакеты, адаптированные к конкретным отраслям. Например, в The New York Times активно используются визуализационные возможности R при оценке новостных лент, а одно из самых крупных туристических агентств Orbitz с помощью R решает задачи, связанные с оценкой конкурентоспособности своих продуктов. Это классические примеры использования R, а новая волна интереса к языку возникла в связи с возможностью применения систем с массовым параллелизмом (MPP) и таких платформ, как Hadoop, способных в сочетании с реляционными СУБД хранить петабайты структурированных и квазиструктурированных данных, которые можно использовать для аналитических задач. Язык R обеспечивает аналитикам доступ к таким объемам данных, которые при работе на обычных серверах невозможно было представить.