Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

В книге представлено описание широкой панорамы статистических методов, как повсеместно используемых, так и не нашедших пока должного применения в обработке данных экологического мониторинга. Сюда вошли элементарная статистика, проверка гипотез, различные подходы к оценке биоразнообразия, дисперсионный анализ, специальные формы регрессии и оценки информативного набора предикторов моделей, многомерные методы классификации, редукции и распознавания образов, процедуры, использующие байесовский подход, анализ временной или пространственной динамики и т.д. Мы не ставили целью подробно описать теоретические аспекты всех этих методов, но широко иллюстрировали методику их применения на примерах биологического характера. Совокупность представленных методов связывается двумя основополагающими идеями. Во-первых, в каждом примере мы пытались найти "изюминку" в виде использования нового класса компьютерно-интенсивных (computer-intensive) методов, в широком смысле относящихся к семейству различных процедур Монте-Карло. Наиболее детально представлен численный ресамплинг, который заключается в различных технологиях генерации повторных выборок. Описаны алгоритмы, включающие рандомизацию, перестановочный тест (permutation), бутстреп (bootstrap), метод "складного ножа" (jackknife) и кросс-проверку (cross-validation). Мы показываем, как с их помощью можно корректно проверить статистическую гипотезу или получить несмещенные характеристики искомого параметра: оценки математического ожидания, дисперсии, доверительного интервала, коэффициентов модели. Где это возможно, мы сравниваем полученные результаты с классическими асимптотическими методами, использующими то или иное стандартное предельное распределение. Вторая "красная нить" - возможность для читателей легко воспроизвести самим технику выполнения расчетов. Мы ориентировались на статистическую среду R, которая постепенно становится общепризнанным мировым стандартом при проведении научно- технических расчетов. В конце каждого раздела нами представлены тексты несложных скриптов в кодах R, позволяющих выполнить самостоятельно статистический анализ рассматриваемых примеров. В этой связи, представляемая монография может рассматриваться также как справочник по реализации различных алгоритмов обработки данных для исследователей, которых привлекла эта инструментальная среда. Книга может быть использована в качестве учебного пособия по статистическим методам для студентов и аспирантов высших учебных заведений биологического профиля.

Author(s): Шитиков В.К., Розенберг Г.С.
Publisher: Кассандра
Year: 2013

Language: Russian
Pages: 314
City: Тольятти

ПРЕДИСЛОВИЕ 5
1. БУТСТРЕП И СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ВЫБОРОЧНЫХ ХАРАКТЕРИСТИК 10
1.1. Точечные и интервальные характеристики 10
1.2. Непараметрические методы статистики и ресамплинг 14
1.3. Складной нож и бутстреп – механизмы генерации случайных псевдовыборок 15
1.4. Оценка среднего и доверительных интервалов бутстреп-методом 19
1.5. Подбор параметров распределений и примеры параметрического бутстрепа 27
1.6. Бутстрепирование индексов, характеризующих многовидовые композиции 37
2. ИСПОЛЬЗОВАНИЕ РАНДОМИЗАЦИИ ДЛЯ СРАВНЕНИЯ ВЫБОРОК 45
2.1. Проверка статистических гипотез 45
2.2. Использование метода рандомизации для проверки гипотез 47
2.3. Сравнение статистических характеристик двух независимых выборок 51
2.4. Рандомизационный тест для связанных выборок 58
2.5. Проблема множественных сравнений 62
2.6. Сравнение трех или более независимых выборок 64
2.7. Преобразование данных 69
2.8. Сравнение видового разнообразия систем и ограничения на рандомизацию 74
2.9. Сравнение индексов таксономического и функционального разнообразия 79
3. СТАТИСТИЧЕСКИЕ ЗАВИСИМОСТИ И СВЯЗИ МЕЖДУ ПЕРЕМЕННЫМИ 86
3.1. Оценка парной корреляции с использованием рандомизации 86
3.2. Анализ связи между признаками в таблицах сопряженности 88
3.3. Статистическая значимость регрессии двух переменных 97
3.4. Нелинейная регрессия и скользящий контроль 104
3.5. Сравнение двух линий тренда и робастная регрессия 111
3.6. Модели распределения популяционной плотности по градиенту 115
4. МНОГОМЕРНЫЕ МОДЕЛИ ДИСПЕРСИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА 122
4.1 Основные модели ANOVA, их ограничения и особенности реализации 122
4.2. Выбор модели дисперсионного анализа с фиксированными факторами 126
4.3. Модель со смешанными эффектами и проблема “мнимых повторностей” 129
4.4. Иерархический (гнездовой) дисперсионный анализ 134
4.5. Модель множественной линейной регрессии 137
4.6. Селекция моделей: генетический алгоритм и случайный поиск с адаптацией 143
4.7. Процедуры сглаживания и обобщенные аддитивные модели 151
4.8. Многомерный анализ MANOVA и метод случайного зондирования 158
5. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ МАТРИЦЫ ДИСТАНЦИЙ 164
5.1. Меры сходства/расстояния в многомерном пространстве 164
5.2. Непараметрический дисперсионный анализ матриц дистанции 169
5.3. Тест Мантеля для оценки связи между многомерными структурами 174
5.4. Иерархический кластерный анализ и бутстрепинг деревьев 179
5.5. Алгоритмы оценки оптимальности разбиения на классы 184
5.6. Использование нечетких множеств для классификации и оценки силы связи 189
5.7. Дендрограммы и оценка функционального разнообразия 194
6. КЛАССИФИКАЦИЯ, РАСПОЗНАВАНИЕ И СНИЖЕНИЕ РАЗМЕРНОСТИ 197
6.1. Методы многомерной классификации и ординации 197
6.2. Проецирование данных в пространства малой размерности методом PCA 200
6.3. Сравнение результатов различных моделей ординации 210
6.4. Деревья классификации и регрессии 217
6.5. Деревья классификации с многомерным откликом 222
6.6. Преобразование координат в геометрической морфометрии 225
6.7. Дискриминантный анализ, логистическая регрессия и метод опорных векторов 230
6.8. Метод k ближайших соседей и использование нейронных сетей 235
6.9. Самоорганизующиеся карты Кохонена 240
7. АНАЛИЗ ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ ДИНАМИКИ И БАЙЕСОВСКИЕ МЕТОДЫ 244
7.1. Декомпозиция временных рядов и выделение тренда 244
7.2. Автокорреляция, стационарность и оценка периодичности 254
7.3 Модели временных рядов: бутстреп и прогнозирование 261
7.4. Анализ главных компонент и многомерные временные ряды 267
7.5. Анализ пространственных структур 271
7.6. Автоковариация и пространственно обусловленная зависимость отклика 279
7.7. Байесовский подход и марковские цепи Монте-Карло 287
ЗАКЛЮЧЕНИЕ 296
СПИСОК ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ 297
ПРИЛОЖЕНИЕ 1. Указатель использованных примеров и их краткое описание 306
ПРИЛОЖЕНИЕ 2. Статистическая среда R и ее использование для обработки данных 310