Книга «Введение в информационный поиск» — это первый учебник, в котором наряду с классическим поиском рассматриваются веб-поиск, а также классификация и кластеризация текстов. Учебник написан с точки зрения информатики и содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов.
Author(s): Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце
Edition: 1
Publisher: Диалектика
Year: 2020
Language: Russian
Pages: 528
City: СПб.
Tags: Machine Learning; Natural Language Processing; Clustering; Support Vector Machines; Indexing; Language Corpus; Text Classification; XML; Ranking; Search Algorithms; Search Relevance; Semantic Search; Search Engine; Naïve Bayes; Vector Space Model
Таблица обозначений
Предисловие
Благодарности
Глава 1Булев поиск
1.1. Пример информационного поиска
1.2. Первая попытка создать инвертированный индекс
1.3. Обработка булевых запросов
1.4. Сравнение расширенной булевой модели и ранжированного поиска
1.5. Библиография и рекомендации для дальнейшего чтения
Глава 2Лексикон и списки словопозиций
2.1. Схематизация документа и декодирование последовательности символов
2.2. Определение лексикона терминов
2.3. Быстрое пересечение инвертированных списков с помощью указателей пропусков
2.4. Словопозиции с координатами и фразовые запросы
2.5. Библиография и рекомендации для дальнейшего чтения
Глава 3Словари и нечеткий1 поиск
3.1. Поисковые структуры для словарей
3.2. Запросы с джокером
3.3. Исправление опечаток
3.4. Фонетические исправления
3.5. Библиография и рекомендации для дальнейшего чтения
Глава 4Построение индекса
4.1. Основы аппаратного обеспечения
4.2. Блочное индексирование, основанное на сортировке
4.3. Однопроходное индексирование в оперативной памяти
4.4. Распределенное индексирование
4.5. Динамическое индексировани
4.6. Другие типы индексов
4.7. Библиография и рекомендации для дальнейшего чтения
Глава 5Сжатие индекса
5.1. Статистические характеристики терминов в информационном поиске
5.2. Сжатие словаря
5.3. Сжатие инвертированного файла
5.4. Библиография и рекомендации для дальнейшего чтения
Глава 6Ранжирование, взвешивание терминов и модель векторного пространства
6.1. Параметрические и зонные индексы
6.2. Частота термина и взвешивание
6.3. Модель векторного пространства для ранжирования
6.4. Варианты функций tf-idf
6.5. Библиография и рекомендации для дальнейшего чтения
Глава 7Ранжирование в полнофункциональной поисковой системе
7.1. Эффективное ранжирование
7.2. Компоненты информационно-поисковой системы
7.3. Влияние операторов языка запросов на ранжирование в векторном пространстве
7.4. Библиография и рекомендации для дальнейшего чтения
Глава 8Оценка информационного поиска
8.1. Оценка информационно-поисковой системы
8.2. Стандартные тестовые коллекции
8.3. Оценка неранжированных результатов поиск
8.4. Оценка ранжированных результатов поиска
8.5. Оценка релевантности
8.6. Более широкая точка зрения: качество системы и ее полезность для пользователя
8.7. Сниппеты
8.8. Библиография и рекомендации для дальнейшего чтения
Глава 9Обратная связь по релевантности и расширение запроса
9.1. Обратная связь по релевантности и псевдорелевантности
9.2. Глобальные методы для переформулирования запроса
9.3. Библиография и рекомендации для дальнейшего чтения
Глава 10XML-поиск
10.1. Основные концепции языка XML
10.2. Проблемы, связанные с XML-поиском
10.3. Модель векторного пространства для XML-поиска
10.4. Оценка XML-поиска
10.5. Методы XML-поиска, ориентированные на текст и на данные
10.6. Библиография и рекомендации для дальнейшего чтения
Глава 11Вероятностная модель информационного поиска
11.1. Основы теории вероятностей
11.2. Принцип вероятностного ранжирования
11.3. Бинарная модель независимости
11.4. Вероятностные модели и некоторые модификации
11.5. Библиография и рекомендации для дальнейшего чтения
Глава 12Языковые модели информационного поиска
12.1. Языковые модели
12.2. Модель правдоподобия запроса
12.3. Сравнение языкового моделирования с другими подходами к информационному поиску
12.4. Расширения языковых моделей
12.5. Библиография и рекомендации для дальнейшего чтения
Глава 13Классификация текстов и наивный байесовский подход
13.1. Классификация текстов
13.2. Наивная байесовская классификация текстов
13.3. Модель Бернулл
13.4. Свойства наивной байесовской модели
13.5. Выбор признаков
13.6. Оценка классификации текстов
13.7. Библиография и рекомендации для дальнейшего чтения
Глава 14Классификация в векторном пространстве
14.1. Представление документов и меры близости в векторном пространстве
14.3. Метод к ближайших соседей
14.4. Линейные и нелинейные классификаторы
14.5. Классификация с несколькими классами
14.6. Компромисс между смещением и дисперсией
14.7. Библиография и рекомендации для дальнейшего чтения
Глава 15Метод опорных векторов и машинное обучение на документах
15.1. Метод опорных векторов: случай линейно разделимых классов
15.2. Расширения модели опорных векторов
15.3. Проблемы, связанные с классификацией текстовых документов
15.4. Методы машинного обучения для поиска по запросу
15.5. Библиография и рекомендации для дальнейшего чтения
Глава 16Плоская кластеризация
16.1. Кластеризация в информационном поиске
16.2. Формулировка задачи
16.3. Оценивание кластеризаци
16.4. Метод /^-средних
16.5. Кластеризация, основанная на моделях
16.6. Библиография и рекомендации для дальнейшего чтения
Глава 17Иерархическая кластеризация
17.1. Агломеративная иерархическая кластеризация
17.2. Кластеризация методами одиночной и полной связи
17.3. Агломеративная кластеризация на основе усреднения по группе
17.4. Кластеризация методом центроидов
17.5. Оптимальность агломеративной иерархической кластеризации
17.6. Нисходящая кластеризация
17.7. Именование кластеров
17.8. Вопросы реализации
17.9. Библиография и рекомендации для дальнейшего чтения
Глава 18Разложение матриц и латентно семантическое индексирование1
18.1. Обзор сведений из линейной алгебры
18.2. Матрицы “термин-документ” и сингулярные разложения
18.3. Малоранговые аппроксимации
18.4. Латентно-семантическое индексирование
18.5. Библиография и рекомендации для дальнейшего чтения
Глава 19Основы поиска в вебе
19.1. Основы и история
19.2. Характеристики веба
19.3. Реклама как экономическая модель
19.4. Опыт пользователей поисковых систем
19.5. Размер индекса и оценка его размера
19.6. Нечеткие дубликаты и алгоритм шинглов
19.7. Библиография и рекомендации для дальнейшего чтения
Глава 20Обход и индексирование веба
20.1. Обзор
20.2. Обход веба
20.3. Распределение индексов
20.4. Серверы проверки ссылочной связности
20.5. Библиография и рекомендации для дальнейшего чтения
Глава 21Анализ ссылок
21.1. Веб как граф
21.2. Метод PageRank
21.3. Порталы и авторитетные источники
21.4. Библиография и рекомендации для дальнейшего чтения
Библиография
Предметный указатель