Введение в информационный поиск

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Книга «Введение в информационный поиск» — это первый учебник, в котором наряду с классическим поиском рассматриваются веб-поиск, а также классификация и кластеризация текстов. Учебник написан с точки зрения информатики и содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов.

Author(s): Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце
Edition: 1
Publisher: Диалектика
Year: 2020

Language: Russian
Pages: 528
City: СПб.
Tags: Machine Learning; Natural Language Processing; Clustering; Support Vector Machines; Indexing; Language Corpus; Text Classification; XML; Ranking; Search Algorithms; Search Relevance; Semantic Search; Search Engine; Naïve Bayes; Vector Space Model

Таблица обозначений
Предисловие
Благодарности
Глава 1Булев поиск
1.1. Пример информационного поиска
1.2. Первая попытка создать инвертированный индекс
1.3. Обработка булевых запросов
1.4. Сравнение расширенной булевой модели и ранжированного поиска
1.5. Библиография и рекомендации для дальнейшего чтения
Глава 2Лексикон и списки словопозиций
2.1. Схематизация документа и декодирование последовательности символов
2.2. Определение лексикона терминов
2.3. Быстрое пересечение инвертированных списков с помощью указателей пропусков
2.4. Словопозиции с координатами и фразовые запросы
2.5. Библиография и рекомендации для дальнейшего чтения
Глава 3Словари и нечеткий1 поиск
3.1. Поисковые структуры для словарей
3.2. Запросы с джокером
3.3. Исправление опечаток
3.4. Фонетические исправления
3.5. Библиография и рекомендации для дальнейшего чтения
Глава 4Построение индекса
4.1. Основы аппаратного обеспечения
4.2. Блочное индексирование, основанное на сортировке
4.3. Однопроходное индексирование в оперативной памяти
4.4. Распределенное индексирование
4.5. Динамическое индексировани
4.6. Другие типы индексов
4.7. Библиография и рекомендации для дальнейшего чтения
Глава 5Сжатие индекса
5.1. Статистические характеристики терминов в информационном поиске
5.2. Сжатие словаря
5.3. Сжатие инвертированного файла
5.4. Библиография и рекомендации для дальнейшего чтения
Глава 6Ранжирование, взвешивание терминов и модель векторного пространства
6.1. Параметрические и зонные индексы
6.2. Частота термина и взвешивание
6.3. Модель векторного пространства для ранжирования
6.4. Варианты функций tf-idf
6.5. Библиография и рекомендации для дальнейшего чтения
Глава 7Ранжирование в полнофункциональной поисковой системе
7.1. Эффективное ранжирование
7.2. Компоненты информационно-поисковой системы
7.3. Влияние операторов языка запросов на ранжирование в векторном пространстве
7.4. Библиография и рекомендации для дальнейшего чтения
Глава 8Оценка информационного поиска
8.1. Оценка информационно-поисковой системы
8.2. Стандартные тестовые коллекции
8.3. Оценка неранжированных результатов поиск
8.4. Оценка ранжированных результатов поиска
8.5. Оценка релевантности
8.6. Более широкая точка зрения: качество системы и ее полезность для пользователя
8.7. Сниппеты
8.8. Библиография и рекомендации для дальнейшего чтения
Глава 9Обратная связь по релевантности и расширение запроса
9.1. Обратная связь по релевантности и псевдорелевантности
9.2. Глобальные методы для переформулирования запроса
9.3. Библиография и рекомендации для дальнейшего чтения
Глава 10XML-поиск
10.1. Основные концепции языка XML
10.2. Проблемы, связанные с XML-поиском
10.3. Модель векторного пространства для XML-поиска
10.4. Оценка XML-поиска
10.5. Методы XML-поиска, ориентированные на текст и на данные
10.6. Библиография и рекомендации для дальнейшего чтения
Глава 11Вероятностная модель информационного поиска
11.1. Основы теории вероятностей
11.2. Принцип вероятностного ранжирования
11.3. Бинарная модель независимости
11.4. Вероятностные модели и некоторые модификации
11.5. Библиография и рекомендации для дальнейшего чтения
Глава 12Языковые модели информационного поиска
12.1. Языковые модели
12.2. Модель правдоподобия запроса
12.3. Сравнение языкового моделирования с другими подходами к информационному поиску
12.4. Расширения языковых моделей
12.5. Библиография и рекомендации для дальнейшего чтения
Глава 13Классификация текстов и наивный байесовский подход
13.1. Классификация текстов
13.2. Наивная байесовская классификация текстов
13.3. Модель Бернулл
13.4. Свойства наивной байесовской модели
13.5. Выбор признаков
13.6. Оценка классификации текстов
13.7. Библиография и рекомендации для дальнейшего чтения
Глава 14Классификация в векторном пространстве
14.1. Представление документов и меры близости в векторном пространстве
14.3. Метод к ближайших соседей
14.4. Линейные и нелинейные классификаторы
14.5. Классификация с несколькими классами
14.6. Компромисс между смещением и дисперсией
14.7. Библиография и рекомендации для дальнейшего чтения
Глава 15Метод опорных векторов и машинное обучение на документах
15.1. Метод опорных векторов: случай линейно разделимых классов
15.2. Расширения модели опорных векторов
15.3. Проблемы, связанные с классификацией текстовых документов
15.4. Методы машинного обучения для поиска по запросу
15.5. Библиография и рекомендации для дальнейшего чтения
Глава 16Плоская кластеризация
16.1. Кластеризация в информационном поиске
16.2. Формулировка задачи
16.3. Оценивание кластеризаци
16.4. Метод /^-средних
16.5. Кластеризация, основанная на моделях
16.6. Библиография и рекомендации для дальнейшего чтения
Глава 17Иерархическая кластеризация
17.1. Агломеративная иерархическая кластеризация
17.2. Кластеризация методами одиночной и полной связи
17.3. Агломеративная кластеризация на основе усреднения по группе
17.4. Кластеризация методом центроидов
17.5. Оптимальность агломеративной иерархической кластеризации
17.6. Нисходящая кластеризация
17.7. Именование кластеров
17.8. Вопросы реализации
17.9. Библиография и рекомендации для дальнейшего чтения
Глава 18Разложение матриц и латентно­ семантическое индексирование1
18.1. Обзор сведений из линейной алгебры
18.2. Матрицы “термин-документ” и сингулярные разложения
18.3. Малоранговые аппроксимации
18.4. Латентно-семантическое индексирование
18.5. Библиография и рекомендации для дальнейшего чтения
Глава 19Основы поиска в вебе
19.1. Основы и история
19.2. Характеристики веба
19.3. Реклама как экономическая модель
19.4. Опыт пользователей поисковых систем
19.5. Размер индекса и оценка его размера
19.6. Нечеткие дубликаты и алгоритм шинглов
19.7. Библиография и рекомендации для дальнейшего чтения
Глава 20Обход и индексирование веба
20.1. Обзор
20.2. Обход веба
20.3. Распределение индексов
20.4. Серверы проверки ссылочной связности
20.5. Библиография и рекомендации для дальнейшего чтения
Глава 21Анализ ссылок
21.1. Веб как граф
21.2. Метод PageRank
21.3. Порталы и авторитетные источники
21.4. Библиография и рекомендации для дальнейшего чтения
Библиография
Предметный указатель