Собеседования по проектированию системы машинного обучения — самые сложные из всех вопросов технического собеседования. Эта книга предоставляет надежную стратегию и базу знаний для решения широкого круга вопросов проектирования систем машинного обучения. Пошаговый подход формирует основу для решения любого вопроса проектирования, используя множество реальных примеров.
Эта книга поможет всем, кто интересуется проектированием систем машинного обучения, будь то новички или опытные инженеры. Если вам нужно подготовиться к собеседованию по данной теме, эта книга создана специально для вас.
Author(s): Алекс Сюй, Али Аминиан
Series: Библиотека программиста
Edition: 1
Publisher: Питер
Year: 2024
Language: Russian
Commentary: Publisher's PDF
Pages: 320
City: СПб.
Tags: Machine Learning; Interviews; Recommender Systems; Social Media; Data Engineering; System Design; Harmful Content Detection
Предисловие
Что такое собеседование по проектированию систем МО (ML System Design interview)
Почему это важно
Для кого эта книга
Чего нет в книге
Дополнительные ресурсы
Благодарности
От издательства
Глава 1. Введение и общие сведения
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор подходящей категории МО
Темы для обсуждения
Подготовка данных
Инженерия данных
Типы данных
Конструирование признаков
Операции конструирования признаков
Темы для обсуждения
Разработка модели
Выбор модели
Обучение модели
Темы для обсуждения
Оценка
Автономная (offline) оценка
Оперативная (online) оценка
Темы для обсуждения
Развертывание и эксплуатация
Развертывание в облаке или на устройстве
Сжатие модели
Тестирование при эксплуатации
Пайплайн предсказаний
Темы для обсуждения
Мониторинг
Почему в действующей системе происходят сбои
Какие показатели нужно отслеживать
Инфраструктура
Итоги
Ссылки
Глава 2. Система визуального поиска
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор подходящей категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Построение датасета
Выбор функции потерь
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Предсказательный пайплайн
Пайплайн индексации
Эффективность алгоритмов поиска ближайшего соседа (NN)
Какой алгоритм использовать?
Другие темы для обсуждения
Итоги
Ссылки
Глава 3. Система размытия в Google Street View
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор подходящей категории МО
Двухступенчатые сети
Одноступенчатые сети
Сравнение одноступенчатых и двухступенчатых сетей
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Перекрытие ограничительных прямоугольников
Проектирование системы МО
Пайплайн пакетных предсказаний
Другие темы для обсуждения
Итоги
Ссылки
Глава 4. Поиск видео на YouTube
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Предсказательный пайплайн
Пайплайн индексации видео
Пайплайн индексации текста
Другие темы для обсуждения
Итоги
Ссылки
Глава 5. Обнаружение вредоносного контента
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Сервис обнаружения вредоносного контента
Сервис обработки нарушений
Сервис понижения приоритета
Другие темы для обсуждения
Итоги
Ссылки
Глава 6. Система рекомендации видео
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Матричная факторизация
Двухбашенная нейронная сеть
Работа двухбашенной нейронной сети
Матричная факторизация или двухбашенная нейронная сеть?
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Генерация кандидатов
Скоринг
Повторное ранжирование
Трудности при разработке систем рекомендации видео
Другие темы для обсуждения
Итоги
Ссылки
Глава 7. Система рекомендации событий
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор подходящей категории МО
Списочные методы LTR
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Пайплайн оперативного обучения
Предсказательный пайплайн
Другие темы для обсуждения
Итоги
Ссылки
Глава 8. Предсказание кликов по рекламе на социальных платформах
Введение
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Признаки пользователя
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Пайплайн подготовки данных
Пайплайн непрерывного обучения
Предсказательный пайплайн
Другие темы для обсуждения
Итоги
Ссылки
Глава 9. Похожие объекты на платформах краткосрочной аренды жилья
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Обучение модели
Построение датасета
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Обучающий пайплайн
Индексирующий пайплайн
Предсказательный пайплайн
Другие темы для обсуждения
Итоги
Ссылки
Глава 10. Персонализированная лента новостей
Введение
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Определение входных и выходных данных системы
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Признаки пользователей
Разработка модели
Выбор модели
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Предсказательный пайплайн
Другие темы для обсуждения
Итоги
Ссылки
Глава 11. Списки возможных знакомых
Введение
Прояснение требований
Формулировка проблемы в виде задачи МО
Определение цели МО
Выбор категории МО
Подготовка данных
Инженерия данных
Конструирование признаков
Разработка модели
Выбор модели
Графовые нейронные сети (GNN)
Обучение модели
Оценка
Автономные метрики
Оперативные метрики
Эксплуатация
Эффективность
Проектирование системы МО
Другие темы для обсуждения
Итоги
Ссылки
Послесловие