本书由斯坦福大学“Web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。其中每一章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
Author(s): Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman
Series: 图灵程序设计丛书
Edition: 2nd
Publisher: 人民邮电出版社
Year: 2015
Language: Chinese
Pages: 372
第1章 数据挖掘基本概念
1.1 数据挖掘的定义
1.2 数据挖掘的统计限制
1.3 相关知识
1.4 本书概要
1.5 小结
1.6 参考文献
第2章 MapReduce及新软件栈
2.1 分布式文件系统
2.2 MapReduce
2.3 使用MapReduce的算法
2.4 MapReduce的扩展
2.5 通信开销模型
2.6 MapReduce复杂性理论
2.7 小结
2.8 参考文献
第3章 相似项发现
3.1 近邻搜索的应用
3.2 文档的shingling
3.3 保持相似度的集合摘要表示
3.4 文档的局部敏感哈希算法
3.5 距离测度
3.6 局部敏感函数理论
3.7 面向其他距离测度的LSH函数族
3.8 LSH 函数的应用
3.9 面向高相似度的方法
3.10 小结
3.11 参考文献
第4章 数据流挖掘
4.1 流数据模型
4.2 流当中的数据抽样
4.3 流过滤
4.4 流中独立元素的数目统计
4.5 矩估计
4.6 窗口内的计数问题
4.7 衰减窗口
4.8 小结
4.9 参考文献
第5章 链接分析
5.1 PageRank
5.2 PageRank的快速计算
5.3 面向主题的PageRank
5.4 链接作弊
5.5 导航页和权威页
5.6 小结
5.7 参考文献
第6章 频繁项集
6.1 购物篮模型
6.2 购物篮及A-Priori算法
6.3 更大数据集在内存中的处理
6.4 有限扫描算法
6.5 流中的频繁项计数
6.6 小结
6.7 参考文献
第7章 聚类
7.1 聚类技术介绍
7.2 层次聚类
7.3 k-均值算法
7.4 CURE算法
7.5 非欧空间下的聚类
7.6 流聚类及并行化
7.7 小结
7.8 参考文献
第8章 Web广告
8.1 在线广告相关问题
8.2 在线算法
8.3 广告匹配问题
8.4 adwords问题
8.5 adwords的实现
8.6 小结
8.7 参考文献
第9章 推荐系统
9.1 一个推荐系统的模型
9.2 基于内容的推荐
9.3 协同过滤
9.4 降维处理
9.5 NetFlix竞赛
9.6 小结
9.7 参考文献
第10章 社会网络图挖掘
10.1 将社会网络看成图
10.2 社会网络图的聚类
10.3 社区的直接发现
10.4 图划分
10.5 重叠社区的发现
10.6 Simrank
10.7 三角形计数问题
10.8 图的邻居性质
10.9 小结
10.10 参考文献
第11章 降维处理
11.1 特征值和特征向量
11.2 主成分分析
11.3 奇异值分解
11.4 CUR 分解
11.5 小结
11.6 参考文献
第12章 大规模机器学习
12.1 机器学习模型
12.2 感知机
12.3 支持向量机
12.4 近邻学习
12.5 各种学习方法的比较
12.6 小结
12.7 参考文献