作 者:(美)福斯特·普罗沃斯特(Foster Provost),(美)汤姆·福西特(Tom Fawcett) 著 郭鹏程,管晨 译
定 价:89
出 版 社:人民邮电出版社
出版日期:2019年12月01日
页 数:278
装 帧:平装
ISBN:9787115522337
●赞誉ii
前言xv
章绪论:数据分析式思维1
1.1数据机遇无处不在1
1.2案例:飓风Frances2
1.3案例:预测用户流失3
1.4数据科学、数据工程和数据驱动型决策4
1.5数据处理和“大数据”6
1.6从大数据1.0到大数据2.06
1.7数据与数据科学能力:一种战略性资产7
1.8数据分析式思维9
1.9关于本书10
1.10重新审视数据挖掘和数据科学11
1.11数据科学:一门新兴的实验性学科12
1.12小结12
第2章商业问题及其数据科学解决方案14
2.1从商业问题到数据挖掘任务14
2.2有监督方法与无监督方法17
2.3数据挖掘及其结果18
2.4数据挖掘流程19
2.4.1业务理解环节20
2.4.2数据理解环节21
2.4.3数据准备环节22
2.4.4建模环节22
2.4.5评估环节23
2.4.6部署环节24
2.5管理数据科学团队的含义25
2.6其他分析技巧与技术26
2.6.1统计26
2.6.2数据库查询27
2.6.3数据仓库28
2.回归分析28
2.6.5机器学习与数据挖掘28
2.6.6运用以上技术解决商业问题29
2.7小结30
第3章预测建模导论:从相关性到有监督的划分31
3.1建模、归纳与预测32
3.2有监督的划分35
3.2.1选取富信息属性36
3.2.2示例:基于信息增益进行属性选择42
3.2.3使用树形结构模型进行有监督的划分46
3.3划分的可视化52
3.4把树视作规则组53
3.5概率估计54
3.6示例:用树型归纳解决用户流失问题56
3.7小结59
第4章用模型拟合数据61
4.1根据数学函数分类62
4.1.1线性判别函数
4.1.2目标函数的优化66
4.1.3示例:基于数据挖掘线性判别式67
4.1.4用线性判别函数对实例进行评分和排序68
4.1.5支持向量机简介69
4.2通过数学函数进行回归71
4.3类概率估计和逻辑“回归”73
4.4示例:对比逻辑回归和树型归纳77
4.5非线性方程、支持向量机和神经网络81
4.6小结83
第5章避免过拟合84
5.1泛化能力84
5.2过拟合85
5.3过拟合检验86
5.3.1保留数据和拟合图86
5.3.2树型归纳的过拟合问题88
5.3.3数值函数的过拟合问题89
5.4示例:线性函数的过拟合90
5.5*示例:过拟合为何有害95
5.6从保留评估到交验证96
5.7用户流失数据集回顾99
5.8学习曲线100
5.9避免过拟合与控制复杂度101
5.9.1树型归纳中的过拟合规避102
5.9.2避免过拟合的一般方法102
5.9.3*参数优化中的过拟合规避104
5.10小结106
第6章相似性、近邻和簇107
6.1相似性和距离108
6.2近邻推理109
6.2.1示例:威士忌分析110
6.2.2用近邻来进行预测建模111
6.2.3近邻的数量及其影响113
6.2.4几何解释、过拟合和复杂度控制115
6.2.5近邻方法的问题118
6.3与相似性和近邻相关的一些重要技术细节119
6.3.1混合属性119
6.3.2*其他距离函数120
6.3.3*组合函数:计算近邻的评分122
聚类124
.1示例:威士忌分析回顾124
.2层次聚类125
.3近邻回顾:根据形心的聚类128
.4示例:对商业新闻报道进行聚类132
.5理解聚类结果135
.6*用有监督学习产生簇描述136
6.5退一步:解决业务问题与数据探索139
6.6小结140
第7章决策分析思维(一):如何评估一个模型142
7.1对分类器的评估143
7.1.1简单准确率的问题143
7.1.2混淆矩阵144
7.1.3样本类别不均衡的问题144
7.1.4成本收益不均衡的问题147
7.2分类问题的推广147
7.3一个重要的分析框架:期望值148
7.3.1用期望值规范分类器的使用148
7.3.2用期望值规范分类器的评估149
7.4评估、基线性能以及对数据投资的意义155
7.5小结157
第8章模型性能的可视化159
8.1排序,而不是分类159
8.2利润曲线161
8.3ROC图像和曲线163
8.4ROC曲线积168
8.5累积响应曲线和提升曲线168
8.6示例:用户流失模型的性能分析171
8.7小结177
第9章证据和概率179
9.1示例:向线上目标用户投放广告179
9.2根据概率合并证据181
9.2.1联合概率与独立性181
9.2.2贝叶斯法则182
9.3将贝叶斯法则应用到数据科学中183
9.3.1条件独立和朴素贝叶斯184
9.3.2朴素贝叶斯的优劣势186
9.4证据“提升度”的模型187
9.5示例:Facebook“点赞”的证据提升度188
9.6小结190
0章文本的表示和挖掘191
10.1为什么文本很重要192
10.2为什么文本很难处理192
10.3表示法193
10.3.1词袋模型193
10.3.2词频193
10.3.3度量稀疏度:逆文档频率195
10.3.4TFIDF196
10.4示例:爵士音乐家197
10.5*IDF和熵的关系200
10.6词袋模型之外的方法202
10.6.1n-grams序列202
10.6.2命名实体提取202
10.6.3主题模型203
10.7示例:通过挖掘新闻报道预测股价变动204
10.7.1任务204
10.7.2数据205
10.7.3数据处理207
10.7.4结果208
10.8小结211
1章决策分析思维(二):面向分析工程212
11.1为慈善机构寻找佳捐赠人213
11.1.1期望值框架:分解商业问题,重组解决方案213
11.1.2简短的题外话:选择性偏差214
11.2更复杂的用户流失示例回顾215
11.2.1期望值框架:构建更复杂的商业问题215
11.2.2评估激励的影响216
11.2.3从期望值分解到数据科学解决方案217
11.3小结219
2章其他数据科学任务与技术220
12.1共现和关联:寻找匹配项221
12.1.1度量意外:提升度和杠杆率221
12.1.2示例:啤酒和彩票222
12.1.3Facebook点赞的关联223
12.2用户画像:寻找典型行为225
12.3链路预测和社交推荐229
12.4数据约简、潜在信息和电影推荐230
12.5偏差、方差和集成方法233
12.6数据驱动的因果解释和一个病毒式营销示例235
12.7小结236
3章数据科学和经营战略237
13.1数据分析式思维,版237
13.2用数据科学取得竞争优势238
13.3用数据科学保持竞争优势239
13.3.1令人敬畏的历史优势240
13.3.2无二的知识产权240
13.3.3无二的无形抵押资产240
13.3.4优秀的数据科学家241
13.3.5优秀的数据科学管理242
13.4吸引和培养数据科学家及其团队243
13.5检验数据科学案例分析244
13.6做好准备,接受来源各异的创意245
13.7做好准备,评估数据科学项目提案245
13.7.1数据挖掘提案示例246
13.7.2BigRed提案中的缺陷246
13.8企业的数据科学成熟度247
4章总结250
14.1数据科学的基本概念250
14.1.1将基本概念应用于新问题:挖掘移动设备数据252
14.1.2改变对商业问题解决方案的思考方式253
14.2数据做不到的:圈中人回顾254
14.3隐私、道德和挖掘个人数据256
14.4数据科学是否还有更多内容257
14.5后一例:从众包到云包257
14.6后的话258
附录A提案评估指南259
附录B另一个提案示例262
参考文献265
术语表273
关于作者278
数据挖掘是现代企业从数据中提取有用信息、获取竞争优势的重要方法。针对数据科学的这一商业应用,本书进行了深入解读,不仅详细介绍了数据挖掘的环节、常用分析技术和基本模型,还提供了数据科学解决方案的提案示例和评估指南。同时,为了便于读者理解,本书不仅分析了大量商业示例,在业务情景下阐释数据挖掘的基本概念和原理,还使用大量图表辅助解释数学细节。因此,读者无需专业数学背景即可阅读本书。