书籍详情
《商战数据挖掘你需要了解的数据科学与分析思维》[59M]百度网盘|亲测有效|pdf下载
  • 商战数据挖掘你需要了解的数据科学与分析思维

  • 出版社:文轩网旗舰店
  • 出版时间:2019-12
  • 热度:10626
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作  者:(美)福斯特·普罗沃斯特(Foster Provost),(美)汤姆·福西特(Tom Fawcett) 著 郭鹏程,管晨 译
定  价:89
出 版 社:人民邮电出版社
出版日期:2019年12月01日
页  数:278
装  帧:平装
ISBN:9787115522337
目录
赞誉ii

前言xv

章绪论:数据分析式思维1

1.1数据机遇无处不在1

1.2案例:飓风Frances2

1.3案例:预测用户流失3

1.4数据科学、数据工程和数据驱动型决策4

1.5数据处理和“大数据”6

1.6从大数据1.0到大数据2.06

1.7数据与数据科学能力:一种战略性资产7

1.8数据分析式思维9

1.9关于本书10

1.10重新审视数据挖掘和数据科学11

1.11数据科学:一门新兴的实验性学科12

1.12小结12

第2章商业问题及其数据科学解决方案14

2.1从商业问题到数据挖掘任务14

2.2有监督方法与无监督方法17

2.3数据挖掘及其结果18

2.4数据挖掘流程19

2.4.1业务理解环节20

2.4.2数据理解环节21

2.4.3数据准备环节22

2.4.4建模环节22

2.4.5评估环节23

2.4.6部署环节24

2.5管理数据科学团队的含义25

2.6其他分析技巧与技术26

2.6.1统计26

2.6.2数据库查询27

2.6.3数据仓库28

2.回归分析28

2.6.5机器学习与数据挖掘28

2.6.6运用以上技术解决商业问题29

2.7小结30

第3章预测建模导论:从相关性到有监督的划分31

3.1建模、归纳与预测32

3.2有监督的划分35

3.2.1选取富信息属性36

3.2.2示例:基于信息增益进行属性选择42

3.2.3使用树形结构模型进行有监督的划分46

3.3划分的可视化52

3.4把树视作规则组53

3.5概率估计54

3.6示例:用树型归纳解决用户流失问题56

3.7小结59

第4章用模型拟合数据61

4.1根据数学函数分类62

4.1.1线性判别函数

4.1.2目标函数的优化66

4.1.3示例:基于数据挖掘线性判别式67

4.1.4用线性判别函数对实例进行评分和排序68

4.1.5支持向量机简介69

4.2通过数学函数进行回归71

4.3类概率估计和逻辑“回归”73

4.4示例:对比逻辑回归和树型归纳77

4.5非线性方程、支持向量机和神经网络81

4.6小结83

第5章避免过拟合84

5.1泛化能力84

5.2过拟合85

5.3过拟合检验86

5.3.1保留数据和拟合图86

5.3.2树型归纳的过拟合问题88

5.3.3数值函数的过拟合问题89

5.4示例:线性函数的过拟合90

5.5*示例:过拟合为何有害95

5.6从保留评估到交验证96

5.7用户流失数据集回顾99

5.8学习曲线100

5.9避免过拟合与控制复杂度101

5.9.1树型归纳中的过拟合规避102

5.9.2避免过拟合的一般方法102

5.9.3*参数优化中的过拟合规避104

5.10小结106

第6章相似性、近邻和簇107

6.1相似性和距离108

6.2近邻推理109

6.2.1示例:威士忌分析110

6.2.2用近邻来进行预测建模111

6.2.3近邻的数量及其影响113

6.2.4几何解释、过拟合和复杂度控制115

6.2.5近邻方法的问题118

6.3与相似性和近邻相关的一些重要技术细节119

6.3.1混合属性119

6.3.2*其他距离函数120

6.3.3*组合函数:计算近邻的评分122

聚类124

.1示例:威士忌分析回顾124

.2层次聚类125

.3近邻回顾:根据形心的聚类128

.4示例:对商业新闻报道进行聚类132

.5理解聚类结果135

.6*用有监督学习产生簇描述136

6.5退一步:解决业务问题与数据探索139

6.6小结140

第7章决策分析思维(一):如何评估一个模型142

7.1对分类器的评估143

7.1.1简单准确率的问题143

7.1.2混淆矩阵144

7.1.3样本类别不均衡的问题144

7.1.4成本收益不均衡的问题147

7.2分类问题的推广147

7.3一个重要的分析框架:期望值148

7.3.1用期望值规范分类器的使用148

7.3.2用期望值规范分类器的评估149

7.4评估、基线性能以及对数据投资的意义155

7.5小结157

第8章模型性能的可视化159

8.1排序,而不是分类159

8.2利润曲线161

8.3ROC图像和曲线163

8.4ROC曲线积168

8.5累积响应曲线和提升曲线168

8.6示例:用户流失模型的性能分析171

8.7小结177

第9章证据和概率179

9.1示例:向线上目标用户投放广告179

9.2根据概率合并证据181

9.2.1联合概率与独立性181

9.2.2贝叶斯法则182

9.3将贝叶斯法则应用到数据科学中183

9.3.1条件独立和朴素贝叶斯184

9.3.2朴素贝叶斯的优劣势186

9.4证据“提升度”的模型187

9.5示例:Facebook“点赞”的证据提升度188

9.6小结190

0章文本的表示和挖掘191

10.1为什么文本很重要192

10.2为什么文本很难处理192

10.3表示法193

10.3.1词袋模型193

10.3.2词频193

10.3.3度量稀疏度:逆文档频率195

10.3.4TFIDF196

10.4示例:爵士音乐家197

10.5*IDF和熵的关系200

10.6词袋模型之外的方法202

10.6.1n-grams序列202

10.6.2命名实体提取202

10.6.3主题模型203

10.7示例:通过挖掘新闻报道预测股价变动204

10.7.1任务204

10.7.2数据205

10.7.3数据处理207

10.7.4结果208

10.8小结211

1章决策分析思维(二):面向分析工程212

11.1为慈善机构寻找佳捐赠人213

11.1.1期望值框架:分解商业问题,重组解决方案213

11.1.2简短的题外话:选择性偏差214

11.2更复杂的用户流失示例回顾215

11.2.1期望值框架:构建更复杂的商业问题215

11.2.2评估激励的影响216

11.2.3从期望值分解到数据科学解决方案217

11.3小结219

2章其他数据科学任务与技术220

12.1共现和关联:寻找匹配项221

12.1.1度量意外:提升度和杠杆率221

12.1.2示例:啤酒和彩票222

12.1.3Facebook点赞的关联223

12.2用户画像:寻找典型行为225

12.3链路预测和社交推荐229

12.4数据约简、潜在信息和电影推荐230

12.5偏差、方差和集成方法233

12.6数据驱动的因果解释和一个病毒式营销示例235

12.7小结236

3章数据科学和经营战略237

13.1数据分析式思维,版237

13.2用数据科学取得竞争优势238

13.3用数据科学保持竞争优势239

13.3.1令人敬畏的历史优势240

13.3.2无二的知识产权240

13.3.3无二的无形抵押资产240

13.3.4优秀的数据科学家241

13.3.5优秀的数据科学管理242

13.4吸引和培养数据科学家及其团队243

13.5检验数据科学案例分析244

13.6做好准备,接受来源各异的创意245

13.7做好准备,评估数据科学项目提案245

13.7.1数据挖掘提案示例246

13.7.2BigRed提案中的缺陷246

13.8企业的数据科学成熟度247

4章总结250

14.1数据科学的基本概念250

14.1.1将基本概念应用于新问题:挖掘移动设备数据252

14.1.2改变对商业问题解决方案的思考方式253

14.2数据做不到的:圈中人回顾254

14.3隐私、道德和挖掘个人数据256

14.4数据科学是否还有更多内容257

14.5后一例:从众包到云包257

14.6后的话258

附录A提案评估指南259

附录B另一个提案示例262

参考文献265

术语表273

关于作者278
内容简介
数据挖掘是现代企业从数据中提取有用信息、获取竞争优势的重要方法。针对数据科学的这一商业应用,本书进行了深入解读,不仅详细介绍了数据挖掘的环节、常用分析技术和基本模型,还提供了数据科学解决方案的提案示例和评估指南。同时,为了便于读者理解,本书不仅分析了大量商业示例,在业务情景下阐释数据挖掘的基本概念和原理,还使用大量图表辅助解释数学细节。因此,读者无需专业数学背景即可阅读本书。