本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
机器学习实战:使用R、tidyverse和mlr | ||||
定价 | 118.00 | 作者 | [英] 赫芬·I.里斯(Hefin Rhys),但波,高 著 | |
出版时间 | 2021年06月 | 开本 | 16开 | |
装帧 | 平装 | 页数 | 396 | |
重量 | 664 | ISBN编码 | 9787302578277 | |
出版社 |
《机器学习实战使用R、tidyverse和mlr》将使用RStudio和非常棒的mlr程序包开启你的机器学习之旅。这本实用指南简化了理论,避免了不必要的复杂统计和数学知识,所有核心的机器学习技术都通过图形和易于掌握的示例进行清晰的解释。每一章的内容都十分引人入胜,你将掌握如何把新的算法付诸实践,以解决各种预测分析问题,包括泰坦尼克沉船事件中不同乘客的幸存概率、垃圾邮件过滤、毒酒事件调查等。
\主要内容
\使用tidyverse程序包处理和绘制数据
\监督机器学习和非监督机器学习技术
\分类、回归、降维和聚类算法
\统计学基础
\目 录
\第部分 简介
\第壹章 机器学习介绍 2
\1.1 机器学习的概念 3
\1.2 机器学习算法的分类 7
\1.3 关于机器学习道德影响的思考 12
\1.4 使用R语言进行机器学习的原因 13
\1.5 使用哪些数据集 13
\1.6 从本书可以学到什么 13
\1.7 本章小结 14
\第2章 使用tidyverse整理、操作和绘制数据 15
\2.1 tidyverse和整洁数据的概念 15
\2.2 加载tidyverse 17
\2.3 tibble程序包及其功能介绍 17
\2.4 dplyr程序包及其功能介绍 21
\2.5 ggplot2程序包及其功能介绍 26
\2.6 tidyr程序包及其功能介绍 29
\2.7 purrr程序包及其功能介绍 32
\2.8 本章小结 38
\2.9 练习题答案 38
\第部分 分类算法
\第3章 基于相似性的k近邻分类 42
\3.1 k近邻算法的概念 42
\3.2 建立第壹个kNN模型 45
\3.3 平衡模型误差的两个来源:偏差-方差权衡 51
\3.4 运用交叉验证判断是否过拟合或欠拟合 52
\3.5 交叉验证kNN模型 53
\3.6 算法将要学习的内容以及它们必须知道的内容:参数和超参数 59
\3.7 调节k值以改进模型 60
\3.8 kNN算法的优缺点 64
\3.9 本章小结 64
\3.10 练习题答案 65
\第4章 对数几率回归分类 67
\4.1 什么是对数几率回归 67
\4.2 建立第壹个对数几率回归模型 74
\4.3 交叉验证对数几率回归模型 81
\4.4 理解模型:几率比 83
\4.5 使用模型进行预测 84
\4.6 对数几率回归算法的优缺点 84
\4.7 本章小结 85
\4.8 练习题答案 85
\第5章 基于判别分析的*大分离方法 88
\5.1 什么是判别分析 88
\5.2 构建线性和二次判别模型 95
\5.3 LDA和QDA算法的优缺点 100
\5.4 本章小结 101
\5.5 练习题答案 101
\第6章 朴素贝叶斯和支持向量机分类算法 103
\6.1 什么是朴素贝叶斯算法 104
\6.2 建立第壹个朴素贝叶斯模型 107
\6.3 朴素贝叶斯算法的优缺点 110
\6.4 什么是支持向量机(SVM)算法 110
\6.5 构建第壹个SVM模型 117
\6.6 交叉验证SVM模型 123
\6.7 SVM算法的优缺点 124
\6.8 本章小结 124
\6.9 练习题答案 125
\第7章 决策树分类算法 127
\7.1 什么是递归分区算法 127
\7.2 构建第壹个决策树模型 133
\7.3 加载和研究zoo数据集 134
\7.4 训练决策树模型 134
\7.5 交叉验证决策树模型 139
\7.6 决策树算法的优缺点 140
\7.7 本章小结 140
\第8章 使用随机森林算法和boosting技术改进决策树 142
\8.1 集成学习技术:bagging、boosting和stacking 142
\8.2 建立第壹个随机森林模型 148
\8.3 建立第壹个XGBoost模型 150
\8.4 随机森林和XGBoost算法的优缺点 155
\8.5 在算法之间进行基准测试 155
\8.6 本章小结 156
\第部分 回归算法
\第9章 线性回归 158
\9.1 什么是线性回归 158
\9.2 建立第壹个线性回归模型 163
\9.3 线性回归的优缺点 178
\9.4 本章小结 178
\9.5 练习题答案 179
\第壹0章 广义加性模型的非线性回归 180
\10.1 使用多项式项使线性回归非线性 180
\10.2 更大的灵活性:样条曲线和广义加性模型 182
\10.3 建立第壹个GAM 184
\10.4 GAM的优缺点 188
\10.5 本章小结 188
\10.6 练习题答案 189
\第壹1章 利用岭回归、LASSO回归和弹性网络控制过拟合 190
\11.1 正则化的概念 190
\11.2 岭回归的概念 191
\11.3 L2范数的定义及其在岭回归中的应用 193
\11.4 L1范数的定义及其在LASSO中的应用 195
\11.5 弹性网络的定义 197
\11.6 建立岭回归、LASSO和弹性网络模型 198
\11.7 对岭回归、LASSO、弹性网络和OLS进行基准测试并对比 210
\11.8 岭回归、LASSO和弹性网络的优缺点 211
\11.9 本章小结 212
\11.10 练习题答案 212
\第壹2章 使用kNN、随机森林和XGBoost进行回归 215
\12.1 使用kNN算法预测连续变量 215
\12.2 使用基于决策树的算法预测连续变量 217
\12.3 建立第壹个kNN回归模型 219
\12.4 建立第壹个随机森林回归模型 226
\12.5 建立第壹个XGBoost回归模型 227
\12.6 对kNN、随机森林和XGBoost模型的构建过程进行基准测试 229
\12.7 kNN、随机森林和XGBoost算法的优缺点 230
\12.8 本章小结 230
\12.9 练习题答案 231
\第部分 降维算法
\第壹3章 *大化方差的主成分分析法 234
\13.1 降维的目的 234
\13.2 主成分分析的概念 236
\13.3 构建第壹个PCA模型 240
\13.4 PCA的优缺点 247
\13.5 本章小结 247
\13.6 练习题答案 247
\第壹4章 *大化t-SNE和UMAP的相似性 249
\14.1 t-SNE的含义 249
\14.2 建立第壹个t-SNE模型 253
\14.3 UMAP的含义 256
\14.4 建立第壹个UMAP模型 258
\14.5 t-SNE和UMAP的优缺点 261
\14.6 本章小结 261
\14.7 练习题答案 262
\第壹5章 自组织映射和局部线性嵌入 263
\15.1 先决条件:节点网格和流形 263
\15.2 自组织映射的概念 264
\15.3 建立第壹个SOM 268
\15.4 局部线性嵌入的概念 277
\15.5 建立第壹个LLE 278
\15.6 建立跳蚤数据集的LLE 282
\15.7 SOM和LLE的优缺点 283
\15.8 本章小结 284
\15.9 练习题答案 284
\第部分 聚类算法
\第壹6章 使用k-均值算法寻找中心聚类 288
\16.1 k-均值算法的定义 288
\16.2 建立第壹个k-均值算法模型 292
\16.3 k-均值算法的优缺点 304
\16.4 本章小结 304
\16.5 练习题答案 304
\第壹7章 层次聚类 306
\17.1 什么是层次聚类 306
\17.2 建立第壹个聚合层次聚类模型 311
\17.3 聚类稳定吗 318
\17.4 层次聚类的优缺点 320
\17.5 本章小结 320
\17.6 练习题答案 320
\第壹8章 基于密度的聚类:DBSCAN和OPTICS 323
\18.1 基于密度的聚类的定义 323
\18.2 建立DBSCAN模型 331
\18.3 建立OPTICS模型 343
\18.4 基于密度的聚类的优缺点 345
\18.5 本章小结 346
\18.6 练习题答案 346
\第壹9章 基于混合建模的分布聚类 348
\19.1 混合模型聚类的概念 348
\19.2 建立第壹个用于聚类的高斯混合模型 353
\19.3 混合模型聚类的优缺点 356
\19.4 本章小结 357
\19.5 练习题答案 357
\第20章 *终笔记和进一步阅读 359
\20.1 简要回顾机器学习概念 359
\20.2 学完本书后,还可以学习哪些内容 367
\20.3 结语 369
\附录 复习统计学概念 370
\