自动机器学习入门与实践:使用Pythonpdf下载pdf下载

自动机器学习入门与实践:使用Python百度网盘pdf下载

作者:
简介:本篇主要提供自动机器学习入门与实践:使用Pythonpdf下载
出版社:华中科技大学出版社
出版时间:2019-12
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

国内第一本讲解自动机器学习工具与方法的书。

内容简介

AutoML可以将部分机器学习过程自动化,减轻数据科学从业者的工作负担,深受高级分析人员的喜爱。本书介绍搭建AutoML模块的基础知识,并通过练习帮助读者消化这些知识。读者将学习使用机器学习流水线自动实现数据预处理、特征选择、模型训练、模型优化等任务,学习应用auto-sklearn和MLBox等已有的自动化库,并且创建和扩展自定义的AutoML环节。阅读本书,你将对AutoML有更清晰的认识,能利用真实数据集完成自动化任务。书中知识可运用到实际的机器学习项目中,或者在机器学习竞赛中助你一臂之力。

作者简介

Sibanjan Das是业界资深数据科学顾问,是广获好评的《Data Science Using Oracle Data Miner and Oracle R Enterprise》一书作者。

精彩书评

自动机器学习入门好书,示例清晰,讲解透彻,推荐!

——亚*逊读者 UVphoton

这本书让我这个门外汉掌握了自动机器学习的基本原理,很适合程序员读。

——亚*逊读者 Greg Hecht

网上有不少免费的机器学习教程,但都缺少条理,后悔没有早点买这本书。

——亚*逊读者 Jon Froiland

我喜欢这样的书,既有大局观,又把技术细节交待清楚了。

——亚*逊读者 Jano

目录

第1章 AutoML简介 1 1.1 机器学习的范围 2 1.2 什么是AutoML 4 1.3 为什么和怎么用AutoML 10 1.4 何时需要将机器学习自动化 11 1.5 能学到什么 11 1.6 AutoML库概述 13 1.7 总结 23 第2章 Python机器学习简介 25 2.1 技术要求 26 2.2 机器学习 26 2.3 线性回归 28 2.4 重要评估指标——回归算法 37 2.5 逻辑回归 39 2.6 重要评估指标——分类算法 44 2.7 决策树 46 2.8 支持向量机 49 2.9 K近邻算法 52 2.10 集成方法 54 2.11 分类器结果对比 59 2.12 交叉验证 60 2.13 聚类 61 2.14 总结 66 第3章 数据预处理 67 3.1 技术要求 68 3.2 数据转换 68 3.3 特征选择 97 3.4 特征生成 103 3.5 总结 105 第4章 自动化算法选择 107 4.1 技术要求 108 4.2 计算复杂度 108 4.3 训练时间和推理时间的区别 110 4.4 线性与非线性 119 4.5 必要特征转换 124 4.6 监督机器学习 125 4.7 无监督AutoML 132 4.8 总结 157 第5章 超参数优化 159 5.1 技术要求 160 5.2 超参数 161 5.3 热启动 173 5.4 贝叶斯超参数优化 174 5.5 示例系统 175 5.6 总结 178 第6章 创建AutoML流水线 179 6.1 技术要求 180 6.2 机器学习流水线简介 180 6.3 简单的流水线 182 6.4 函数转换器 184 6.5 复杂流水线 187 6.6 总结 190 第7章 深度学习探究 191 7.1 技术要求 192 7.2 神经网络概览 192 7.3 使用Keras的前馈神经网络 198 7.4 自编码器 201 7.5 卷积神经网络 205 7.6 总结 210 第8章 机器学习和数据科学项目的重点 211 8.1 机器学习搜索 211 8.2 机器学习的权衡 221 8.3 典型数据科学项目的参与模型 222 8.4 参与模型的阶段 223 8.5 总结 228 作者简介 230 索引 231

精彩书摘

自动机器学习(AutoML)将特征预处理、模型选择和超参数优化等常用步骤自动化,以简化机器学习的建模流程。接下来的章节会详细介绍这些步骤,并且会教读者动手构建一套AutoML系统,从而对AutoML工具和库有更深刻的理解。
在开始之前,有必要回顾一下什么是机器学习模型,以及如何训练模型。
机器学习算法对数据进行处理,识别特定的模式,这一学习过程称为模型训练(model training)。模型训练的结果是机器学习模型。有了机器学习模型,你不用制定明确的规则,它就可针对数据提出见解或解答。
在实际应用机器学习模型时,需要输入大量数据,用于算法训练。训练后的成果是可用于预测的机器学习模型。这种预测可根据服务器当前状态来确定它未来四个小时是否需要维护,或者判断客户会不会投向竞争对手。
有时待解决的问题本身都没有明确定义,甚至我们都不知道需要什么样的答案。在这种情况下,机器学习模型可帮助探索数据集,比如识别行为相似的客户群,或者根据不同股票之间的关联关系发现股票的层级结构。
模型划分出客户群后,有什么用?至少可以知道:同一群体的客户有哪些相似的特征,比如年龄、职业、婚姻状况、性别、喜好、日常消费习惯、总消费额等。不同群体的客户是彼此不同的。有了这些信息,我们就可以针对每个群体推送不同的广告。
可以使用简单的数学术语说明这一流程。设有数据集 ,包含 个样本。样本可代表客户或不同的动物。通常,每个样本都是一个实数集,称为特征(feature),比如,一位35岁的女性客户在商店消费了12000美元,可以用向量(0.0,35.0,12000.0)表示。注意,这里性别是用 表示的,男性客户可以用 表示。向量的大小称为维度,通常用 表示。这是一个大小为3的向量,即三维数据集。

前言/序言

本书尤其适合机器学习初学者(包括新晋数据科学家、数据分析师、机器学习爱好者)学习,同时也适合对搭建高速机器学习流水线感兴趣的机器学习工程师和数据专业人员阅读。

第1章 AutoML简介。为理解AutoML打基础,介绍各种自动化学习库。

第2章 Python机器学习简介。介绍机器学习概念,便于理解AutoML方法。

第3章 数据预处理。深入诠释各种数据预处理方法、自动化对象、如何自动化,也会介绍特征工具和sklearn预处理方法。

第4章 自动化算法选择。指出哪些算法适用于哪类数据集。介绍不同算法的计算难度和可扩展性,也会接触到一些依据训练和推理时间来确定使用哪种算法的方法。本章会演示auto-sklearn,以及如何扩展引入新算法。

第5章 超参数优化。讲解自动化超参数优化的基础知识。

第6章 创建AutoML流水线。阐述如何将不同组件组合起来构建一个端到端的AutoML流水线。

第7章 深度学习探究。介绍诸多深度学习概念及其对AutoML的贡献。

第8章 机器学习和数据科学项目的重点。总结全文,并分享一些从多方面权衡AutoML复杂性和成本的信息。

阅读本书唯*需要准备的是对机器学习的求知欲。除此之外,如果你以前接触过Python编程和机器学习基础知识,则能更好地利用本书,但这并非必备前提。

学习本书,请提前安装Python 3.5和Jupyter Notebook。 若具体章节中有特别要求,则会在该章第一节中提出。