在当今的人工智能领域中最热门技术毫无疑问当属深度学习。深度学习在Geo?rey
Hinton、Yoshua Bengio、Yann LeCun 和Juergen Schmidhuber 等巨擘们持续不断的贡献
下,在文本、图像、自然语言等方向均取得了革命性的进展。当然,深度学习只是机器学习
的一个分支,能取得当前的成功也是建立在机器学习不断发展的基础之上。在机器学习领
域,很多著名科学家(如图1 所示) 提出了他们的理论,做出了他们的贡献。Leslie Valiant
提出的概率近似正确学习(Probably Approximately Correct Learning, PAC) 理论打下了
计算学习理论的基石,并在此后提出了自举(Boosting) 思想。Vladimir Vapnik 提出的支
持向量机(Support Vector Machine, SVM) 是一个理论和应用都十分强大的算法。与此同
时他所提出的经验风险最小与结构风险最小理论,以及背后更深层次的VC 维(Vapnik-
Chervonenkis dimension) 理论,为部分统一分类问题提供了理论基础。Judea Pearl 提出
图1 机器学习领域(支持向量机、集成学习、概率图模型) 的著名科学家
II
了贝叶斯网络,而Michael I. Jordan 则在此基础上发展了概率图模型。Leo Breiman 在集
成(Ensemble) 学习的思想下设计了随机森林(Random Forest) 算法,Robert Schapire 和
Jerome H. Friedman 则基于Boosting 分别发明了AdaBoost和Gradient Boosting算法。至
此,机器学习中最耀眼的算法|| 支持向量机、集成学习和概率图模型交相辉映,为整
个机器学习理论的发展奠定了深厚的基础。
本书首先尝试把机器学习的经典算法,包括逻辑回归(Logistic Regression)、支持
向量机和AdaBoost 等,在经验风险最小和结构风险最小的框架下进行统一,并且借助
Softmax 模型和概率图模型中的Log-Linear 模型阐述它们的内在联系;其次从熵的角度
解读概率分布、最大似然估计、指数分布族、广义线性模型等概念;最后深入剖析用于求
解的最优化算法及其背后的数学理论。
本书的主要内容
全书分为9 个章节,从单一算法到统一框架,再到一致最优化求解,各章节的设置
如下。
第1 章,首先提出并探讨几个基本问题,包括回归思想、最优模型评价标准、数理统
计与机器学习的关系等。之后介绍两个最简单最常见的有监督学习算法|| 线性回归和
逻辑回归,并从计算的角度分析两种模型内在的关联,从而为学习“广义线性模型”打下
基础。在本章的最后部分初步讲解两个模型的求解方法|| 最小二乘法和最大似然估
计。
第2 章,主要内容是线性回归的泛化形式|| 广义线性模型。本章详细介绍广义线
性模型,并在第1 章的基础上从Fisher 信息、KL 散度、Bregman 距离的角度深入讲解
最大似然估计。本章可以看作是第3 章的基础引入。
第3 章,在前两章的基础上提出泛化误差和经验风险最小等概念,并且将最小二乘
和最大似然并入损失函数的范畴。在此基础之上,我们便将逻辑回归、支持向量机和Ada
Boost 算法统一到分类界面的框架下。至此我们会看到不同的算法只是分别对应了不同
的损失函数。
第4 章,介绍经验风险最小的不足与过拟合的概念,之后引出正则化。紧接着介绍
有监督学习算法中的常见正则化方法,包括L1 和L2 正则化XG Boost 和树。本章从两
个角度对L1 和L2 正则化进行深入讲解|| 贝叶斯和距离空间。这两个观点分别对应
了本书后续的两大部分|| 熵和最优化。
第5 章,介绍贝叶斯统计和熵之间的关系,并且基于熵重新解读了最大似然估计、指
III
数分布族等概念。本章可以看作是前四章中出现的内容在熵概念下的再定义。同时也是
为下一章的Log-Linear 模型作出铺垫。
第6 章,介绍Softmax 和Log-Linear 的变化,并且将第3 章的二分类界面泛化到多
分类界面,把分类问题的思路扩展到了多分类和结构分类。在本章中通过Log-Linear 关
联了概率图模型,通过Softmax 关联了深度学习。
第7 章,承接第4 章中L1 和L2 正则化在最优化角度的解释,从凸共轭的开始递进
地推导出拉格朗日对偶、Fenchel 对偶、增广拉格朗日乘子法、交替方向乘子法。
第8 章,介绍有监督学习模型在机器学习场景下的统一求解方法|| 随机梯度下
降法及其改进算法。本章对随机梯度下降法进行了收敛性分析,并根据分析结果针对其
缺点着重介绍了两类改进策略|| 方差缩减、加速和适应。
第9 章,主要对数学意义上的最优化方法进行探讨,可以看作是连接第7 章和第8
章的桥梁。第7 章的内容是本章的理论部分,而第8 章的内容则是本章介绍的算法应用
在在机器学习场景中的特例,主要内容包括一阶、二阶最优化算法及其收敛性分析。
图2 章节结构关系图
史春奇与卜晶祎为本书的共同第一作者。书中第3?6 章主要由史春奇博士撰写,第
IV
1、2、7?9 章主要由卜晶祎撰写,施智平教授参与了本书的组织结构设计并提出了很多宝
贵意见。由于作者的能力与水平有限,本书对机器学习的探讨难免会有不全面、不深刻
等不足之处,敬请各位读者批评指正,如蒙赐教将不胜感激。
各个章节结构之间的关系如图2 所示。对于基础稍浅的读者,可以按照图示循序渐
进地阅读;对于有一定基础的读者,可以跳过部分章节直接阅读感兴趣的章节。
作者
2019 年1 月