本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
1.本书针对连续变化的控制问题,重点集中在近似动态规划(DP)和强化学习(RL)方面。给出了DP和RL问题及其解的形式化描述,给出了带函数逼近的DP和RL方法的一个扩展的解释,对带模糊逼近的值迭代算法进行了讨论,专业性很强。
2.本书在国际同行中具有很高知名度,一度被很多国家作为研究生和工程师的技术教程,影响力很大。
3.强化学习成为了目前人工智能方向的研究热点,尤其是将强化学习应用于实际项目中,成为通用人工智能(GAI)研究的主要思路。
本书讨论大规模连续空间的强化学习理论及方法,重点介绍使用函数逼近的强化学习和动态规划方法。该研究已成为近年来计算机科学与技术领域中活跃的研究分支之一。
全书共分6章。第1章为概述;第2章为动态规划与强化学习介绍;第3章为大规模连续空间中的动态规划与强化学习;第4章为基于模糊表示的近似值迭代;第5章为用于在线学习和连续动作控制的近似策略迭代;第6章为基于交叉熵基函数优化的近似策略搜索。
本书可以作为理工科高等院校计算机专业和自动控制专业研究生的教材,也可以作为相关领域科技工作者和工程技术人员的参考书。
Lucian Buoniu
荷兰代尔夫特理工大学代尔夫特系统与控制中心博士后研究员。2009年获得代尔夫特理工大学博士学位,2003年获得罗马尼亚克卢日·纳波卡科技大学硕士学位。他目前的主要研究方向包括强化学习与近似动态规划、面向控制问题的智能与学习技术以及多Agent学习等。
Robert Babu ka
荷兰代尔夫特理工大学代尔夫特系统与控制中心教授。1997 年获得代尔夫特理工大学控制专业博士学位,1990年获得布拉格捷克技术大学电机工程专业硕士学位。他目前的主要研究方向包括模糊系统建模与识别、神经模糊系统的数据驱动结构与自适应、基于模型的模糊控制和学习控制,并将这些技术应用于机器人、机电一体化和航空航天等领域。
Bart De Schutter
荷兰代尔夫特理工大学代尔夫特系统与控制中心海洋与运输技术系教授。1996年获得比利时鲁汶大学应用科学博士学位。他目前的主要研究方向包括多Agent系统、混杂系统控制、离散事件系统和智能交通系统控制等。
Damien Ernst
分别于1998年和2003年获得比利时列日大学理学硕士及博士学位。他目前是比利时FRS-FNRS的助理研究员,就职于列日大学的系统与建模研究院。Damien Ernst在2003—2006年间为FRS- FNRS 的博士后研究人员,并在此期间担任剑桥管理机构、麻省理工学院和美国国立卫生研究院的访问研究员,2006—2007学年在高等电力学院(法国)担任教授。他目前的主要研究方向包括电力系统动力学、最优控制、强化学习和动态治疗方案设计等。
动态规划(DP,Dynamic Programming)和强化学习(RL,Reinforcement Learning)都是用于解决控制问题的计算方法。该类控制问题可以具体地描述为:在一段时间内,为达到预期目标,Agent在系统中如何选择动作(决策)。DP方法需要系统的行为模型,而RL方法则不需要。在控制问题中,时间变化通常是离散的。在每个离散的时间步,采取相应的动作,到达新的场景,这样循环往复就形成了一个序贯决策任务。动作是闭环执行的,这意味着当选择新动作时,需要观察并考虑先前动作的结果。奖赏用于评价系统的一步决策性能,而目标是优化系统的长期性能,即通过交互过程中的累积奖赏对性能进行评估。
在自动控制、人工智能、运筹学、经济学和医学等很多领域中都存在着这样的决策问题,在自动控制领域中,“控制器”从一个“过程”中接收到一些输出测量值,并对这个“过程”采取相应的动作,以便使其行为满足某些特定的要求(Levine, 1996)。在这种情况下,DP和RL方法都可用于解决最优控制问题,这里“过程”的行为使用代价函数来评估,代价函数与奖赏起着类似的作用。决策者是“控制器”,系统是受控的“过程”。