新書推薦:
《
深度学习详解
》
售價:HK$
114.8
《
李白传(20世纪文史学家李长之经典传记)
》
售價:HK$
45.8
《
津轻:日本无赖派文学代表太宰治自传性随笔集
》
售價:HK$
66.7
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
|
編輯推薦: |
强化学习(RL)是用于创建自学习自主智能体的人工智能方法。本书基于强大的理论基础,采用实用的方法来研究强化学习,并使用受现实世界中商业和行业问题启发的实际示例来教授先进的强化学习知识。 本书首先介绍老虎机问题、马尔可夫决策过程和动态规划,带你深入了解经典强化学习技术,包括蒙特卡罗方法和时间差分学习方法。然后,你将了解深度Q-学习、策略梯度方法、Actor-Critic算法、基于模型的方法以及多智能体强化学习。接下来,本书将介绍一些成功的强化学习实现背后的关键方法,例如,域随机化和好奇心驱动的强化学习。 随着学习的深入,你将使用现代Python库(例如,TensorFlow和Ray的RLlib包)探索许多具有高级实现的新颖算法。你还将了解如何在机器人、供应链管理、市场营销、金融、智慧城市与网络安全等领域应用强化学习技术,同时评估不同方法的利弊并避免常见的陷阱。 学完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。通过阅读本书,你将: ? 使用强化学习建模并解决复杂的序贯决策问题。 ? 深入了解先进的强化学习方法的工作原理。 ? 使用Python和TensorFlow从
|
內容簡介: |
本书使用受现实世界商业和行业问题启发的实际示例来讲授强化学习技术的相关知识。本书分为四部分:部分涵盖强化学习的必要背景,包括定义、数学基础和强化学习解决方案的概述;第二部分深入介绍先进的强化学习算法(规模化的深度Q-学习、基于策略的方法、基于模型的方法、多智能体强化学习等),包括每种算法的优缺点;第三部分介绍强化学习中的高级技术,包括机器教学、泛化和域随机化、元强化学习等主题,还涵盖强化学习中有助于改进模型的各种高级主题;第四部分讲解强化学习的各种应用,例如自主系统、供应链管理、营销和金融、智慧城市与网络安全等,并讨论强化学习领域的一些挑战及未来方向。学完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。
|
目錄:
|
CONTENTS
目 录
译者序
前言
作者简介
审校者简介
第一部分 强化学习基础
第1章 强化学习简介 2
1.1 为什么选择强化学习 2
1.2 机器学习的三种范式 3
1.2.1 监督学习 3
1.2.2 无监督学习 4
1.2.3 强化学习 4
1.3 强化学习应用领域和成功案例 5
1.3.1 游戏 6
1.3.2 机器人技术和自主系统 7
1.3.3 供应链 8
1.3.4 制造业 8
1.3.5 个性化和推荐系统 9
1.3.6 智慧城市 9
1.4 强化学习问题的元素 10
1.4.1 强化学习概念 10
1.4.2 将井字棋游戏建模为强化
学习问题 11
1.5 设置强化学习环境 12
1.5.1 硬件要求 12
1.5.2 操作系统 13
1.5.3 软件工具箱 13
1.6 总结 14
1.7 参考文献 15
第2章 多臂老虎机 17
2.1 探索–利用权衡 17
2.2 什么是多臂老虎机问题 18
2.2.1 问题定义 18
2.2.2 一个简单多臂老虎机问题
的实验 19
2.3 案例研究:在线广告 22
2.4 A/B/n测试 23
2.4.1 符号 23
2.4.2 应用于在线广告场景 24
2.4.3 A/B/n测试的优缺点 27
2.5 ε-贪心策略行动 27
2.5.1 应用于在线广告场景 27
2.5.2 ε-贪心策略行动的优缺点 29
2.6 使用置信上界进行行动选择 30
2.6.1 应用于在线广告场景 30
2.6.2 使用置信上界的优缺点 32
2.7 汤普森(后)采样 33
2.7.1 应用于在线广告场景 33
2.7.2 汤普森采样的优缺点 36
2.8 总结 36
2.9 参考文献 36
第3章 上下文多臂老虎机 37
3.1 为什么我们需要函数近似 37
3.2 对上下文使用函数近似 38
3.2.1 案例研究:使用合成用户
数据的上下文在线广告 39
3.2.2 使用正则化逻辑斯谛回归
的函数近似 42
3.2.3 目标函数:悔值小化 45
3.2.4 解决在线广告问题 46
3.3 对行动使用函数近似 50
3.3.1 案例研究:使用来自美国
人口普查的用户数据的上
下文在线广告 51
3.3.2 使用神经网络进行函数
近似 55
3.3.3 计算悔值 57
3.3.4 解决在线广告问题 57
3.4 多臂老虎机和上下文老虎机的
其他应用 59
3.4.1 推荐系统 59
3.4.2 网页/应用程序功能设计 60
3.4.3 医疗保健 60
3.4.4 动态定价 60
3.4.5 金融 60
3.4.6 控制系统调整 60
3.5 总结 61
3.6 参考文献 61
第4章 马尔可夫决策过程的制定 63
4.1 马尔可夫链 63
4.1.1 具有马尔可夫性的随机
过程 63
4.1.2 马尔可夫链中的状态分类 65
4.1.3 转移和稳态行为 66
4.1.4 示例:网格世界中的n-
步行为 67
4.1.5 示例:一个可遍历马尔可
夫链中的样本路径 69
4.1.6 半马尔可夫过程和连续时
间马尔可夫链 70
4.2 引入奖励:马尔可夫奖励过程 70
4.2.1 将奖励附加到网格世界
示例 71
4.2.2 不同初始化的平均奖励之
间的关系 72
4.2.3 回报、折扣和状态值 72
4.2.4 解析式地计算状态值 73
4.2.5 迭代式地估计状态值 74
4.3 引入行动:马尔可夫决策过程 75
4.3.1 定义 75
4.3.2 网格世界作为马尔可夫决
策过程 76
4.3.3 状态值函数 77
4.3.4 行动值函数 77
4.3.5 优状态值和行动值
函数 78
4.3.6 贝尔曼优性 78
4.4 部分可观测的马尔可夫决策过程 79
4.5 总结 80
4.6 练习 80
4.7 参考文献 81
第5章 求解强化学习问题 82
5.1 探索动态规划 82
5.1.1 示例用例:食品卡车的库存补充 82
5.1.2 策略评估 85
5.1.3 策略迭代 90
5.1.4 值迭代 94
5.1.5 动态规划方法的缺点 95
5.2 用蒙特卡罗法训练智能体 96
5.2.1 蒙特卡罗预测 97
5.2.2 蒙特卡罗控制 104
5.3 时间差分学习 111
5.3.1 一步时间差分学习 112
5.3.2 n-步时间差分学习 117
5.4 了解模拟在强化学习中的
重要性 117
5.5 总结 118
5.6 练习 119
5.7 参考文献 119
第二部分 深度强化学习
第6章 规模化的深度Q-学习 122
6.1 从表格型Q-学习到深度Q-
学习 122
6.1.1 神经网络拟合的Q-迭代 123
6.1.2 在线Q-学习 127
6.2 深度Q网络 128
6.2.1 DQN中的关键概念 128
6.2.2 DQN算法 129
6.3 DQN扩展:Rainbow 130
6.3.1 扩展 130
6.3.2 集成智能体的性能 134
6.3.3 如何选择使用哪些扩展:Rainbow的消融实验 134
6.3.4 “死亡三组合”发生了什
|
內容試閱:
|
Preface
前 言
强化学习(RL)是用于创建自学习自主智能体的人工智能方法。本书采用实用的方法来研究强化学习,并使用受现实世界中商业和行业问题启发的实际示例来教授先进的强化学习知识。
首先,简要介绍强化学习元素,你将掌握马尔可夫链和马尔可夫决策过程,它们构成了对强化学习问题建模的数学基础。然后,你将了解用于解决强化学习问题的蒙特卡罗(Monte Carlo)方法和时间差分(Temporal Difference,TD)学习方法。接下来,你将了解深度Q-学习(或Q学习)、策略梯度算法、行动器–评论器(actor-critic)方法、基于模型的方法以及多智能体强化学习。随着学习的深入,你将使用现代Python库深入研究许多具有高级实现的新颖算法,还将了解如何实现强化学习来解决诸如自主系统、供应链管理、游戏、金融、智慧城市和网络安全等领域所面临的现实挑战。后,你将清楚地了解使用哪种方法及何时使用,如何避免常见的陷阱,以及如何应对实现强化学习时所面临的挑战。
读完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。
目标读者
本书适用于希望在实际项目中实现高级强化学习概念的专业机器学习从业者和深度学习研究人员。本书也适合那些希望通过自学习智能体解决复杂的序贯决策问题的强化学习专家。阅读本书需要读者具备Python编程、机器学习和强化学习方面的知识和使用经验。
本书涵盖的内容
第1章介绍强化学习,首先着眼于强化学习在行业中的应用给出一些激励示例和成功案例,然后给出基本定义,让你对强化学习概念有新的认识,后介绍强化学习环境的软件和硬件设置。
第2章介绍一个相当简单的强化学习设置,即没有上下文的多臂老虎机问题,它作为传统A/B测试的替代方案,在业界应用广泛。该章还介绍了一个非常基本的强化学习概念:探索–利用。我们还用4种不同的方法解决了一个在线广告案例原型问题。
第3章通过在决策过程中添加上下文并让深度神经网络参与决策,更深入地讨论多臂老虎机(Multi-Armed Bandit,MAB)问题,并将来自美国人口普查的真实数据集用于在线广告问题。后介绍多臂老虎机问题在工业和商业中的应用。
第 4 章讨论建模强化学习问题的数学理论。首先介绍马尔可夫链,包括状态类型、可遍历性、转移和稳态行为。然后介绍马尔可夫奖励过程和决策过程,涵盖回报、折扣、策略、值函数和贝尔曼优性等强化学习理论中的关键概念。后讨论部分可观测的马尔可夫决策过程。我们使用一个网格世界的例子贯穿本章来说明这些概念。
第 5 章介绍动态规划方法,这是理解如何解决马尔可夫决策过程(MDP) 的基础。该章还会阐释策略评估、策略迭代和值迭代等关键概念。我们使用一个示例贯穿本章来解决库存补充问题。后讨论在实践中使用动态规划方法求解强化学习存在的问题。
第 6 章介绍深度强化学习,并涵盖端到端规模化的深度Q-学习。我们首先讨论为什么需要深度强化学习。然后介绍 RLlib(一个流行且可扩展的强化学习库)。我们构建了从拟合Q- 迭代到DQN(Deep Q-Network)再到 Rainbow 的深度Q-学习方法。后深入探讨分布式 DQN(Ape-X)等更高级的主题,并讨论要调整的重要超参数。对于经典 DQN,我们将用 TensorFlow实现;对于Rainbow,我们将使用RLlib实现。
第7章介绍另一种重要的强化学习方法:基于策略的方法。你将首先了解它们有何不同以及为什么需要它们。然后,我们将详细介绍几种先进的策略梯度和信任域方法。后介绍Actor-Critic算法。我们主要介绍这些算法的RLlib实现,这里并不是给出冗长的实现细节,而是关注如何以及何时使用它们。
第8章展示基于模型的方法做出了哪些假设,以及它们与其他方法相比有哪些优势。然后讨论著名的 AlphaGo Zero 背后的模型。后给出一个使用基于模型的算法的练习。该章混合使用了手动实现和 RLlib 实现。
第9章介绍一个建模多智能体强化学习问题的框架。
第10章讨论将复杂问题分解成更小部分并使其可解决的机器教学方法。这种方法对于解决许多现实生活中的问题是必要的,你将学习关于如何设计强化学习模型的实用技巧和窍门,并超越算法选择来解决强化学习问题。
第11章介绍为什么部分可观测性和 sim2real 差距是一个问题,以及如何使用类LSTM(长短期记忆) 的模型泛化和域随机化来解决这些问题。
第12章介绍允许我们将单个模型用于多个任务的方法。样本效率是元强化学习中的一个主要问题,该章将向你展示元强化学习中一个非常重要的未来方向。
第13章介绍前沿的强化学习研究。到目前为止讨论的许多方法都有某些假设和限制,该章讨论的主题就解决这些限制给出了相关建议。在该章结束时,你将了解当遇到前几章中介绍的算法的限制时应该使用哪些方法。
第14章介绍强化学习在创建现实自主系统方面的潜力。该章涵盖自主机器人和自动驾驶汽车的成功案例。
第15章介绍库存计划和车辆路径优化问题的实践经验。我们将它们建模为强化学习问题并给出解决案例。
第16章涵盖强化学习在营销、广告、推荐系统和金融中的应用。该章让你广泛了解如何在业务中使用强化学习,以及机会和限制是什么。在该章中,我们还将讨论上下文多臂老虎机问题的示例。
第17章涵盖智慧城市和网络安全领域的问题,例如,交通控制、服务提供监管和入侵检测。我们还会讨论如何在这些应用程序中使用多智能体方法。
第18章详细介绍强化学习领域的挑战是什么以及克服这些挑战的前沿研究建议和未来方向。该章教你如何评估强化学习方法对给定问题的可行性。
下载示例代码文件
本书的代码包托管在 GitHub 上,地址为 https://github.com/PacktPublishing/
Mastering-Reinforcement-Learning-with-Python。如果代码有更新,我们将在现有的 GitHub 代码库中更新。
下载彩色图像
我们还提供了一个 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像,可以从https://static.packt-cdn.com/downloads/9781838644147_ColorImages.pdf下载。
本书约定
本书中使用了以下约定。
文本中的代码:表示文本中的代码字、数据库表名称、文件夹名称、文件名、文件扩展名、路径名、虚拟 URL、用户输入等。示例如下:“安装 NVIDIA Modprobe,例如,对于 Ubuntu,使用sudo apt-get install nvidia-modprobe。”
一段代码如下所示:
当我们希望你注意代码块的特定部分时,相关的行或项目以粗体显示:
提示或重要说明
以文本框形式出现。
|
|