新書推薦:
《
有趣的中国古建筑
》
售價:HK$
67.0
《
十一年夏至
》
售價:HK$
76.2
《
如何打造成功的商业赛事
》
售價:HK$
89.5
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:HK$
58.2
《
慈悲与玫瑰
》
售價:HK$
87.4
《
启蒙的辩证:哲学的片简(法兰克福学派哲学经典,批判理论重要文本)
》
售價:HK$
76.2
《
云中记
》
售價:HK$
76.2
《
大模型应用开发:RAG入门与实战
》
售價:HK$
89.4
|
編輯推薦: |
系统讲解在互联网级别的应用上使用强化学习的技术细节。
汇集了阿里巴巴一线算法工程师在强化学习应用方面的经验和心得。
|
內容簡介: |
本书汇集了阿里巴巴一线算法工程师在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部等多条业务线,工业界首次系统地披露了强化学习在互联网级别的应用上使用的技术细节,其中更包含了阿里巴巴的算法工程师对强化学习的深入理解、思考和创新。??本书主要面向算法工程师,强化学习方向的研究人员以及所有机器学习爱好者。作为算法工程师,你将了解强化学习在实际应用中的建模方法,常见的问题以及对应的解决思路,提高建模和解决业务问题的能力;作为强化学习方向的研究人员,你将了解到在游戏之外更多实际的强化学习问题以及对应的解决方案,扩宽研究视野;作为机器学习爱好者,你将了解到阿里巴巴的一线机器学习算法工程师是如何发现问题,定义问题和解决问题的,激发研究兴趣以及提升专业素养。
|
關於作者: |
笪庆,男,2010年本科毕业于南京大学计算机科学与技术系,同年免试保送至南京大学软件新技术国家重点实验室机器学习与数据挖掘研究所,从事机器学习,尤其是强化学习方向的工作和研究。2015年加入阿里巴巴搜索事业部算法团队,从事无线基础排序方向的工作。
|
目錄:
|
第1章强化学习基础1
1.1引言2
1.2起源和发展3
1.3问题建模5
1.4常见强化学习算法8
1.4.1基于值函数的方法9
1.4.2基于直接策略搜索的方法12
1.5总结14
第2章基于强化学习的实时搜索排序策略调控15
2.1研究背景16
2.2问题建模17
2.2.1状态定义17
2.2.2奖赏函数设计18
2.3算法设计19
2.3.1策略函数19
2.3.2策略梯度20
2.3.3值函数的学习21
2.4奖赏塑形22
2.5实验效果25
2.6DDPG与梯度融合27
2.7总结与展望28
第3章延迟奖赏在搜索排序场景中的作用分析30
3.1研究背景31
3.2搜索交互建模31
3.3数据统计分析33
3.4搜索排序问题形式化36
3.4.1搜索排序问题建模36
3.4.2搜索会话马尔可夫决策过程38
3.4.3奖赏函数39
3.5理论分析40
3.5.1马尔可夫性质40
3.5.2折扣率41
3.6算法设计44
3.7实验与分析48
3.7.1模拟实验48
3.7.2搜索排序应用51
第4章基于多智能体强化学习的多场景联合优化54
4.1研究背景55
4.2问题建模57
4.2.1相关背景简介57
4.2.2建模方法58
4.3算法应用65
4.3.1搜索与电商平台65
4.3.2多排序场景协同优化66
4.4实验与分析69
4.4.1实验设置69
4.4.2对比基准70
4.4.3实验结果70
4.4.4在线示例73
4.5总结与展望75
第5章虚拟淘宝76
5.1研究背景77
5.2问题描述79
5.3虚拟化淘宝80
5.3.1用户生成策略81
5.3.2用户模仿策略83
5.4实验与分析85
5.4.1实验设置85
5.4.2虚拟淘宝与真实淘宝对比85
5.4.3虚拟淘宝中的强化学习87
5.5总结与展望90
第6章组合优化视角下基于强化学习的精准定向
广告OCPC业务优化92
6.1研究背景93
6.2问题建模94
6.2.1奖赏设计94
6.2.2动作定义94
6.2.3状态定义95
6.3模型选择100
6.4探索学习102
6.5业务实战103
6.5.1系统设计103
6.5.2奖赏设计105
6.5.3实验效果106
6.6总结与展望106
第7章策略优化方法在搜索广告排序和竞价机制中的应用108
7.1研究背景109
7.2数学模型和优化方法110
7.3排序公式设计112
7.4系统简介113
7.4.1离线仿真模块114
7.4.2离线训练初始化114
7.5在线策略优化117
7.6实验与分析118
7.7总结与展望120
第8章TaskBot阿里小蜜的任务型问答技术121
8.1研究背景122
8.2模型设计123
8.2.1意图网络123
8.2.2信念跟踪124
8.2.3策略网络124
8.3业务应用126
8.4总结与展望127
第9章DRL导购阿里小蜜的多轮标签推荐技术128
9.1研究背景129
9.2算法框架130
9.3深度强化学习模型133
9.3.1强化学习模块133
9.3.2模型融合134
9.4业务应用135
9.5总结与展望136
第10章Robust DQN在淘宝锦囊推荐系统中的应用137
10.1研究背景138
10.2Robust DQN算法140
10.2.1分层采样方法140
10.2.2基于分层采样的经验池141
10.2.3近似遗憾奖赏142
10.2.4Robust DQN算法143
10.3Robust DQN算法在淘宝锦囊上的应用144
10.3.1系统架构144
10.3.2问题建模145
10.4实验与分析147
10.4.1实验设置148
10.4.2实验结果148
10.5总结与展望152
第11章基于上下文因子选择的商业搜索引擎性能优化153
11.1研究背景154
11.2排序因子和排序函数156
11.3相关工作157
11.4排序中基于上下文的因子选择158
11.5RankCFS:一种强化学习方法162
11.5.1CFS问题的?MDP建模162
11.5.2状态与奖赏的设计163
11.5.3策略的学习165
11.6实验与分析166
11.6.1离线对比167
11.6.2在线运行环境的评价170
11.6.3双11评价171
11.7总结与展望172
第12章基于深度强化学习求解一类新型三维装箱问题173
12.1研究背景174
12.2问题建模175
12.3深度强化学习方法177
12.3.1网络结构178
12.3.2基于策略的强化学习方法179
12.3.3基准值的更新180
12.3.4随机采样与集束搜索180
12.4实验与分析181
12.5小结182
第13章基于强化学习的分层流量调控183
13.1研究背景184
13.2基于动态动作区间的DDPG算法186
13.3实验效果189
13.4总结与展望189
第14章风险商品流量调控190
14.1研究背景191
14.2基于强化学习的问题建模192
14.2.1状态空间的定义192
14.2.2动作空间的定义193
14.2.3奖赏函数的定义193
14.2.4模型选择194
14.2.5奖赏函数归一化196
14.3流量调控系统架构196
14.4实验效果197
14.5总结与展望197
参考文献199
|
內容試閱:
|
推荐序一
当前的机器学习算法大致可以分为有监督学习、无监督学习和强化学习三类。强化学习和其他学习方法的不同之处在于:强化学习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能体的某个行为策略引发正的奖赏,那么智能体以后产生这个行为策略的趋势便会加强。强化学习是最接近自然界动物学习本质的一种学习范式。尽管强化学习从提出到现在差不多有半个世纪了,但是它的应用场景仍很有限,解决规模大一点的问题时会出现维数爆炸问题,难于计算,所以往往看到的例子都是相对简化的场景。
最近,强化学习因为与深度学习结合,解决海量数据的泛化问题,取得了令人瞩目的成果。在包括DeepMind自动学习玩Atari游戏,以及AlphaGo在围棋大赛中战胜世界冠军的背后,其强大武器之一就是深度强化学习技术。相对DeepMind和学术界看重强化学习的前沿研究,阿里巴巴则将重点放在推动强化学习的技术输出及商业应用上。
在阿里移动电商平台中,人机交互的便捷、碎片化使用的普遍性、页面切换的串行化、用户轨迹的可跟踪性等都要求系统能够对多变的用户行为,以及瞬息万变的外部环境进行完整建模。平台作为信息的载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段,缺少有效的探索能力,造成其系统倾向给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法,在阿里一些具体的业务场景中进行了很好的实践并得到大规模应用。
?在搜索场景中,阿里巴巴对用户的浏览购买行为进行马尔可夫决策过程建模,在搜索实时学习和实时决策计算体系之上,实现了基于强化学习的排序策略决策模型,从而使得淘宝搜索的智能化进化至新的高度。双11桶测试效果表明,算法指标取得了近 20% 的大幅提升。
?在推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,帮助每一个用户迅速发现喜欢的商品,提高人和商品的配对效率,算法效果指标提升了10%~20%。
?在智能客服中,如阿里小蜜这类的客服机器人,作为投放引擎的智能体,需要有决策能力。这个决策不是基于单一节点的直接收益来确定的,而是一个较为长期的人机交互的过程,把消费者与平台的互动看作一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的决策是建立在最大化过程收益的基础上,达到一个系统与用户的动态平衡的。
?在广告系统中,如果广告主能够根据每一条流量的价值进行单独出价,广告主便可以在各自的高价值流量上提高出价,而在普通流量上降低出价,如此可以获得较好的投资回报率(Return On Investment,ROI),与此同时,平台也能够提升广告与访客间的匹配效率。阿里巴巴实现了基于强化学习的智能调价技术,对于访问广告位的每一位访客,根据他们的当前状态去决定如何操作调价,给他们展现特定的广告,引导他们的状态向我们希望的方向上转移,双11期间实测表明,点击率(Click-Through Rate,CTR)、每千次展示收入(Revenue Per Thousand,RPM)和成交金额(Gross Merchandise Volume,GMV)均得到了大幅提升。
当然,强化学习在阿里巴巴内部的实践远不止于此,鉴于篇幅限制,本书只介绍了其中的一部分。未来深度强化学习的发展必定是理论探索和应用实践的双链路持续深入。希望本书能抛砖引玉,从技术和应用上帮助读者,共同推进深度强化学习的更大发展。
青峰
阿里巴巴研究员
2018年9月于杭州
推荐序二
首先很欣慰地看到这本围绕强化学习应用的实践之作问世,经过几年在电商的大数据平台的持续积累,阿里巴巴的算法同学在决策智能方向迈出了坚实的一步。
回顾阿里巴巴电商搜索推荐技术的一路演进历程,有幸亲身经历了一个在大数据驱动下,学习和决策能力兼备的智能化体系的建立和发展。整本书围绕强化学习技术在搜索、推荐、广告、客服机器人等真实在线交互产品的实战经验进行了认真细致的论述,相信对从业者大有裨益,也期待更多优秀的工作应运而生。
本书大部分应用仍然是围绕着信息化系统来实验和论证的,信息化系统仍然具备了感知、匹配、选择、决策、反馈的完整闭环,而如何让强化学习技术给我们的日常生产生活中的决策问题带来价值,仍然有很长的一段路要走。本书第12章介绍的利用深度强化学习求解三维装箱问题,作为抛砖引玉,鼓励学者们积极探索强化学习理论在运筹优化方向的应用和探索,对于可以抽象为序列决策问题的运筹优化问题,基于传统组合优化方法的求解方式,往往会遇到响应时间长、数据利用率低等问题。第12章开启了如何利用数据驱动,将装箱问题建模成一个考虑如何按照顺序、位置、朝向摆放商品的序列决策问题,运用DRL方法优化物品的放入顺序,同时模型预测需要的时间在毫秒级左右,取代了启发式求解,在很大限度上降低了仓内库工的等待时间。
再比如,当前研发热情空前高涨的无人驾驶领域,在感知层面,随着智能传感器的升级换代,ADAS的大量部署和数据的采集、算力的提升,感知本身在可见的将来不会是主要的瓶颈;而如何根据感知结果实现最优化控制,也就是决策算法将会是核心竞争力的体现。单存依赖深度学习建立的智能化系统失去了透明性和可解释性,仅仅依赖的是概率推理,也就是相关性,而非因果推断,而任何基于相关性作出的决策是很难保证稳定性和可靠性的。而因果推断的一个典型范例可以建立在基于强化学习的决策框架之上,它把一个决策问题当作是一个决策系统与它所处环境的博弈,这个系统需要连续做决策,优化的是长期累积收益。而众所周知的是,强化学习是一个基于trial and error的试错机制与环境交互,并基于收集到的数据不断改进自己的决策机制来最大化长期奖励,但是很难想象在实际无人驾驶场景中去做大量trial,那样的代价是无法承受的。因此,我们需要思考构建一个物理环境的平行世界,来模拟路况的仿真环境,通过强化学习来做虚拟运行,获得最优的决策模型,并且还将产生大量的模拟数据,这对决策算法的成熟至关重要。很高兴也看到了本书中的第5章虚拟淘宝的研究,建立了一个与真实购物体系的平行宇宙,相信这样的工作对于去探索一个平台性电商的机制性研究都会有极大的参考价值。
强化学习算法是以优化预先指定的奖励函数为中心的,这些奖励函数类似于机器学习中的成本函数,而强化学习算法就是一种优化方法。由于某些算法特别容易受到奖励尺度和环境动力学(Environment Dynamics)的影响,我们更需要强调强化学习算法在现实任务中的适应性,就像成本优化(Cost-Optimization)方法那样。在思考运用强化学习解决问题的时候,需要试图回答这样的问题:哪些设定使该研究有用?在研究社区中,我们必须使用公平的对比,以确保结果是可控的和可复现的。衷心地鼓励所有的业界同仁们带着好奇心、敬畏心,持续推动强化学习方向在实际应用领域的开花结果。
徐盈辉
阿里巴巴研究员,菜鸟人工智能部负责人
推荐序三
2018年7月,在国际机器学习会议ICML18上,强化学习占据17个session,超越深度学习,成为唯一贯穿主会3天日程的主题;在国际人工智能联合大会IJCAI18上,以强化学习为题的论文较上一年增长超过50%;在国际智能体与多智能体会议AAMAS18上,学习session由上一年的1个增长为4个;国内,2018年8月,在智能体及多智能体系统专题论坛上,数百人的会场座无虚席。种种迹象表明,强化学习近来已成为人工智能、机器学习中最受关注的研究方向之一。
然而,就在几年前还是另一番景象。2011年我在导师周志华教授的指导下以演化计算理论基础为题取得博士学位,继而在周志华教授的指引下选择新的研究方向。强化学习希望赋予机器自主决策的能力,是富有挑战而在通向人工智能的道路上必不可少的一环,同时从技术上与我博士生期间的主要研究方向也有关联。切换到强化学习研究的想法,立即得到了周志华教授的肯定和支持。后续研究工作的开展,也得到了在这一方向上长期耕耘的南京大学高阳教授的支持和帮助。然而在几年前,寻找强化学习合作研究的学生时,我常常需要回答强化学习在企业中有用吗之类的问题,左思右想,最后只能尴尬的回应,嗯,目前暂时可能用得很少。其实,用得很少在当时已经是夸大的说法了,尤其是对于同学们最感兴趣的互联网企业。幸运的是,对冷门的强化学习,仍然有同学有兴趣合作,其中笪庆同学后来成为阿里强化学习技术应用的主力之一。
人工智能技术最终是面向应用的技术,用得很少对一个研究方向的发展无疑会产生严重的制约。所幸2016年,DeepMind的AlphaGo系统借助强化学习技术达到的围棋水平超越人类职业选手,掀起了人工智能的新一轮热潮,也引发了对强化学习技术的广泛关注。然而,强化学习技术仍然很不成熟,在实际问题中应用面临很高的门槛,以至于最近有一些指责强化学习存在泡沫的声音。虚远大于实才会形成泡沫,而本书介绍的强化学习在阿里巴巴业务场景中的实践,就是强化学习可以切实落地的初步展示。其中,虚拟淘宝等工作也是我们与青峰、仁重团队合作,为解决强化学习落地过程中的障碍而进行的尝试。我们相信强化学习,这种被DeepMind认为是通向通用人工智能愿景的主要技术,在企业应用的支撑下会有更加蓬勃的发展生机,将会深刻地影响和改变人类社会。
俞扬
于南京大学
2018年9月15日
|
|