新書推薦:
《
宋瑞驻村日记(2012-2022)
》
售價:HK$
115.6
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:HK$
50.4
|
編輯推薦: |
时间序列的分析、预测及异常检测方法。
时间序列的相似性度量方法与聚类算法。
多维时间序列及其在多个场景下的应用。
|
內容簡介: |
本书分为8 章,内容包括时间序列分析的基础知识、时间序列预测的常用方法,以及神经网络在时间序列预测中的应用;时间序列异常检测算法的技术与框架,如何识别异常的时间点及多种异常检测方法;时间序列的相似性度量方法、聚类算法;多维时间序列在广告分析和业务运维领域的应用,利用OLAP 技术对多维时间序列进行有效处理,通过根因分析技术获得导致故障的维度和元素;智能运维领域(AIOps)和金融领域的两个应用场景。
|
關於作者: |
张戎,新加坡国立大学数学博士,深圳孔雀计划高层次人才,数学和机器学习领域科普作家,数学、科研和深度学习等话题的优秀自媒体工作者, 曾多次担任行业技术大会讲师。博士期间从事动力系统的研究工作,博士论文中解决了非正则吸引子的存在性问题。毕业之后在工业界从事人工智能的研发工作,涉及业务包括推荐系统、安全大数据和智能运维等内容。
罗齐,硕士毕业于香港中文大学(深圳),现就职于某互联网公司,从事算法应用研究工作,研究方向为游戏数据挖掘和智能运维,曾参与多款热门游戏的数据挖掘和智能运维工作。
|
目錄:
|
第1 章时间序列概述 1
1.1 发展历程 1
1.2 应用现状 3
1.3 时间序列分类4
1.3.1 单维时间序列4
1.3.2 多维时间序列6
1.4 小结 8
第2 章时间序列的信息提取 9
2.1 特征工程的入门知识9
2.1.1 特征工程简介9
2.1.2 数值型特征 12
2.1.3 类别型特征 17
2.1.4 交叉特征 17
2.2 时间序列的预处理 18
2.2.1 时间序列的缺失值 18
2.2.2 时间序列的缩放 20
2.3 时间序列的特征工程24
2.4 时间序列的统计特征28
2.5 时间序列的熵特征 32
2.6 时间序列的降维特征38
2.6.1 分段聚合逼近38
2.6.2 分段线性逼近39
2.6.3 分段常数逼近41
2.6.4 符号逼近 42
2.6.5 最大三角形三桶算法43
2.6.6 用神经网络自动生成特征的算法 44
2.7 时间序列的单调性 53
2.7.1 线性拟合方法54
2.7.2 控制图方法 55
2.7.3 均线方法 60
2.8 小结 63
第3 章时间序列预测 64
3.1 时间序列预测的统计方法 65
3.1.1 自回归差分移动平均模型 65
3.1.2 指数平滑方法72
3.1.3 Prophet 75
3.2 时间序列预测的深度学习方法 83
3.2.1 循环神经网络83
3.2.2 长短期记忆网络 85
3.2.3 Transformer 90
3.2.4 Informer96
3.3 小结·100
第4 章时间序列异常检测 101
4.1 异常类型及检测方法分类 101
4.2 基于概率密度的方法 104
4.2.1 核密度估计原理 104
4.2.2 核密度估计方法 106
4.3 基于重构的方法 111
4.3.1 变分自编码器 111
4.3.2 Donut 115
4.4 基于距离的方法 117
4.4.1 孤立森林 118
4.4.2 RRCF 121
4.5 基于有监督的方法 125
4.6 基于弱监督的方法 127
4.7 小结 129
第5 章时间序列的相似度与聚类 130
5.1 相似度函数 130
5.1.1 经典的相似度函数 131
5.1.2 基于分段聚合逼近的相似度函数 134
5.1.3 基于时间序列平滑的相似度函数 135
5.1.4 基于神经网络的相似度算法 136
5.2 距离函数 137
5.2.1 欧氏距离 138
5.2.2 DTW 算法139
5.2.3 基于相似性的距离 140
5.2.4 基于符号特征的距离 141
5.2.5 基于自相关性的距离 142
5.2.6 基于周期性的距离 143
5.2.7 基于模型的距离 144
5.3 基于特征工程的聚类算法 145
5.4 基于距离和相似度的聚类算法 149
5.5 流式聚类算法 151
5.6 小结 154
第6 章多维时间序列 155
6.1 多维时间序列简介155
6.2 单维时间序列与多维时间序列 156
6.2.1 广告分析领域 156
6.2.2 业务运维领域 157
6.3 单维时间序列监控系统和多维时间序列监控系统的对比 159
6.4 根因分析 160
6.4.1 根因分析的基础概念 160
6.4.2 人工执行根因分析的难度 163
6.4.3 OLAP 技术和方法 164
6.5 基于时间序列异常检测算法的根因分析 165
6.5.1 时间序列异常检测 165
6.5.2 根因分析的列表结构 170
6.5.3 根因分析的树状结构 172
6.6 基于熵的根因分析 173
6.6.1 熵的概念和性质 173
6.6.2 概率之间的距离 174
6.6.3 基于熵的根因分析方法 177
6.7 基于树模型的根因分析 187
6.7.1 特征工程和样本 187
6.7.2 决策树算法 187
6.8 规则学习 188
6.8.1 根因分析的列表结构 188
6.8.2 根因分析的树状结构 189
6.8.3 列表结构与树状结构的对比 191
6.8.4 规则的排序 192
6.9 小结 193
第7 章智能运维的应用场景 194
7.1 智能运维 194
7.1.1 智能运维的主要方向 195
7.1.2 智能运维的实施路径 196
7.2 指标监控 197
7.2.1 硬件监控与软件监控 198
7.2.2 业务监控 198
7.2.3 节假日效应 201
7.2.4 持续异常的情况 205
7.2.5 存在基线的情况 205
7.2.6 寻找基线的方法 206
7.3 容量预估和弹性伸缩 208
7.3.1 容量预估 208
7.3.2 弹性伸缩 209
7.4 告警系统 210
7.4.1 告警系统的定义与评估指标 210
7.4.2 告警关联与收敛 212
7.4.3 基于相似性或聚类算法的告警关联与收敛 214
7.4.4 基于告警属性泛化层次的告警关联与收敛 219
7.4.5 基于根因分析的告警关联与收敛 224
7.5 小结 226
第8 章金融领域的应用场景 228
8.1 量化交易概述 229
8.1.1 数据230
8.1.2 因子 230
8.1.3 回测 231
8.2 因子特征工程 231
8.3 资产定价 234
8.4 资产配置 241
8.5 波动率预测 243
8.6 小结 245
参考文献 246
|
內容試閱:
|
编写背景
当今时代,数据无处不在,我们在互联网、经济、金融、气象等诸多领域都能见到时间序列数据的身影。有效分析这些随时间变化的数据样本,提炼有价值的信息,不仅有助于企业和机构的决策优化,而且对科学研究和技术创新具有重要意义。近年来,由于数据量的增加、计算能力的提升、学习算法的成熟以及应用场景的多样化,人工智能技术(如机器学习)逐渐普及并取得了显著的成果,越来越多的人开始关注这个充满潜力的研究领域。ChatGPT等大语言模型亦掀起一波新的人工智能热潮。正因如此,我们决定着手编写一本关于时间序列分析与机器学习的图书,希望它能作为广大读者的理论指南和实践参考。我们在腾讯工作期间相识,参与过许多一线机器学习项目,其中不少与时间序列相关,如异常检测、预测、根因定位等。我们在工作之余总结了不少这方面的技术帖子,陆续发表在知乎(数学人生/曲奇)上,访问量颇高。电子工业出版社的张爽老师联系到我们,希望能够将帖子编写成书,并给予了很多意见,在此感谢她的支持。尽管如此,我们仍然低估了编写图书所面临的困难。一方面,机器学习和深度学习技术的发展非常迅速,我们的认知也在提升和更新,担心写作的内容是否已经过时。另一方面,由于日常工作相当繁重,我们很难抽出连续的时间全身心地专注于写作。因此,本书的创作是颇为艰辛的。
国内外已出版了许多关于时间序列分析和机器学习的图书,它们各自都支撑起一个庞大的学科,与诸多经典图书比起来,本书显得颇为拙劣。理想中,著书立说的前提是要构建起一个完整的知识体系,该体系能容纳新老技术。我们希望能够借助自身的经验和专业知识,对这一领域进行系统的梳理和总结。写作本书的过程也促使我们更加深入地理解时间序列分析和机器学习。
内容概要
本书内容由8 章组成。
第1 章“时间序列概述”:介绍时间序列分析的基础知识、发展历程、应用现状、分类及其与其他领域(如自然语言处理、计算机视觉等)的关联。
第2 章“时间序列的信息提取”:介绍特征工程的核心概念及其在时间序列分析中的应用,比如对原始数据进行归一化、缺失值填充等转换;以及如何通过特征工程从时间序列数据中提取有用的特征,例如时间序列的统计特征、熵特征和降维特征等,以及如何判断时间序列的单调性。
第3 章“时间序列预测”:介绍常用的时间序列预测方法,包括自回归模型、移动平均模型、自回归差分移动平均模型、指数平滑方法、Prophet,以及神经网络,例如循环神经网络、长短期记忆网络、Transformer、Informer 等。
第4 章“时间序列异常检测”:介绍时间序列异常检测算法的技术与框架,如何识别异常的时间点,包括基于概率密度的方法(如3-Sigma、核密度估计)、基于重构的方法(如变分自编码器、Donut)、基于距离的方法(如孤立森林、RRCF)、基于有监督的方法和基于弱监督的方法等。
第5 章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;聚类算法,如K-Means、DBSCAN等,可以将相似的时间序列分组,以便进一步理解时间序列数据中的结构和模式。
第6 章“多维时间序列”:介绍多维时间序列在广告分析和业务运维领域的应用,包括如何利用OLAP 技术对多维时间序列进行有效处理,以及如何通过根因分析技术获得导致故障的维度和元素,包括基于时间序列异常检测算法的根因分析、基于熵的根因分析、基于树模型的根因分析、规则学习等。
第7 章“智能运维的应用场景”:介绍智能运维领域的应用,包括指标监控、容量预估、弹性伸缩、告警关联、告警收敛和告警系统评估等,以及监控中出现的节假日效应、持续异常等实际情况。
第8 章“金融领域的应用场景”:介绍量化交易的概念、发展历程,如何通过因子挖掘从时间序列数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。
读者定位
本书主要面向以下四类读者群体。
机器学习领域的研究人员
针对机器学习领域的研究人员,本书将深入探讨时间序列相关的各种技术。你将了解到如何将这些技术应用于实际问题中,并且能够深入理解这些方法的工作原理和优劣之处。本书中还引用了大量的参考文献,其中不少来自计算机领域顶级会议,适合作为扩展阅读材料。
时间序列领域的研究人员
本书为时间序列领域的研究人员提供了一个全面的时间序列分析和预测的框架。你将找到最新的研究成果和趋势,以及深入的理论分析。同时,你将看到如何将时间序列方法应用到各种真实场景中,如金融、运维等领域。
工业界从业者
针对工业界的从业者,本书将提供实用的工具和技术,以帮助你更好地处理时间序列数据。你将学习到如何使用不同的模型和算法来预测未来、检测异常、进行聚类等。本书中包含大量的示例和案例研究,可以让你快速地掌握这些技术,并将其应用到你的工作中。
未来想从事时间序列研究的高年级本科生和研究生
本书也适合想要进入时间序列研究领域的高年级本科生和研究生。本书从基础概念开始学习,逐渐深入更复杂的主题,内容深入浅出,实例丰富,可以帮助你理解和掌握时间序列分析的基本技能,并激发你对这个领域的学习和研究兴趣。
总的来说,无论你是初学者,还是有经验的专业人士,本书都将为你提供有价值的知识。我们希望本书能够激发你学习时间序列分析和机器学习的热情,引导你探索这个充满挑战和机会的领域。
|
|