新書推薦:
《
设计中的比例密码:建筑与室内设计
》
售價:HK$
87.4
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:HK$
55.8
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:HK$
76.2
《
汗青堂丛书144·决战地中海
》
售價:HK$
168.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:HK$
54.9
《
唐代冠服图志(百余幅手绘插画 图解唐代各类冠服 涵盖帝后 群臣 女官 士庶 军卫等 展现唐代社会风貌)
》
售價:HK$
87.4
《
知宋·宋代之科举
》
售價:HK$
99.7
《
那本书是(吉竹伸介与又吉直树 天才联动!)
》
售價:HK$
99.7
|
編輯推薦: |
通过18个视角的预训练语言模型演进过程的思维导图展示和1000多个预训练语言模型的全方位归纳总结,带领读者深入了解金融领域知识增强大模型的应用实战全过程,助力金融科技新基建产业化落地,帮助金融从业者加快推进金融行业数字化转型。
|
內容簡介: |
本书在全面概述预训练语言模型演进过程并对BERTology模型详尽综述的基础上,将深度学习预训练模型理论和金融行业实践相结合,介绍了深度学习预训练模型在人工智能产业、金融行业、金融科技领域的实战项目案例,专注于金融文本情绪分类典型应用场景,揭示出特定领域预训练模型潜在的一般规律。全书共分7章,分别为: 预训练模型与金融文本情绪分类任务、预训练语言模型关键技术、面向中文金融文本情绪分类的预训练模型对比、FinWoBERT: 中文金融领域增强预训练模型、GANFinWoBERT: 对抗训练的中文金融预训练模型、FinWoBERT ConvLSTM: 基于投资者情绪权重的科创50指数预测、总结与展望,每章内容随项目实践的深入层层递进、逐步展开。 本书适合自然语言处理、金融科技领域的研究人员和技术人员,高等学校或培训机构教师和学生以及有意了解相关领域的学习者和爱好者阅读。
|
目錄:
|
第1章预训练模型与金融文本情绪分类任务
1.1金融文本情绪分类任务的挑战
1.2发展现状与任务意义
1.2.1预训练模型发展现状
1.2.2金融文本情绪分类任务意义
1.3情绪分类
1.3.1文本情绪分类
1.3.2金融文本情绪分类
1.3.3基于非预训练模型情绪分类的证券市场分析
1.4预训练语言模型
1.4.1预训练语言模型的演进
1.4.2基于BERTology扩展的预训练模型
1.5基于预训练模型的金融文本情绪分类任务
1.5.1金融文本情绪分类预训练模型
1.5.2基于预训练模型情绪分类的证券市场分析
第2章预训练语言模型关键技术
2.1预训练方法
2.2上下文感知的语言表征学习
2.3高效的特征提取器
2.3.1神经注意力机制
2.3.2序列到序列的注意力模型
2.3.3变换器模型
2.3.4“Xformer”改进模型
2.4自监督学习
2.5迁移学习技巧方法
2.6BERT预训练语言模型
小结
第3章面向中文金融文本情绪分类的预训练模型对比
3.1模型对比目的
3.2项目技术原理
3.3对比实现方法
3.4标准流程步骤
3.5自建(评测)标注语料库
3.6数据集划分
3.7描述统计分析
3.7.1语料库统计量描述
3.7.2训练集和测试集统计量描述
3.7.3统计分析
3.8对比模型
3.9模型实现
3.10运行环境
3.11模型加载
3.12微调策略
3.12.1情绪分类任务微调
3.12.2分类器超参数调试
3.13数据预处理
3.13.1数据读取、转换和清洗
3.13.2分词、填充和其他
3.14评估指标
3.14.1混淆矩阵
3.14.2准确度、精确度、召回度和F1分数
3.14.3损失值
3.15模型评测
3.16输出过程
3.17结果汇总
3.18模型对比项目结论
小结
第4章FinWoBERT: 中文金融领域增强预训练模型
4.1领域增强目的
4.2领域增强原理
4.3领域增强实现方法
4.4领域增强操作步骤
4.5自建(预训练)未标注词库
4.6自建(预训练)未标注语料库
4.7描述统计分析
4.7.1未标注词库统计量描述
4.7.2未标注语料库统计量描述
4.7.3未标注语料库与标注语料库的TFIDF
4.7.4统计分析
4.8定义FinWoBERT模型
4.9建立FinWoBERT模型
4.10训练FinWoBERT模型
4.11领域后训练和领域微调策略
4.12评估FinWoBERT模型
4.13评测结果汇总
4.14领域增强项目结论
小结
第5章GANFinWoBERT: 对抗训练的中文金融预训练模型
5.1对抗训练目的
5.2对抗训练原理
5.3对抗训练实现方法
5.4定义GANFinWoBERT模型
5.5建立GANFinWoBERT模型
5.6训练GANFinWoBERT模型
5.7对抗训练项目结论
小结
第6章FinWoBERT ConvLSTM: 基于投资者情绪权重的科创50指数预测
6.1预测实战设计
6.2数据准备
6.2.1行情数据集
6.2.2评论数据集
6.3定义预测模型
6.4情绪权重
6.4.1情绪分类
6.4.2权重计算
6.5预测模型评估指标
6.6预测实验结果对比
6.7预测实战项目结论
小结
第7章总结与展望
7.1我们学到了什么
7.2未来的方向
附录A语料库/词库样本示例
参考文献
|
內容試閱:
|
本书以深度学习预训练模型为基础,详尽介绍了中文金融文本情绪分类任务的人工智能工程项目实战案例。首先,本书介绍了金融领域中文自然语言处理的前沿技术,全面概述了预训练语言模型的演进过程,并对BERTology模型进行了详尽的文献综述。其次,本书阐述了从如何在如此众多的已预训练模型中选择适合目标域数据的模型,到真实地训练一个金融领域知识增强模型,再到通过对抗训练提升模型,最终在金融科技中的实际应用。虽然全书专注于金融文本情绪分类任务和数据,但本书揭示出了所有特定领域预训练模型潜在的一般规律,也就是说,仔细阅读完本书,读者可以建立任何一个特定领域的预训练模型,如医学、法律,等等。书中介绍了当前最实用的预训练模型程序代码,读者将知道如何利用它们来创建、微调、提升、评测一个特定领域预训练模型,从而设计出有效的策略。在有关基于预训练模型情绪分类的证券市场价格预测研究中,深入分析了预训练模型在金融领域的实际应用,让理论和实践紧密结合。
本书主要内容
本书的主要内容和章节安排大致如下。
第1章为预训练模型与金融文本情绪分类任务,阐述金融文本情绪分类任务的挑战、预训练模型发展现状及金融文本情绪分类任务意义,并对情绪分类、预训练语言模型和基于预训练模型的金融文本情绪分类任务的前人研究分别进行了综述。
第2章为预训练语言模型关键技术,用简洁的文字和理性的数学公式,在深度学习技术核心思想层面和统计学计算层面对预训练语言模型进行解读,并讲述了BERT预训练语言模型原理。
第3章为面向中文金融文本情绪分类的预训练模型对比,采用已预训练的权重和已标注的自建真实中文金融文本情绪分类语料库,对已发表的预训练语言模型的预测准确度进行横向对比,并分析结果找出模型中的内因。
第4章为FinWoBERT: 中文金融领域增强预训练模型的建立、训练和评测过程,通过未标注的金融词库和语料库的学习,改变WoBERT模型的领域偏差,对注入金融领域知识后的预训练模型进行评估,执行中文金融文本情绪分类任务,并与已发表的预训练语言模型进行比较。
第5章为GANFinWoBERT: 对抗训练的中文金融预训练模型,将未标注的语料库划分出一些对抗样本,在FinWoBERT预训练模型的训练过程中采用对抗训练的方法,对词嵌入添加扰动,提高模型应对对抗样本的鲁棒性; 同时可以作为一种正则化,减少过拟合,提高泛化能力。
第6章为FinWoBERT ConvLSTM: 基于投资者情绪权重的科创50指数预测,结合股票市场来验证预训练模型对金融文本情绪分类的效果。
第7章为总结与展望,根据本书前几章的分析内容,得出研究结论,提出新的研究方向和研究建议。
其中,第3~6章存在逻辑递进关系,第3~5章都是探究性项目,第6章是验证性项目。本书的基本框架如图0.1所示。
图0.1本书基本框架
本书技术路线
本书在前人对中文金融文本情绪分类相关方法手段的基础上,以预训练语言模型为基础,从中文自然语言处理视角,建立基于预训练模型的中文金融文本情绪分类的研究思路,采用深度预训练语言模型的一般步骤: 载入数据、定义模型、编译模型、拟合模型、评估模型、预测验证、保存模型、调试模型,先对已发表的预训练语言模型进行对比,再提出改进的特定领域的预训练语言模型,并与前人已发表的模型进行比较,分别得出研究结论。最后,回顾全文,在总结分析的基础上,对未能突破的瓶颈给出研究建议。
本书综合运用面向自然语言处理的预训练和深度学习模型方法,跨越统计学、数学、信息科学与系统科学、计算机科学技术等多个学科的理论和实证方法。在研究过程中利用深度神经网络建模、模型推导、参数校准、数值模拟、数学计算、量化研究、数据分析等研究方法和手段。在统计自然语言模型、中文语言表征模型、深度学习模型的理论基础上,结合迁移学习、对抗学习、集成学习、Python人工智能编程、开源深度迁移学习框架云平台等前沿技术,研究中文金融文本情绪分类问题,既有对已发表的预训练语言模型的对比探讨,也有针对金融特定领域、特定任务的预训练语言模型的深入研究,为大数据自动化数字金融情景中的金融情绪分类深度学习方法、金融科技和监管科技运行下的人工智能运用提供了实践价值。
本书在以下几个方面有所创新。
(1) 真实公允的预训练语言模型比较。
虽然已经发表的预训练语言模型众多,而且很多模型都声称在国际基准(中文)公开语料库上取得了很不错的效果,但通常是在运用调参技巧(trick)、周密的数据清洗过程和精心挑选语料库测试样本下得到的,可能产生虚假统计(spurious statistics),同时鲜有文章在业界真实中文语料库上进行比较,而金融机器学习研究的重点是关注金融应用中机器学习方法的特定技术,关注真实世界的模型效果,而不是纯粹的理论方法,理论方法在纸面上看起来很漂亮,但在实践中的真实效果才是有意义的。
(2) 特定领域垂类预训练模型微创新。
本书借鉴以往研究方法的思路,使用了特定领域知识增强的预训练模型来研究中文金融文本情绪分类这一特定任务,对垂直领域预训练模型进行微创新,在自建标注语料库上取得了比已发表模型更佳的准确度、精确度、召回度、宏平均和微平均F1分数。
(3) 改进的金融领域预训练模型情绪分类在股票指数预测的应用创新。
传统金融情绪指数构建主要依赖于基于词典、简单的机器学习,也有少数文献使用预训练BERT模型,然而在现有文献中尚未发现使用金融特定领域预训练模型的。本书利用改进的已预训练中文金融文本情绪分类模型对投资者评论标题进行有效的分类,并赋予其一定的权值计算出一系列情绪权重数据,结合历史行情数据,实现了较低误差的时间序列预测,完成了金融领域预训练模型在金融市场中的验证。
读者对象
本书专注于采用预训练模型解决中文金融文本情绪分类问题,目标明确、特点鲜明、循序渐进、由浅入深,以预训练模型为主要研究内容、中文金融文本为应用领域、情绪分类为任务,探讨的关注点和创新的着眼点是方法和过程。本书适用人群包括:
□ 自然语言处理领域的研究人员和技术人员;
□ 金融科技领域的研究人员和技术人员;
□ 高等院校计算机科学与技术、软件工程、信息工程、数据科学、人工智能、统计学、应用数学、自动化、控制论、运筹学、金融学相关专业的教师和学生;
□ 有意了解预训练语言模型、金融文本情绪分类、BERTology的学习者和爱好者。
阅读门槛
阅读本书,应具备如下基础知识。
□ 深度学习相关基础理论知识;
□ 深度学习框架PyTorch、TensorFlow、PaddlePaddle的Python编程。
阅读帮助
如果读者从未了解或不熟悉文本情绪分类、金融文本情绪分类、基于非预训练模型情绪分类的证券市场分析,请务必阅读1.3节。
如果读者从未了解或不熟悉预训练语言模型和BERTology,请务必阅读1.4节。
如果读者已经了解文本情绪分类和预训练语言模型,第1章可以略读或跳读。
配套资源
为便于教与学,本书配有微课视频(120分钟)、源代码、教学课件。
(1) 获取微课视频方式: 读者可以先刮开并扫描本书封底的文泉云盘防盗码,再扫描书中相应的视频二维码,观看视频。
(2) 获取彩色插图(PNG格式文件)和源代码(PY格式文件)的方式: 读者可以先刮开、扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。
彩色插图(PNG格式文件)
源代码(PY格式文件)
(3) 其他配套资源可以扫描本书封底的“书圈”二维码,关注后回复本书书号即可下载。
本书作者在编写过程中,参考了诸多相关资料,在此对相关资料的作者表示衷心的感谢。限于个人水平和时间仓促,书中难免存在疏漏之处,欢迎广大读者批评指正。
作者
2022年5月
|
|