新書推薦:
《
史铁生:听风八百遍,才知是人间(2)
》
售價:HK$
55.8
《
量子网络的构建与应用
》
售價:HK$
109.8
《
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
》
售價:HK$
109.8
《
大唐名城:长安风华冠天下
》
售價:HK$
87.4
《
情绪传染(当代西方社会心理学名著译丛)
》
售價:HK$
88.5
《
中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版
》
售價:HK$
236.0
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:HK$
93.2
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:HK$
337.5
編輯推薦:
学科领域资深教授、长江学者联名推荐;知识关联下的科学规律发现和未来预测;开启大数据驱动下的大知识时代之门
內容簡介:
本研究在梳理知识演化、知识生命周期等知识进化理论和思想的基础上,介绍了引文网络、Meta-path、PageRank等网络分析理论和方法,阐述了Word2vec、Doc2vec、Node2vec等深度表示学习模型以及ARIMA、SVM等时间序列模型,以期为科学主题的演化和热度预测提供理论基础和方法支撑;以生物医学与生命科学领域PubMed Central数据全集为例,基于知识图谱技术构建了一种面向计量相关研究和应用的垂直领域知识图谱——计量知识图谱;创新计量指标,计算计量实体的热度,用热度值反应主题所处的演化状态;采用一系列深度学习等方法挖掘科学主题在计量知识图谱中的特征,分析科学主题的演化规律;基于SVM、ARIMA、LSTM等一系列时间序列模型构建学科主题预测模型,优化、验证模型,并进行应用研究。读者对象:高等学校信息科学、情报学、信息管理等相关专业的学生,以及从事科技情报、知识管理、知识服务的实际工作者
關於作者:
霍朝光,武汉大学与Indiana University Bloomington联合培养博士,中国人民大学“杰出学者支持计划”青年学者,中国人民大学信息资源管理学院讲师,主持国家自然科学基金项目“基于广度学习的学科主题演化预测研究”、中国博士后面上项目“基于动态知识图谱的学科主题演化预测研究”,参与国家自科重大研究计划、国际合作、地区合作项目3项;发表国际SSCI核心以及国内权威CSSCI论文30余篇;主要研究方向: 科学学预测、知识图谱、文本挖掘、图挖掘等。
目錄 :
章绪论1
1.1研究背景与意义1
1.1.1研究背景1
1.1.2研究意义5
1.2国内外研究现状6
1.2.1主题模型研究6
1.2.2主题演化研究7
1.2.3主题预测研究9
1.2.4知识图谱11
1.2.5表示学习13
1.2.6现状述评19
1.3研究内容与方法20
1.3.1目标与内容20
1.3.2研究方法26
1.3.3研究难点28
1.4研究贡献29
第二章理论基础31
2.1知识进化论31
2.1.1知识演化32
2.1.2知识生命周期33
2.2网络分析理论与方法34
2.2.1引文网络34
2.2.2Metapath35
2.2.3PageRank38
2.3深度表示学习模型40
2.3.1Word2vec模型41
2.3.2Doc2vec模型44
2.3.3Node2vec模型46
2.4时间序列模型49
2.4.1ARIMA模型49
2.4.2支持向量机模型50
第三章知识图谱构建53
3.1计量知识图谱内涵53
3.1.1计量知识图谱53
3.1.2动态计量知识图谱57
3.2计量实体与关系58
3.2.1数据下载58
3.2.2计量实体抽取59
3.2.3计量实体消歧62
3.2.4计量实体关系75
3.3MeSH中的实体与关系77
3.3.1MeSH知识库77
3.3.2MeSH解析78
3.4计量实体与MeSH实体关联84
3.4.1全文检索Lucene84
3.4.2基于pylucene的计量实体与MeSH实体关联85
3.5计量知识图谱时间划分与构建89
3.6本章小结95
第四章实体热度计算97
4.1热度计算98
4.1.1热度内涵98
4.1.2基于加权PageRank的热度计算方法100
4.2论文热度计算101
4.2.1论文热度内涵101
4.2.2基于PaperRank的论文热度计算102
4.3学科主题热度计算105
4.3.1学科主题热度内涵105
4.3.2学科主题引证网络构建106
4.3.3基于TopicRank的学科主题热度计算107
4.4作者热度计算112
4.4.1作者热度内涵112
4.4.2作者引证网络构建113
4.4.3基于AuthorRank的作者热度计算115
4.5期刊热度计算117
4.5.1期刊热度内涵117
4.5.2期刊引证网络构建118
4.5.3基于VenueRank的期刊热度计算120
4.6本章小结121
第五章学科主题演化分析123
5.1学科主题演化123
5.2学科主题分布126
5.2.1学科主题的总体分布情况126
5.2.2有副主题限定词的主题分布127
5.2.3无副主题限定词的主题分布127
5.3学科主题表示学习129
5.3.1基于网络结构的学科主题表示学习129
5.3.2基于文本内容的学科主题表示学习136
5.4学科主题聚类和演化分析139
5.4.1聚类方法概述与选取140
5.4.2基于Jaccard系数的相似度计算方法142
5.4.3Methods类主题演化规律144
5.4.4Drug effect类主题演化规律147
5.4.5Epidemiology类主题演化规律151
5.5本章小结155
第六章学科主题热度预测157
6.1学科主题热度预测157
6.2学科主题特征选择159
6.2.1池化模型159
6.2.2基于Node2vec和池化模型的学科主题特征选择162
6.3基于SVM的学科主题热度预测168
6.3.1问题描述169
6.3.2研究设计169
6.3.3结果分析172
6.4基于ARIMA和SVM的学科主题热度预测179
6.4.1问题描述179
6.4.2研究设计179
6.4.3结果分析181
6.5本章小结183
第七章总结与展望184
7.1研究总结184
7.2研究不足与展望186
附录A动态计量知识图谱187
附录B图表目录188
参考文献192
內容試閱 :
自20世纪50年代以来,科研产出与日俱增,新兴学科层出不穷,学科之间的体系结构愈发复杂。大数据时代,如何基于数据驱动、知识驱动双动力,创新科学预测模式,已经成为情报学、信息科学、管理学等研究的重要命题之一。尤其是如何从海量文献数据中识别学科主题的演化模式和演化规律,并用以指导科学知识发现,预见学科之美,更是情报学研究的重中之重。
学科主题演化是指以词语为表征的学科主题在时间维度上的发展变化和新陈代谢过程,不仅包括学科主题随着时间的发展自身状态的演化,还包括学科主题同其他实体之间关系的演化,即学科主题状态演化和学科主题关系演化。其中学科主题状态演化强调学科主题经历的产生、发展、成熟、衰退、灭亡等生命过程,代表着新旧知识的更替;学科主题关系演化强调学科主题之间扩散、引进、迁徙、合并、分裂、收缩等关系变化,代表了知识的交叉融合。
学科主题演化分析强调对学科主题历史演化路径和演化模式的解析,学科主题预测强调对学科主题未来变化情况和变化趋势的预测,基于这两个研究视角,本书构建了计量知识图谱,在现有大型知识库的基础上融合了文献大数据,通过知识关联、数据关联的形式,提升对学科主题演化规律的解析和热度的预测,主要贡献在于:
1. 在同名作者消歧方面,本书抓住生物医学与生命科学领域作者研究比较集中的特点,提出采用Doc2vec深度表示学习方法对作者的名字、文章题目、关键词、摘要、引文、合作者、邮箱、国家、位置、职称以及机构等附属信息进行特征学习,根据作者姓名出现的频次将姓名分为9个档次,在特征学习基础上利用支持向量机方法分别进行消歧,有效规避了利用作者邮箱、作者机构进行姓名消歧的弊端和不足,同时该方法通过简洁有效的特征学习进行机器学习模型训练,提升了消歧的效率。
2. 构建了动态计量知识图谱。本书在梳理知识地图、概念地图、科学知识图谱、知识网络、多模知识网络等概念的基础上,明确计量知识图谱是一种基于知识图谱技术的面向计量相关研究和应用的垂直领域知识图谱。以生物医学与生命科学领域PMC的全部数据为例,解析MeSH知识库,完成计量相关实体的抽取、消歧等,利用lucene信息检索技术将计量实体与MeSH关联在一起,构建了新型的包含34个时间片的动态计量知识图谱。从理论上拓展了以往的科学知识图谱研究,将文献计量研究从一模网络、二模网络、异构网络等拓展到知识图谱层面,其丰富的实体和复杂的关系更完整、更有效地表征了计量研究中存在的真实复杂情况,进一步丰富了领域知识图谱。通过借鉴信息检索技术来构建实体关联,能够有效提升知识图谱的构建效率,促进计量领域相关知识图谱的构建,促进计量分析。
3. 在动态计量知识图谱基础上,整合学科主题的网络结构特征和内容特征进行演化分析。本书在具有34个时间片的动态计量知识图谱基础上,面向主题分别利用Node2vec和Doc2vec对计量知识图谱中主题节点在每个时间片上的网络结构和文本内容进行深度表示学习,有效整合了主题在计量知识图谱中的网络结构特征和内容特征,增强了主题之间的语义关联和结构关联,促进主题挖掘中对语义信息的利用,同时在复杂的知识图谱背景中,对稀疏多维的主题节点进行表示并分析,能够更加有效地挖掘包含语义和结构关系的主题演化动态,以及主题集群之间的交叉融合情况。
4. 借助动态计量知识图谱挖掘主题演化过程的相关特征,辅助对学科主题热度的预测。本书在对动态计量知识图谱深度表示学习的基础上,借助Max pooling、Min pooling、Sum pooling等池化方法,挖掘学科主题的演化特征,并结合主题自身的演化时间序列,利用SVM、ARIMA等对学科主题热度进行预测,检验了动态计量知识图谱相对于静态计量知识图谱对主题热度预测的优势,以及特征对主题热度预测的作用。
本书系在我的博士论文基础上完成的,感谢我的导师武汉大学马费成教授的指导,马老师在我的科研道路上循序善诱、解疑答惑、一丝不苟、精益求精、草木恩泽,细心指导我的科研发展和人生规划,感谢我的人生导师马老师。感谢印第安纳大学布鲁明顿校区(Indiana University Bloomington)刘晓钟教授在访学期间的支持和对本研究的大力指导,感谢陆伟教授、孙建军教授、夏立新教授、查先进教授等给予本研究的大量修改建议。感谢南京大学张斌副教授、武汉大学董克副教授等在前期研究中给予的宝贵建议,感谢司湘云博士、戴怡清硕士在作者姓名消歧时做出的标注等工作。在课题研究过程,尤其是本书成稿过程中,参考了许多学者的论著,他们的成果为本书提供了丰富的素材和理论支撑,书中都以参考文献的形式进行了标注,如有不慎遗漏,亦表示特别的歉意。
本成果受到中国人民大学2021年度“中央高校建设世界一流大学(学科)和特色发展引导专项资金”支持。
霍朝光2021年9月于中国人民大学