新書推薦:
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:HK$
93.2
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:HK$
337.5
《
大国脊梁:漫画版
》
售價:HK$
80.2
《
跟着渤海小吏读历史:大唐气象(全三册)
》
售價:HK$
189.0
《
心智的构建:大脑如何创造我们的精神世界
》
售價:HK$
81.4
《
美国小史(揭秘“美国何以成为美国”,理解美国的经典入门读物)
》
售價:HK$
81.4
《
中国古代北方民族史丛书——东胡史
》
售價:HK$
87.8
《
巨人传(插图珍藏本)
》
售價:HK$
705.6
編輯推薦:
知识图谱方法。系统阐述知识图谱的发展历史与基本概念,梳理知识图谱全生命周期技术,建立方法论思维。
知识图谱实践。囊括知识表示与建模、知识存储、知识抽取与挖掘、知识融合、知识推理、语义搜索、知识问答等,系统性介绍知识图谱技术。各章节提供典型开源工具实践案例,提供相关工具、实验数据及完整的操作说明。
知识图谱应用。结合电商、图情、生活娱乐、企业商业、创投、中医临床、金融等实际应用场景,详细介绍领域知识图谱的构建方法。
內容簡介:
知识图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。本书系统地介绍知识图谱涉及的关键技术,如知识建模、关系抽取、图存储、自动推理、图谱表示学习、语义搜索、知识问答、图挖掘分析等。此外,本书还尝试将学术前沿和实战结合,让读者在掌握实际应用能力的同时对前沿技术发展有所了解。本书既适合计算机和人工智能相关的研究人员阅读,又适合在企业一线从事技术和应用开发的人员学习,还可作为高等院校计算机或人工智能专业师生的参考教材。
關於作者:
王昊奋,上海交通大学计算机博士。中文知识图谱zhishi.me创始人、OpenKG发起人之一、CCF理事、CCF术语审定工委主任、CCF TF执委、中文信息学会语言与知识计算专委会副秘书长、上海交通大学校友会AI分会秘书长。在知识图谱、问答系统和聊天机器人等诸多领域有丰富的研发经验。
漆桂林,东南大学计算机学院教授、东南大学认知智能研究所所长、南京柯基数据科技有限公司首席科学家、OpenKG发起人之一、中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任、爱思唯尔(Elsevier)数据管理顾问委员会顾问、国际期刊 Journal of Data Intelligence 执行主编。科研成果在电力故障智能检测和知识推送、医药知识问答及网络安全态势感知系统等领域得到了实际应用。
陈华钧,浙江大学计算机科学与技术学院教授。浙江大学阿里巴巴知识引擎联合实验室负责人、浙江省大数据智能计算重点实验室副主任、中国人工智能学会知识工程与分布智能专业委员会副主任委员、中国中文信息学会语言与知识计算专业委员会副主任委员、OpenKG发起人。曾获国际语义网会议ISWC最佳论文奖。王昊奋,上海交通大学计算机博士。中文知识图谱zhishi.me创始人、OpenKG发起人之一、CCF理事、CCF术语审定工委主任、CCF TF执委、中文信息学会语言与知识计算专委会副秘书长、上海交通大学校友会AI分会秘书长。在知识图谱、问答系统和聊天机器人等诸多领域有丰富的研发经验。
漆桂林,东南大学计算机学院教授、东南大学认知智能研究所所长、南京柯基数据科技有限公司首席科学家、OpenKG发起人之一、中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任、爱思唯尔(Elsevier)数据管理顾问委员会顾问、国际期刊 Journal of Data Intelligence 执行主编。科研成果在电力故障智能检测和知识推送、医药知识问答及网络安全态势感知系统等领域得到了实际应用。
陈华钧,浙江大学计算机科学与技术学院教授。浙江大学阿里巴巴知识引擎联合实验室负责人、浙江省大数据智能计算重点实验室副主任、中国人工智能学会知识工程与分布智能专业委员会副主任委员、中国中文信息学会语言与知识计算专业委员会副主任委员、OpenKG发起人。曾获国际语义网会议ISWC最佳论文奖。
目錄 :
第1章知识图谱概述1
1.1什么是知识图谱1
1.2知识图谱的发展历史2
1.3知识图谱的价值5
1.4国内外典型的知识图谱项目9
1.4.1早期的知识库项目9
1.4.2互联网时代的知识图谱9
1.4.3中文开放知识图谱12
1.4.4垂直领域知识图谱13
1.5知识图谱的技术流程15
1.6知识图谱的相关技术19
1.6.1知识图谱与数据库系统19
1.6.2知识图谱与智能问答23
1.6.3知识图谱与机器推理25
1.6.4知识图谱与推荐系统28
1.6.5区块链与去中心化的知识图谱29
1.7本章小结30
参考文献31
第2章知识图谱表示与建模40
2.1什么是知识表示40
2.2人工智能早期的知识表示方法43
2.2.1一阶谓词逻辑43
2.2.2霍恩子句和霍恩逻辑43
2.2.3语义网络44
2.2.4框架45
2.2.5描述逻辑47
2.3互联网时代的语义网知识表示框架48
2.3.1RDF和RDFS48
2.3.2OWL和OWL2 Fragments53
2.3.3知识图谱查询语言的表示59
2.3.4语义Markup表示语言62
2.4常见开放域知识图谱的知识表示方法64
2.4.1Freebase64
2.4.2Wikidata65
2.4.3ConceptNet566
2.5知识图谱的向量表示方法68
2.5.1知识图谱表示的挑战68
2.5.2词的向量表示方法68
2.5.3知识图谱嵌入的概念71
2.5.4知识图谱嵌入的优点72
2.5.5知识图谱嵌入的主要方法72
2.5.6知识图谱嵌入的应用75
2.6开源工具实践:基于Protg的本体知识建模77
2.6.1简介77
2.6.2环境准备78
2.6.3Protg实践主要功能演示78
2.7本章小结80
参考文献80
第3章知识存储82
3.1 知识图谱数据库基本知识82
3.1.1 知识图谱数据模型82
3.1.2 知识图谱查询语言85
3.2常见知识图谱存储方法91
3.2.1基于关系数据库的存储方案91
3.2.2 面向RDF的三元组数据库101
3.2.3原生图数据库115
3.2.4 知识图谱数据库比较120
3.3 知识存储关键技术121
3.3.1 知识图谱数据库的存储:以Neo4j为例121
3.3.2 知识图谱数据库的索引124
3.4开源工具实践126
3.4.1三元组数据库Apache Jena126
3.4.2Tutorial:面向RDF的三元组数据库gStore128
参考文献131
第4章知识抽取与知识挖掘133
4.1知识抽取任务及相关竞赛133
4.1.1知识抽取任务定义133
4.1.2知识抽取相关竞赛134
4.2面向非结构化数据的知识抽取136
4.2.1实体抽取137
4.2.2关系抽取142
4.2.3事件抽取150
4.3面向结构化数据的知识抽取154
4.3.1直接映射154
4.3.2R2RML156
4.3.3相关工具159
4.4面向半结构化数据的知识抽取161
4.4.1面向百科类数据的知识抽取161
4.4.2面向Web网页的知识抽取165
4.5知识挖掘168
4.5.1知识内容挖掘:实体链接168
4.5.2知识结构挖掘:规则挖掘174
4.6开源工具实践:基于DeepDive的关系抽取实践178
4.6.1开源工具的技术架构178
4.6.2其他类似工具180
参考文献180
第5章知识图谱的融合184
5.1什么是知识图谱融合184
5.2知识图谱中的异构问题185
5.2.1语言层不匹配186
5.2.2模型层不匹配187
5.3本体概念层的融合方法与技术190
5.3.1本体映射与本体集成190
5.3.2本体映射分类192
5.3.3本体映射方法和工具195
5.3.4本体映射管理232
5.3.5本体映射应用235
5.4实例层的融合与匹配236
5.4.1知识图谱中的实例匹配问题分析236
5.4.2基于快速相似度计算的实例匹配方法240
5.4.3基于规则的实例匹配方法241
5.4.4基于分治的实例匹配方法244
5.4.5基于学习的实例匹配方法260
5.4.6实例匹配中的分布式并行处理266
5.5开源工具实践:实体关系发现框架LIMES266
5.5.1简介266
5.5.2开源工具的技术架构267
5.5.3其他类似工具269
5.6本章小结269
参考文献270
第6章知识图谱推理279
6.1推理概述279
6.1.1什么是推理279
6.1.2面向知识图谱的推理282
6.2基于演绎的知识图谱推理283
6.2.1本体推理283
6.2.2基于逻辑编程的推理方法288
6.2.3基于查询重写的方法295
6.2.4基于产生式规则的方法301
6.3基于归纳的知识图谱推理306
6.3.1基于图结构的推理306
6.3.2基于规则学习的推理313
6.3.3基于表示学习的推理318
6.4知识图谱推理新进展324
6.4.1时序预测推理324
6.4.2基于强化学习的知识图谱推理325
6.4.3基于元学习的少样本知识图谱推理326
6.4.4图神经网络与知识图谱推理326
6.5开源工具实践:基于Jena和Drools的知识推理实践327
6.5.1开源工具简介327
6.5.2开源工具的技术架构327
6.5.3开发软件版本及其下载地址328
6.5.4基于Jena的知识推理实践328
6.5.5基于Drools的知识推理实践329
6.6本章小结329
参考文献330
第7章语义搜索334
7.1语义搜索简介334
7.2结构化的查询语言336
7.2.1数据查询338
7.2.2数据插入341
7.2.3数据删除341
7.3语义数据搜索342
7.4语义搜索的交互范式348
7.4.1基于关键词的知识图谱语义搜索方法348
7.4.2基于分面的知识图谱语义搜索350
7.4.3基于表示学习的知识图谱语义搜索352
7.5开源工具实践355
7.5.1 功能介绍355
7.5.2环境搭建及数据准备357
7.5.3数据准备357
7.5.4导入Elasticsearch360
7.5.5功能实现 views.py361
7.5.6执行查询363
参考文献364
第8章知识问答366
8.1知识问答概述366
8.1.1知识问答的基本要素366
8.1.2知识问答的相关工作367
8.1.3知识问答应用场景369
8.2知识问答的分类体系371
8.2.1问题类型与答案类型371
8.2.2知识库类型374
8.2.3智能体类型375
8.3知识问答系统376
8.3.1NLIDB:早期的问答系统376
8.3.2IRQA:基于信息检索的问答系统380
8.3.3KBQA :基于知识库的问答系统380
8.3.4CommunityQAFAQ-QA:基于问答对匹配的问答系统381
8.3.5Hybrid QA Framework 混合问答系统框架382
8.4知识问答的评价方法386
8.4.1问答系统的评价指标386
8.4.2问答系统的评价数据集387
8.5KBQA前沿技术392
8.5.1KBQA面临的挑战392
8.5.2基于模板的方法394
8.5.3基于语义解析的方法398
8.5.4基于深度学习的传统问答模块优化401
8.5.5基于深度学习的端到端问答模型405
8.6开源工具实践406
8.6.1使用Elasticsearch搭建简单知识问答系统406
8.6.2基于gAnswer构建中英文知识问答系统410
8.7本章小结415
参考文献416
第9章知识图谱应用案例420
9.1领域知识图谱构建的技术流程420
9.1.1领域知识建模421
9.1.2知识存储422
9.1.3知识抽取422
9.1.4知识融合423
9.1.5知识计算423
9.1.6知识应用424
9.2领域知识图谱构建的基本方法425
9.2.1自顶向下的构建方法425
9.2.2自顶向下的构建方法426
9.3领域知识图谱的应用案例428
9.3.1电商知识图谱的构建与应用428
9.3.2图情知识图谱的构建与应用431
9.3.3生活娱乐知识图谱构建与应用:以美团为例435
9.3.4企业商业知识图谱的构建与应用440
9.3.5创投知识图谱的构建与应用443
9.3.6中医临床领域知识图谱的构建与应用448
9.3.7金融证券行业知识图谱应用实践452
9.4本章小结460
参考文献461
內容試閱 :
序
知识图谱是人工智能的一个分支,对可解释人工智能具有重要作用。近几年,随着知识表示和机器学习等技术的发展,知识图谱相关技术取得了突破性的进展,特别是知识图谱的构建、推理和计算技术以及知识服务技术,都得到了快速的发展。这些技术的进步使知识图谱在工业界受到了广泛关注,并取得了显著成果。谷歌、微软、百度等互联网公司率先构建了大规模通用知识图谱,提供基于实体和关系的语义搜索,可以更好地理解用户查询。知识图谱还在智能决策系统、推荐系统和智能问答系统中起到了重要作用。知识图谱不仅有巨大的应用价值,而且具有重要的理论价值。知识图谱使传统知识表示和推理技术有了落脚点,也为知识表示和推理带来了新的挑战。
本书系统介绍了知识图谱的理论、技术及应用。在理论方面,本书全面介绍了知识图谱的各种表示方法,以及知识图谱的推理方法,这些方法是知识图谱的根基。在技术方面,本书全面介绍了知识图谱的存储和查询技术、挖掘构建、知识融合技术,以及基于知识图谱的语义搜索和智能问答技术。在应用方面,本书全面地介绍了知识图谱在工业界的典型应用场景,为知识图谱的发展提供了养分。目前,关于知识图谱的专业书籍还比较缺乏,本书将给广大知识图谱研究人员和应用人员带来福音。
本书作者们都是在知识图谱的研究和产业应用方面有丰富经验的专家和学者,很好地融合了知识图谱的学术研究和产业化实践,相信本书的出版对于知识图谱技术的普及和发展会产生非常积极的作用。
前言
知识图谱的早期理念源于万维网之父Tim Berners-Lee关于语义网(The Semantic Web)的设想,旨在采用图结构(Graph Structure)来建模和记录世界万物之间的关联关系和知识,以便有效实现更加精准的对象级搜索。知识图谱的相关技术已经在搜索引擎、智能问答、语言理解、推荐计算、大数据决策分析等众多领域得到广泛的实际应用。近年来,随着自然语言处理、深度学习、图数据处理等众多领域的飞速发展,知识图谱在自动化知识获取、知识表示学习与推理、大规模图挖掘与分析等领域又取得了很多新进展。知识图谱已经成为实现认知层面的人工智能不可或缺的重要技术之一。
为什么写作本书
知识图谱是较为典型的交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。而知识图谱的构建及应用涉及更多细分领域的一系列关键技术,包括:知识建模、关系抽取、图存储、自动推理、图谱表示学习、语义搜索、智能问答、图计算分析等。做好知识图谱需要系统掌握和应用这些分属多个领域的技术。
本书写作的第一个目的是尽可能地梳理和组织好这些知识点,帮助读者系统掌握相关技术,能够从整体、全局和系统的视角看待和应用知识图谱技术。早期的知识图谱应用主要是谷歌、百度等公司的通用域搜索引擎,以及基于搜索延续发展出来的基于知识图谱的智能问答应用,如天猫精灵、小米小爱等。这类应用主要依靠通用领域的知识图谱,如百科类知识图谱。近年来,知识图谱在医疗、金融、安全等垂直领域深入发展,知识图谱的应用也进一步从通用领域向越来越多的垂直领域扩展。对于刚刚进入该领域的从业人员,更需要能从应用入手,开展知识图谱的研究与开发。
本书写作的第二个目的是希望能够为这些知识图谱应用开发人员提供一本参考型的工具书。因此,本书在章节最后安排了一个小节介绍相关技术点的常用开源工具,并在与本书配套的网站上提供了完整的实际操作教程。
近几年,随着人工智能的进一步发展,知识图谱在深度知识抽取、表示学习与机器推理、基于知识的可解释性人工智能、图谱挖掘与图神经网络等领域取得了一系列新的进展。本书写作的第三个目的是希望梳理和整理这些与知识图谱相关领域的最新进展,帮助读者了解它们的技术发展前沿。
关于本书作者
本书邀请了国内从事相关领域研究和开发的一线专家。三位主编都在语义网和知识图谱领域有着十余年的研究和开发经验,同时也是中文领域开放知识图谱OpenKG的发起人。每个章节由各细分技术领域的专家主持撰写,参与编写的编者既有来自国内高校从事相关学术研究的教师,也有来自企业拥有丰富实际开发经验的技术专家。
本书主要内容
本书共包括9章,主要内容如下:
第1章主要介绍知识图谱的基本概念、历史渊源、典型的知识图谱项目、技术要素以及核心应用价值。
第2章围绕知识表示与建模,首先介绍传统人工智能领域的典型知识表示方法,如谓词逻辑、描述逻辑、框架系统等,接下来重点介绍RDF、OWL等互联网时代的知识表示框架,此外还介绍知识图谱的向量表示方法等。最后以Protg为例介绍知识建模的具体实践过程。
第3章围绕知识存储,首先介绍知识图谱存储的主要特点和难点,然后介绍几种常用的知识图谱存储索引及存储技术,并对原生图数据库的技术原理进行简要介绍。此外,还概要介绍常用的图数据库,并以Apache Jena和gStore为例介绍知识图谱存储的具体实践过程。
第4章围绕知识抽取与知识挖掘,首先介绍从不同来源获取知识图谱数据的常用方法,然后重点围绕实体抽取、关系抽取和事件抽取等,对从文本中获取知识图谱数据的方法展开了较为具体的介绍。最后以DeepDive开源工具为例介绍关系抽取的具体实践过程。
第5章围绕知识图谱的融合,分别对概念层的融合和实体层的融合展开介绍,包括本体映射、语义映射技术、实体对齐、实体链接等。最后以LIMES开源工具为例介绍实体融合的具体实践过程。
第6章围绕知识图谱推理,首先介绍推理的基本概念,然后分别从基于演绎逻辑的知识图谱推理和基于归纳的知识图谱推理,对常用的知识图谱推理技术进行介绍。最后以Apache Jena和Drools等开源工具为例介绍知识图谱推理的具体实践过程。
第7章和第8章分别围绕语义搜索和知识问答展开,介绍语义索引、基于知识图谱的问答等系列技术,并以gAnswer等开源工具为例,介绍基于知识图谱实现精准搜索和问答的具体实践过程。
第9章为应用案例章节,作者挑选了电商、图情、生活娱乐、企业商业、创投、中医临床领域和金融证券行业7个应用案例,对知识图谱技术在不同领域的实现过程和应用方法展开介绍。
如何阅读本书
这是一本大厚书,读者应该怎样利用这本书呢?
在阅读此书前,读者应当学过数据库、机器学习及自然语言处理的基本知识。这本书的章节是依据知识图谱的相关技术点进行安排的。由于知识图谱涉及的技术面较多,我们建议刚进入知识图谱领域的读者分几遍阅读本书。
? 第一遍先通读全书,主要厘清基本概念,对涉及学术前沿的内容以及开源工具实践部分的内容可以只简单浏览。
? 第二遍重点针对每个章节后面的开源工具进行实践学习,通过上手操作加深对各技术点的理解。
? 第三遍针对各章中介绍的算法进行学习,并结合相关论文的阅读加深对算法的理解。在这个阶段可以挑选自己感兴趣的技术点进行深入研究。
在撰写本书时,编者考虑了各章节技术点的独立性,对知识图谱的某些技术已经有些了解的读者,可以不用严格按照书的章节顺序阅读,而是挑选自己感兴趣的章节进行学习。
致谢
本书是很多人共同努力的成果,在此感谢各位编者的共同努力。同时,在本书写作过程中,北京大学的邹磊,湖南大学的彭鹏,海知智能的袁熙昊、韩庐山、王燚鹏、孙胜男、郭玉婷,东南大学的吴桐桐、谭亦鸣、花云程、胡森,浙江大学的张文、王冠颖、王若旭、陈名杨、王梁、叶志权等人也提供了非常有价值的调研结果和修改意见,在此表示衷心的感谢。
在电子工业出版社博文视点宋亚东编辑的热情推动下,最终促成了我们与电子工业出版社的合作。在审稿过程中,他多次邀请专家对此书提出有益意见,对书稿的修改完善起到了重要作用。在此感谢电子工业出版社博文视点和宋亚东编辑对本书的重视,以及为本书出版所做的一切。
为推动中文领域开放知识图谱的发展,本书的作者们一致同意将部分稿酬捐赠给OpenKG。在此,也对参与本书的所有作者的无私奉献表示感谢。
由于作者水平有限,书中不足及错误之处在所难免。此外,由于知识图谱技术涉及面广,本书难免有所遗漏,敬请专家和读者给予批评指正。
作者
2019年7月