清华大学计算机科学与技术系教授孙茂松和研究所副所长李涓子合作编写。
本书以类脑模式的深度学习为基础,对自然语言处理的不同层面及其应用进行介绍。每一章内容均从任务定义、发展历程、意义和挑战、数据集与评测和典型模型与方法这几方面分别进行了阐述,通过结合各个实例为读者展示各部分技术的经典算法和相关问题的技术演化路径。
本分册以类脑模式的深度学习为基础,对自然语言处理的不同层面及其应用进行介绍。本分册共分为10章,第1章介绍了自然语言中不同语言单元(包括词、句子和篇章)的表示,并介绍了深度神经网络的注意力计算模型;第2章和第3章分别介绍了自然语言词法和句子的经典分析算法和深度学习模型;第4章介绍了知识图谱和从大规模文本中获取知识的主要技术;第5章和第6章重点介绍了文本挖掘技术,包括文本分类和摘要以及文本情感分析;第7章至第10章分别介绍了自然语言处理在信息检索、自动问答、机器翻译和社会计算中的应用技术。
孙茂松 教授,博导,清华大学计算机科学与技术系党委书记。研究领域:自然语言理解、中文信息处理、Web 智能和社会计算。主持国家J项目约20项,主持信息处理ISO国际标准 2项,发表论文130余篇,获国家发明专利4项。
李涓子 教授,清华大学计算机科学与技术系软件研究所副所长。研究领域:语义 Web, 语义 Web 服务;新闻与社会网络挖掘,主持多项国家自然基金项目,获网选新闻技术科技进步二等奖。
1 语言认知与表示模型/邱锡鹏 … 1
1.1 语言认知与语言表示的定义 … 3
1.2 研究语言认知与表示的意义与挑战 3
1.3 语言表示的模型与方法 … 3
1.3.1 词的表示 4
1.3.2 句子表示 6
1.3.3 篇章表示 … 10
1.3.4 注意力 10
1.4 基于预训练模型的语言表示 11
参考文献 … 12
2 词法分析/赵海 孙栩 张倬胜 张晓东 15
2.1 引言 … 17
2.1.1 词法分析的任务定义 17
2.1.2 词法分析的发展历程 19
2.1.3 词法分析的数据集和公开评测 21
2.1.4 分词的意义与挑战 … 24
2.2 中文分词 … 27
2.2.1 传统方法 … 27
2.2.2 深度学习方法 … 30
2.2.3 实验结果 … 34
2.3 命名实体识别 … 38
2.3.1 传统方法 … 38
2.3.2 深度学习方法 … 39
2.3.3 实验结果 … 42
2.4 词性标注 … 42
2.4.1 传统方法 … 42
2.4.2 深度学习方法 … 46
2.4.3 实验结果 … 48
2.5 应用 … 49
2.6 小结 … 50
参考文献 … 50
3 句法语义分析/车万翔 李正华 … 65
3.1 引言 … 67
3.2 任务定义 … 67
3.2.1 依存句法分析(树) … 67
3.2.2 语义角色标注 … 71
3.2.3 语义依存分析(图) … 72
3.2.4 其他语义表示方法 … 74
3.2.5 数据集 74
3.2.6 相关评测 … 79
3.3 序列标注 … 81
3.3.1 条件随机场 81
3.3.2 深度序列标注 … 82
3.3.3 语义角色标注 … 83
3.4 基于图的方法 … 84
3.4.1 基于图的依存句法分析方法 … 84
3.4.2 基于图的语义依存分析方法 … 88
3.5 基于转移的方法 … 89
3.5.1 基于转移的依存句法分析方法 89
3.5.2 基于转移的语义依存分析方法 91
3.6 句法语义分析的进展与挑战 92
3.6.1 半监督学习 92
3.6.2 主动学习 … 93
3.6.3 句法数据标注现状 … 95
3.6.4 迁移学习 … 100
3.7 句法语义分析的应用 … 102
3.7.1 作为抽取规则 … 102
3.7.2 作为输入特征 … 103
3.7.3 作为输入/ 输出结构 104
3.7.4 转换任务模式 … 104
3.8 小结 106
参考文献 … 106
4 知识图谱/刘知远 韩先培 119
4.1 引言 121
4.1.1 知识图谱技术 … 121
4.1.2 知识图谱发展历程 … 122
4.1.3 知识图谱研究的意义和挑战 … 124
4.2 典型的知识图谱 … 124
4.2.1 Freebase … 124
4.2.2 DBpedia … 126
4.2.3 Wikidata … 127
4.2.4 YAGO 128
4.2.5 HowNet … 129
4.2.6 其他知识图谱 … 129
4.3 知识表示学习 130
4.3.1 知识表示学习的概述 130
4.3.2 知识表示学习的主要特性 131
4.3.3 知识表示学习的主要方法 133
4.3.4 知识表示学习的主要挑战与已有解决方案 … 137
4.4 神经网络关系抽取 146
4.4.1 句子层关系抽取 146
4.4.2 篇章层关系抽取 150
4.5 知识图谱的应用 … 152
4.5.1 实体链接 … 152
4.5.2 实体检索 … 155
4.6 展望 159
参考文献 … 160
5 文本分类与自动文摘/黄民烈 邱锡鹏 姚金戈 … 169
5.1 文本分类 171
5.1.1 文本分类的定义 171
5.1.2 文本分类的研究意义与挑战 … 171
5.1.3 模型与方法 171
5.1.4 数据集与应用 … 187
5.2 自动文摘 189
5.2.1 自动文摘的任务定义 189
5.2.2 自动文摘的研究意义与挑战 … 189
5.2.3 自动文摘的模型与方法 … 190
5.2.4 数据集与应用 … 198
5.3 总结 200
参考文献 … 201
6 情感分析/张梅山 杨亮 桂林 唐都钰 215
6.1 情感分析的定义 … 217
6.1.1 情感与情绪 217
6.1.2 情感分析 … 217
6.1.3 新兴情感分析相关研究问题 … 218
6.2 情感分析的研究意义与挑战 219
6.2.1 情感分析的研究意义 219
6.2.2 情感分析的研究挑战 219
6.3 情感分析的模型与方法 220
6.3.1 词语的向量表示学习方法 220
6.3.2 句子级别情感分析 … 222
6.3.3 篇章情感分析 … 228
6.3.4 细粒度情感元素抽取与分析方法 … 230
6.3.5 情绪识别方法 … 237
6.3.6 文本情感原因发现方法 … 238
6.4 数据集 … 240
6.4.1 句子级和篇章级情感分析数据集 … 240
6.4.2 细粒度情感元素抽取与分析数据集 240
6.4.3 情绪识别数据集 242
6.4.4 情感原因发现数据集 242
6.5 总结 243
参考文献 … 243
7 信息检索与推荐的神经网络方法:前沿与挑战/罗成 何向南
刘奕群 张敏 … 251
7.1 信息检索基础 253
7.1.1 信息检索的系统架构 253
7.1.2 推荐系统架构 … 255
7.2 面向信息检索的神经网络技术 … 259
7.2.1 表示学习与词嵌入 … 259
7.2.2 神经网络技术在信息检索中的应用 261
7.2.3 基于神经网络的文档排序 262
7.2.4 基于神经网络技术的查询推荐 268
7.3 基于深度神经网络的信息检索模型 … 269
7.3.1 深度结构化语义模型(DSSM) 269
7.3.2 深度相关性匹配模型(DRMM) 271
7.3.3 平行嵌入空间模型(DESM) … 272
7.3.4 双表示模型(DUET) … 273
7.4 推荐模型与方法中的神经网络技术 … 274
7.4.1 基于深度学习的推荐模型 274
7.4.2 可解释性推荐 … 278
7.4.3 学科交叉融合 … 281
7.5 数据资源及评测 … 287
7.5.1 数据资源 … 287
7.5.2 信息检索主要数据资源及评测 287
7.5.3 推荐主要数据集及评测 … 288
参考文献 … 289
8 自动问答与机器阅读理解/刘康 299
8.1 引言 301
8.2 知识图谱问答 303
8.2.1 任务定义 … 303
8.2.2 知识图谱问答评测数据集 304
8.2.3 基于语义解析的知识库问答方法 … 310
8.2.4 基于深度学习的知识图谱问答方法 314
8.2.5 小结 … 322
8.3 机器阅读理解 323
8.3.1 任务定义 … 323
8.3.2 机器阅读理解公开评测数据集 325
8.3.3 传统基于特征工程的机器阅读理解方法 327
8.3.4 基于深度学习的文本阅读理解方法 330
8.3.5 基于深度学习阅读理解方法的优缺点 … 334
8.3.6 小结 … 335
8.4 总结 335
参考文献 … 336
9 机器翻译/苏劲松 黄书剑 肖桐 刘洋 347
9.1 机器翻译的定义 … 349
9.2 机器翻译的研究意义与挑战 349
9.3 模型与方法 … 351
9.3.1 基于统计的机器翻译 351
9.3.2 利用深度学习技术改进统计机器翻译 … 356
9.3.3 其他相关工作 … 366
9.3.4 端到端神经机器翻译 366
9.4 机器翻译的数据集与应用 … 383
9.4.1 机器翻译的常用数据集与评测 383
9.4.2 开源工具和商用系统 387
9.5 总结与展望 … 392
参考文献 … 392
10 深度学习在社会计算中的应用与进展/赵鑫 丁效 … 413
10.1 引言 415
10.2 用户画像 417
10.2.1 任务定义 417
10.2.2 用户画像的构建方法 … 418
10.2.3 用户画像在推荐系统中的应用 … 422
10.2.4 小结 425
10.3 用户意图 426
10.3.1 任务定义 426
10.3.2 显式用户意图挖掘 429
10.3.3 隐式用户意图挖掘 431
10.3.4 用户意图挖掘中的领域移植问题 432
10.3.5 小结 435
10.4 用户行为 436
10.4.1 传统协同过滤推荐算法 436
10.4.2 基于独立交互的神经网络模型 … 437
10.4.3 基于序列化的神经网络交互模型 438
10.4.4 融入背景信息交互的模型 … 440
10.4.5 小结 441
10.5 用户关系 442
10.5.1 网络表示学习 443
10.5.2 面向网络结构的表示学习方法 … 443
10.5.3 融入背景信息的网络表示学习方法 … 445
10.5.4 小结 448
10.6 社会化预测与规律分析 … 449
10.6.1 任务定义 449
10.6.2 基于相关关系的预测 … 452
10.6.3 基于因果关系的预测 … 455
10.6.4 事理图谱 459
10.6.5 小结 463
10.7 数据集合以及评测 … 463
10.8 总结与展望 … 466
参考文献 … 467
索引 477
语言是人类知识、思维和文明的载体,让计算机理解人类语言,实现人和计算机之间的自然语言交互是实现机器智能的重要目标。自然语言处理主要研究用计算机来理解和生成人类语言(又称为自然语言)的理论和方法,是人工智能领域中的一个十分重要的核心任务,也是一门涉及计算机科学、人工智能、语言学心理认知学等领域的交叉学科。1950年,计算机科学之父图灵发表了堪称“划时代之作”的《机器能思考吗?》(Can machine think?),图灵在该文章中提出了著名的“图灵测试”,即以语言问答为表现形式,机器要通过测试必须以对语言的深度计算为前提,这也被认为是自然语言处理思想的开端。
早期的自然语言处理主要在乔姆斯基体系及其转换生成文法的基本框架下,采用基于理性主义的规则方法,通过专家总结的小规模符号逻辑知识处理通用的自然语言现象。然而,由于自然语言的极端复杂性,这一研究范式在处理实际应用场景中的问题时往往力不从心。自20世纪90年代开始,以“香农信息论”为基本框架的大规模统计方法快速成为自然语言处理研究的主流,并取得了显著进展,自然语言处理的研究范式从理性主义演进到了经验主义。不过,该方法仍然严重依赖人工设计的特征工程。2012年之后,基于大数据的经验主义范式又实现了一次以深度学习为基本框架的大跃迁,可以直接端到端地学习各种自然语言处理真实任务而不再依赖特征工程,收获了巨大进步。
本书以深度学习为基础,针对自然语言的不同处理层次及其应用介绍相关技术。自然语言处理的研究领域极为广泛,本书的结构与内容按照自然语言处理的基础技术和应用技术进行了编排,并邀请国内在各个方向的优秀学者分别撰写了各章内容。第1章介绍了自然语言中不同语言单元(包括词、句子和篇章)的表示,并介绍了深度神经网络的注意力计算模型;第2章和第3章分别介绍了自然语言词法和句子的经典分析算法和深度学习模型;第4章介绍了知识图谱和从大规模文本中获取知识的主要技术;第5章和第6章重点介绍了文本挖掘技术,包括文本分类和摘要以及文本情感分析;第7章至第10章分别介绍了自然语言处理在信息检索、自动问答、机器翻译和社会计算中的应用技术。每一章内容均从任务定义、发展历程、意义和挑战、数据集与评测和典型模型与方法这几方面分别进行了阐述,通过结合各个实例为读者展示各部分技术的经典算法和相关问题的技术演化路径。
自然语言处理技术发展迅速,新的技术不断涌现,但仍有不少固有缺陷有待解决。预期未来10年,自然语言处理的发展前景将孕育于大数据与富知识双轮驱动的全新研究范式。期待本书能为广大自然语言处理领域的广大科研人员、青年学者等提供有价值的参考与启发,推动该领域的发展迈向新的高度。