书籍详情
《声纹技术从核心算法到工程实践》[51M]百度网盘|亲测有效|pdf下载
  • 声纹技术从核心算法到工程实践

  • 出版社:文轩网旗舰店
  • 出版时间:2020-09
  • 热度:5032
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作  者:王泉 著
定  价:99
出 版 社:电子工业出版社
出版日期:2020年09月01日
页  数:292
装  帧:平装
ISBN:9787121395291
主编推荐
"入门门槛低:从听觉感知和音频信号处理讲起。 兼具深度和广度:语音识别|语音合成|声纹识别|声纹分割聚类。 配备动手实践案例及思考题:练习实践项目,巩固重点知识。"
目录
1声纹技术的前世今生1
1.1什么是声纹.1
1.2早的声纹技术.2
1.3声纹技术的发展.5
1.3.1声纹技术与音频信号处理.5
1.3.2模板匹配方法.6
1.3.3早期统计学方法.8
1.3.4高斯混合模型.8
1.3.5联合因子分析与i-vector.9
1.4大变革:深度学的来临.10
1.5新的机遇:智能语音助手的普及.11
2音频信号处理基础14
2.1欲懂声纹,先学音频.14
2.2声学基础.15
2.2.1语音的产生.15
2.2.2正弦波.16
2.2.3频谱.17
2.2.4听觉与感知.18
2.2.5听觉的非线性.21
2.3音频信号基础概念.24
2.3.1模拟音频信号.25
2.3.2模拟转数字:采样与量化.27
2.3.3音频编码.29
2.3.4音频文件格式.33
2.3.5动手实践:SoX程序.35
2.4从信号到特征:短时分析.38
2.4.1传统特征分析的不足.38
2.4.2分帧.38
2.4.3窗函数处理.39
2.4.4帧叠加与帧采样.41
2.5常用的音频特征.42
2.5.1时域特征.42
2.5.2从时域到频域:傅里叶变换.45
2.5.3频谱、倒谱、时频谱和功率谱.48
2.5.4感知线性预测.49
2.5.5梅尔倒谱系数.49
2.5.6功率正则化倒谱系数.50
2.5.7动手实践:用LibROSA提取MFCC特征.50
3声纹识别技术54
3.1声纹识别:声纹技术的核心.54
3.1.1名称与概念.54
3.1.2按任务分类.55
3.1.3按文本内容分类.56
3.1.4系统流程.58
3.2声纹识别的评价指标.60
3.2.1相似匹配.60
3.2.2录入集与验证集.61
3.2.3ROC曲线及曲线积.62
3.2.4等错率.63
3.2.5小检测代价函数.
3.2.6辨认准确率.
3.3深度学习之前的方法.65
3.3.1早期方法.65
3.3.2高斯混合模型方法.66
3.3.3高斯混合模型-通用背景模型.70
3.3.4高斯混合模型-支持向量机.72
3.3.5联合因子分析.74
3.3.6i-vector方法.76
3.4基于深度学方法.78
3.4.1关于深度学简单介绍.79
3.4.2声纹识别中的神经网络.84
3.4.3运行时的推理逻辑.86
3.4.4声纹识别中的损失函数.93
3.5声纹识别中的数据处理.102
3.5.1声纹识别的数据需求.102
3.5.2数据预处理.103
3.5.3数据增强.105
3.5.4多数据集训练.110
3.6声纹验证.112
3.6.1验证方法.112
3.6.2分数正则化.112
3.7常用数据集.115
3.7.1TIMIT.115
3.7.2VCTK.115
3.7.3LibriSpeech.116
3.7.4LibriVox.116
3.7.5VoxCeleb.116
3.7.6CN-Celeb.117
3.7.7BookTubeSpeech.117
3.7.8维基百科语音库.117
3.7.9DeepMine.118
4声纹识别的工程部署120
4.1从模型到产品.120
4.1.1模型不等于产品.120
4.1.2软件工程基本概念.120
4.2声纹识别常见工程问题.126
4.2.1录入阶段的工程问题.126
4.2.2识别阶段的工程问题.128
4.2.3语音处理引擎:流式信号处理与计算图.131
4.2.4模型版本迭代.137
4.2.5在线代理指标.138
4.3全设备端部署.139
4.3.1部署方式的分类依据.139
4.3.2版本迭代更新.139
4.3.3资源:设备端的大挑战.141
4.3.4模型量化技术.141
4.4全服务器端部署.144
4.4.1全服务器端架构.144
4.4.2版本迭代更新.145
4.4.3负载均衡与故障处理.149
4.5复合式部署.151
4.5.1声纹信息的敏感性.151
4.5.2复合式架构.152
4.5.3版本迭代更新.153
5声纹分割聚类技术156
5.1分割聚类:更好地理解对话语音.156
5.1.1关于名称与历史.156
5.1.2常见应用.157
5.1.3常见通用架构.160
5.1.4声纹分割聚类的不同任务类型.162
5.2声纹分割聚类与多说话人识别.163
5.2.1声源分离.163
5.2.2连续声纹识别.1
5.2.3说话人转换检测.165
5.3聚类分析.167
5.3.1聚类不等于分类.167
5.3.2在线聚类技术.167
5.3.3离线聚类技术.170
5.3.4基于离线聚类的在线声纹分割聚类.178
5.4二次分割方法.180
5.4.1基于分类的二次分割.180
5.4.2基于隐马尔可夫模型的二次分割.181
5.5监督式方法.182
5.5.1聚类方法的一些问题.182
5.5.2从传统聚类到监督式方法.184
5.5.3无界交织态循环神经网络.187
5.5.4判别神经聚类.191
5.5.5置换不变性训练.195
5.5.6端到端模型.198
5.5.7与语音识别的联合训练.200
5.6声纹分割聚类的评价指标.203
5.6.1评价指标的置换不变性.203
5.6.2分割聚类错误率.203
5.6.3词分割聚类错误率.205
5.其他指标.206
5.7常用数据集.206
5.7.1CALLHOME.206
5.7.2NISTSRE2000.207
5.7.3ICSI.208
5.7.4Fisher.208
5.7.5AMI.209
6声纹技术的其他应用211
6.1声纹的力量.211
6.2用于语音识别.212
6.2.1语音识别技术概述.212
6.2.2声纹自适应声学模型.213
6.3用于语音合成.214
6.3.1语音合成技术概述.214
6.3.2声纹克隆:合成任意说话人的声音.218
用于语音检测.220
.1语音检测技术概述.220
.2个性化语音检测.220
6.5用于人声分离.221
6.5.1人声分离技术概述.221
6.5.2定向人声分离.223
6.6声纹转换.226
6.7声纹还原度测试.227
6.7.1音频处理的声纹保留性质.227
6.7.2音频编码格式的还原度测试.228
6.7.3语音合成技术的还原度测试.229
7声纹技术的未来231
7.1概述.231
7.2声纹技术的挑战.231
7.2.1对信道变化的鲁棒性.231
7.2.2对声纹变化的鲁棒性.232
7.2.3反欺诈.233
7.3对更多数据的需求.235
7.3.1更为多样的数据增强.235
7.3.2用于训练的合成语音.237
7.3.3自动数据采集.237
7.4声纹技术的未来研究方向.238
7.4.1对抗学习.238
7.4.2多模态说话人识别.240
7.4.3联邦学习.241
7.4.4集成学习.243
7.4.5同时完成声纹分割聚类与人声分离.245
7.5结语.246
中英词汇对照248
参考文献259
内容简介
内容待完善
作者简介
王泉 著
王泉,美国谷歌公司软件工程师、声纹识别与语言识别团队主管。作者毕业于清华大学自动化系,后取得美国伦斯勒理工学院计算机工程专业博士学位,曾在美国公司参与智能音箱语音助手Alexa的研发。在谷歌任职期间,作者带领团队将优选的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别及语音合成等诸多领域拥有大量,发表过多篇重量级论文,并开创了监督式声纹分割聚类及声纹定向人声分离这新兴研究方向。作者的工作曾被VentureBeat、TechCrunch、Engadget、CNET等有名科技媒体专题报道。