本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
√全彩印刷,图文并茂
√解析GMM-HMM、DNN-HMM和E2E框架,WFST和LF-MMI等关键技术全貌
√系统梳理经典算法、前沿技术
√工程实践Kaldi和Espnet
本书系统地介绍了语音识别的原理和应用,全书共分 15 章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST),重点描述了 GMM-HMM、DNN-HMM 和端到端(E2E)三种语音识别框架。本书应用部分包含 Kaldi、Espnet、工业应用实践介绍,内容主要来自工程经验,极具实用性。
本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生教材,也适合作为从事智能语音系统的科研和工程技术人员的参考用书。
洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然基金两项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeech团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从动态时间规整(DTW)、隐马尔可夫模型(HMM)到E2E语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。
洪青阳老师是国内语音信息处理领域的著名学者。本书从语音信号处理的知识讲起,覆盖了概率模型和神经网络时代语音识别领域的代表性算法,兼顾了历史沉积和技术前沿。书中既包括理论知识,也包括算法原理,同时给出了动手实践的案例,集理论性与实操性于一体,可见作者用心细致。通过本书的学习,读者将获得语音识别的基础知识和前沿视野,为进一步研究打下坚实基础。
清华大学副研究员/语音语言研究中心副主任 王东
洪老师的《语音识别:原理与应用》是一本优秀的人工智能领域的教材。它既有语音技术基本原理和语音识别基础框架的讲解,又有前沿技术的阐述,娓娓道来,润物无声,使读者从入门循序渐进地深入技术前沿。同时,本书还详细介绍了语音识别的工程实践方法,帮助读者迅速掌握语音识别的落地技术。这两方面是本书区别于现有教材的显著特色。
中国科学院声学研究所研究员/博士生导师 赵庆卫
我从九几年毕业到现在一直从事电信行业的语音应用开发工作。电信行业语音识别第一次大规模应用应该是21世纪初的语音电话本和彩铃搜索。然而,由于受到环境、信道和口音的影响,语音识别基本只是受限的应用,特别是8kHZ电话信道下,要提高识别率还需要不断地研究和实践。国内兼顾理论研究和工程应用的语音识别类书籍还很少,本书是介绍语音识别较为全面的一本书籍。书中不仅介绍了语音识别的相关理论,同时也详细介绍了诸如Kaldi工具的使用和封装、云服务等开发实践,因此本书对于那些希望将理论转换成能实际投产的生产系统的研究人员极具实用性,对于从事语音识别应用集成开发的工程师也具有参考价值。
资深CTI专家/《百问FreeSwitch》作者 余洪涌
洪青阳老师在智能语音领域耕耘多年,桃李天下。今倾心编写本书,把语音识别领域的技术一一道来,本人作为证券行业从业者,并非语音专业人士,但读完本书有种茅塞顿开的感觉。如今语音识别、语音合成和声纹识别技术在证券行业拥有广泛的应用场景,相信读者学习完本书,能够更加深刻地理解语音识别的技术原理和应用技巧。建议金融行业身居客服、运营等技术创新岗位的同仁阅读学习。
东方证券股份有限公司系统研发部总监 包怡军
人工智能特别是智能语音技术在证券行业得到空前发展,这得益于大数据方面的积累,源于开源社区对深度学习算法的研究,以及GPU等硬件加速技术的算力加持。洪青阳和李琳老师带领厦门大学智能语音实验室团队,在语音识别技术方面进行了系统、深入及全面的研究,终得以成就本书。拜读后深深感到,书中所提及的有关技术,正在被金融证券智能化语音场景(如智能外呼、智能审核、智能质检、智能双录、智能运营等)广泛使用,具有极强的实用性。书中所述的对声学模型与语言模型的调优方法,有着作者独到的见解。推荐致力于从事智能语音技术和算法研究的人士阅读。
上海掌数科技有限公司总经理 刘建
上海掌数科技有限公司技术总监 高星