人工智能科学与技术丛书语音信号处理(第3版)

本书特色

[

本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。第1章介绍语音信号处理及其发展过程; 第2章介绍语音信号的产生与人类听觉的机理,传统的线性语音产生模型,以及非线性语音产生模型; 第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,*后对广泛使用的倒谱特征以及同态解卷积进行介绍; 第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法; 第5章介绍语音编码的相关知识,包括语音的波形编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法; 第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,从隐马尔可夫模型技术到基于深度学习的语音识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,*后还介绍新兴起的语音识别应用技术,以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等; 第7章介绍说话人识别的基本内容,从基于GMM�睻BM的识别技术到基于支持向量机的识别技术,从基于联合因子分析的识别技术到基于i�瞯ector的识别技术,以及近年来受到关注的基于深度学习的识别技术等; 第8章介绍顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术; 第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及基于HMM的合成技术等内容。
本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。

]

内容简介

[

本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。章介绍语音信号处理及其发展过程; 第2章介绍语音信号的产生与人类听觉的机理,传统的线性语音产生模型,以及非线性语音产生模型; 第3章从语音信号的时域特征入手,引入时频分析的思想,并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用,很后对广泛使用的倒谱特征以及同态解卷积进行介绍; 第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法; 第5章介绍语音编码的相关知识,包括语音的波形编码、极低速率语音编码技术,以及相关编码器的性能指标和评测方法; 第6章介绍语音识别的基本内容,从基于矢量量化的识别技术到动态时间归正的识别技术,从隐马尔可夫模型技术到基于深度学习的语音识别技术,从孤立词识别到连接词识别及连续语音识别技术,再到关键词检出技术,很后还介绍新兴起的语音识别应用技术,以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等; 第7章介绍说话人识别的基本内容,从基于GMM�睻BM的识别技术到基于支持向量机的识别技术,从基于联合因子分析的识别技术到基于i�瞯ector的识别技术,以及近年来受到关注的基于深度学习的识别技术等; 第8章介绍顽健语音识别技术,从影响语音识别性能的环境变化因素分析开始,介绍噪声环境下顽健语音识别技术,以及变异语音识别的技术; 第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成,以及基于HMM的合成技术等内容。
本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。

]

作者简介

[

韩纪庆 现任哈尔滨工业大学计算机科学与技术学院二级教授、学校长聘岗教授、博士生导师。兼任中国中文信息学会理事及语音处理专委会副主任、全国人机语音通讯学术会议常设机构委员会副主席、《中文信息学报》编委、《数据采集与处理》杂志编委。长期从事语音信号处理、音频信息处理等领域的教学与科研工作。作为项目负责人,正在主持和已经完成“国家自然科学基金重点项目”2项、“面上项目”5项、“国家973计划”课题1项、教育部“跨世纪优秀人才培养计划”基金1项及其他科研项目10余项。获省部级科技二等奖3项、三等奖2项。获国家发明专利7项。已在国内外刊物和会议上发表论文200余篇,并出版图书5部。

]

目录

目录第1章绪论1.1语音信号处理的发展1.2语音信号处理的应用1.3语音信号处理的总体结构参考文献第2章语音信号的声学基础及产生模型2.1语音信号的产生2.1.1语音的发音器官2.1.2语音的声学特征2.1.3语音信号在时域和频域的表示2.1.4汉语中语音的分类2.1.5汉语语音的韵律特性2.2语音信号的感知2.2.1听觉系统2.2.2听觉特性2.2.3掩蔽效应2.3语音信号的线性产生模型2.3.1激励模型2.3.2声道模型2.3.3辐射模型2.4语音信号的非线性产生模型2.4.1调频�驳鞣�模型的基本原理2.4.2Teager能量算子2.4.3能量分离算法2.4.4调频�驳鞣�模型的应用参考文献第3章语音信号的特征分析3.1语音信号数字化3.1.1语音信号的采样和量化3.1.2短时加窗处理3.2语音信号的时域分析3.2.1短时能量分析3.2.2短时平均过零率3.2.3短时自相关函数和短时平均幅度差函数3.2.4端点检测和语音分割3.3语音信号的频域分析3.3.1滤波器组方法3.3.2傅里叶频谱分析3.4传统傅里叶变换缺点及时频分析的思想3.4.1信号的时频表示3.4.2不确定原理3.5Gabor变换3.6小波变换在语音信号分析中的应用3.6.1小波的数学表示及意义3.6.2小波分析特点3.6.3小波变换的多分辨分析3.6.4小波变换在语音处理中的应用3.7语音信号的同态解卷积3.7.1同态信号处理的基本原理3.7.2语音信号的复倒谱3.7.3避免相位卷绕的算法3.7.4基于听觉特性的Mel频率倒谱系数3.8语音信号特征应用3.8.1基音周期估计3.8.2共振峰的估计参考文献第4章语音信号的线性预测分析4.1线性预测的基本原理4.2线性预测方程组的解法4.2.1自相关法4.2.2协方差法4.2.3格型法4.2.4几种求解线性预测方法的比较4.3线性预测的几种推演参数4.3.1归一化自相关函数4.3.2反射系数4.3.3预测器多项式的根4.3.4LPC倒谱4.3.5全极点系统的冲激响应及其自相关函数4.3.6预测误差滤波器的冲激响应及其自相关函数4.3.7对数面积比系数4.4线谱对分析法4.4.1线谱对分析的原理4.4.2线谱对参数的求解4.5感知线性预测PLP系数参考文献第5章语音编码5.1波形编码5.1.1均匀量化PCM5.1.2非均匀量化 PCM5.1.3自适应量化PCM5.1.4差分脉冲编码5.1.5自适应差分脉冲编码5.1.6增量调制和自适应增量调制5.1.7子带编码5.1.8自适应变换域编码5.2参数编码和混合编码5.2.1参数编码5.2.2基于全极点语音产生模型的混合编码5.2.3基于正弦模型的混合编码5.3极低速率语音编码技术5.3.1400bps~1.2Kbps的声码器5.3.2识别合成型声码器5.4语音编码器的性能指标和质量评测方法5.4.1编码速率5.4.2顽健性5.4.3时延5.4.4计算复杂度和算法的可扩展性5.4.5语音质量及其评价方法5.5语音编码国际标准5.6感知音频编码5.6.1感知编码的一般框架5.6.2心理声学模型5.6.3常用的感知编码标准参考文献第6章语音识别6.1概述6.2基于矢量量化的识别技术6.2.1K�瞞eans矢量量化算法6.2.2LBG算法6.3动态时间归正的识别技术6.3.1DTW基本原理6.3.2模板训练算法6.4隐马尔可夫模型技术6.4.1HMM基本思想6.4.2HMM基本算法6.4.3HMM算法实现中的问题6.4.4关于HMM训练的几点考虑6.5连接词语音识别技术6.5.1连接词识别问题的一般描述6.5.2二阶动态规划算法6.5.3分层构筑方法6.6大词表连续语音识别中的声学模型和语言学模型6.6.1声学模型6.6.2统计语言学模型6.6.3统计语言学模型平滑技术6.6.4语言学模型自适应技术6.7大词表连续语音识别中的解码技术6.7.1图的基本搜索算法6.7.2面向语音识别的搜索算法 6.8大词表连续语音识别后处理技术6.8.1语音识别中间结果的表示形式6.8.2错误处理 6.8.3*小字错误率解码方法6.9基于HMM的自适应技术6.9.1基于Bayesian理论的自适应方法6.9.2基于变换的自适应方法6.10基于深度学习的语音识别技术6.10.1基于DNN�睭MM的语音识别技术6.10.2基于RNN的语音识别技术6.10.3端到端的语音识别技术6.11关键词检出技术6.11.1问题描述 6.11.2关键词检出系统的组成 6.11.3垃圾模型建模方法 6.11.4语音解码器的设计6.11.5关键词确认过程6.11.6关键词检出系统性能优化 6.12语音识别的应用技术6.12.1语音信息检索6.12.2发音学习技术6.12.3基于语音的情感处理6.12.4网络环境下的语音识别6.12.5嵌入式语音识别技术6.13HTK工具介绍6.13.1数据准备阶段6.13.2模型训练阶段6.13.3识别阶段6.14Kaldi工具介绍6.14.1Kaldi工具简介6.14.2Kaldi工具安装6.14.3数据准备6.14.4特征提取6.14.5模型训练6.14.6性能评测参考文献第7章说话人识别7.1概述7.2基于GMM与GMM�睻BM说话人识别7.2.1GMM的说话人识别7.2.2GMM�睻BM的说话人识别7.3基于SVM的说话人识别7.3.1SVM说话人识别7.3.2基于GMM均值超矢量的SVM说话人识别7.3.3基于GMM得分的SVM说话人识别7.4复杂信道下的说话人识别7.4.1特征映射7.4.2说话人模型合成7.4.3扰动属性投影7.4.4联合因子分析7.5基于i�瞯ector的说话人识别7.5.1基于GMM�睻BM的i�瞯ector说话人识别7.5.2基于DNN的i�瞯ector说话人识别7.6得分规整7.6.1零规整7.6.2测试规整7.6.3说话人自适应的测试规整7.6.4TZ�瞡orm7.6.5H�瞡orm7.6.6C�瞡orm参考文献第8章顽健语音识别技术8.1概述8.2影响语音识别性能的环境变化因素8.3噪声环境下的顽健语音识别技术8.3.1基于语音增强的方法8.3.2通道畸变的抑制方法8.3.3基于模型的补偿方法8.4变异语音识别方法8.4.1变异语音的分析8.4.2变异语音的分类8.4.3变异语音的识别参考文献第9章语音合成9.1语音合成的基本原理9.2参数合成方法9.2.1线性预测合成方法9.2.2共振峰合成方法9.3波形拼接合成技术9.3.1TD�睵SOLA算法9.3.2FD�睵SOLA算法9.4汉语按规则合成9.4.1韵律规则9.4.2多音节协同发音规则合成9.4.3轻声音节规则合成9.4.4儿化音节的规则合成9.5基于HMM的参数化语音合成技术9.5.1基于HMM参数语音合成系统的训练9.5.2基于HMM参数语音合成系统的合成阶段参考文献

封面

人工智能科学与技术丛书语音信号处理(第3版)

书名:人工智能科学与技术丛书语音信号处理(第3版)

作者:韩纪庆、张磊、郑铁然

页数:0

定价:¥89.0

出版社:清华大学出版社

出版日期:2018-07-01

ISBN:9787302517603

PDF电子书大小:50MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注