一、自适应帧长特征提取对语音识别系统性能的影响(论文文献综述)
梁涛[1](2021)在《复杂环境下中文语音识别系统的设计优化》文中研究指明在复杂语音环境下,如何搭建一个性能稳定且优良的语音识别系统,变成一个亟待解决的问题。针对这一迫切需求,本文重点研究了带噪、混响语音环境下,中文语音识别系统的设计优化问题。本文将谱减法与理想二值掩蔽(Ideal Binary Mask,IBM)算法结合,对待增强语音先掩蔽增强再谱减降噪,提出改进的IBM语音增强算法,解决了经典语音增强算法,在强噪音干扰下对语音处理效果不佳的问题。实验发现,在噪音强度系数大于0.008的噪音段且包含混响的语音条件下,改进的IBM算法比现有的五类经典语音增强算法对语音具有更好的处理效果。但在噪音强度系数小于0.008的噪音段且包含混响的语音条件下,改进的IBM算法却没有原IBM算法对语音的处理效果好。基于此,提出一种基于噪声谱估计的自适应IBM语音增强算法。算法思路是在进行语音增强前,先对待增强语音进行噪声谱估计并判断其噪音强度系数,若判断的噪音强度系数小于0.008,就选用IBM算法进行处理;反之,则选用改进的IBM算法进行语音增强处理。经实验验证,在整个噪音段且包含混响的语音条件下,提出的算法相比于其它算法对语音具有更好的处理效果。在论文第四章,搭建了一个基于噪声谱估计的自适应中文语音识别系统。通过在卷积神经网络与连接时序分类技术搭建声学模型,最大熵马尔可夫算法搭建语言模型的现有语音识别系统的前端增加一个语音增强模块,并将提出的基于噪声谱估计的自适应IBM语音增强处理嵌入模块,来搭建本文的语音识别系统。系统的工作原理为,在进行语音识别时,对待识别语音先估计噪声谱并判断噪音强度、再自适应地择优选择语音增强算法,进行语音增强,最后进行语音识别。经实验验证,本文搭建的语音识别系统对带噪、混响的测试集语音具有更高的语音识别准确率。同时实验发现,各类语音识别系统对语音的汉字识别误差率远高于拼音识别误差率。基于此,在论文第五章,将注意力机制与深度学习技术相结合,搭建了一个基于Self-attention机制的神经网络语言模型。经实验验证,相比于基于概率图谱的最大熵马尔可夫语言模型以及由1维卷积组、高速网络以及双向门控循环单元组成的CBHG模块搭建的神经网络语言模型,本文搭建的语言模型具有更高的拼音转汉字正确率。同时,将搭建的语言模型嵌入到第四章的语音识别系统中,也取得了更高的语音识别准确率。
岳鲁鹏[2](2021)在《基于Kaldi的说话人识别技术研究》文中研究说明说话人识别SR(Speaker Recognition)又称声纹识别VR(Voiceprint Recognition),是一种根据语音信息对说话人身份(Identify)进行辨识的生物特征识别技术。语音中包含着非富多彩的信息,既有反映说话内容的共性信息,也有表征说话人个性特征的差异性信息,和语音识别关注共性信息不同,说话人识别则更多关注差异性信息,以此来鉴别说话人的身份。与面部识别等其他识别技术相比,说话人识别优势突出,它不仅操作便捷、成本较低,并且识别精度高,现已在金融、军事等多个行业得到了大力推广和积极应用,应用前景非常可观。本文综合考虑各种声学特征的特性、建模方法以及打分策略等问题,利用Kaldi语音识别工具和信号处理的相关理论和技术,结合不同声学特征和声学模型的优劣势,对待测语音数据进行评测。首先,利用特征提取和特征处理技术,将不同声学特征进行动态融合,互补不同声学特征的差异,减少噪声等杂糅信息对说话人特征的影响,形成新的输入特征。其次,利用深度学习和自然语言处理的相关理论和技术,将特征进行提纯,再次减少噪声等杂糅信息对说话人特征的影响。最后,利用说话人识别中打分策略技术,将特征流入i-vector、x-vector等说话人识别模型,并结合打分函数和激活函数,对待测语音数据进行评测,从而过滤与说话人无关的特征,识别与说话人相关的特征,分阶段实现说话人识别信息的检测。本文的主要研究内容如下:(1)利用基于多特征i-vector的说话人识别算法实现待测语音的第一阶段工作。首先,采用Kaldi语音识别工具在TIMIT语料库上采集不同的声学特征并将其构成一个高维特征向量。然后,通过主成分分析法PCA(Principal Components Analysis)有效地剔除高维特征向量的关联,确保各种特征之间正交化。最后,采用概率线性判别分析PLDA(Probabilistic Linear Discriminant Analysis)进行建模和打分,同时在一定程度上降低空间维度,并采用等错误率EER(Equal Error Ratio)来评价说话人识别系统的综合性能。(2)利用基于多特征和多任务学习的x-vector说话人识别算法实现待测语音的第二阶段工作。首先,采用Kaldi语音识别工具在Vox Celeb1语料库中采集具有互补性的不同尺度的声学特征,并将其同时输入到网络中。然后,在网络内部整合不同互补特征的特性,并将流进网络的特征在全连接的拼接层进行左右拼接。最后,结合注意力机制进行帧权重的计算和线性整流函数Re LU(Rectified Linear Unit)来降低梯度弥散,并采用EER和检测代价函数DCF(Detection Cost Function)来评价说话人识别系统的综合性能。(3)利用基于语谱图和多头注意力机制的说话人识别算法实现说话人识别的最后阶段检测。首先,采用Kaldi语音识别工具在Vox Celeb2语料库中采集语谱图、MFCC两种声学特征,并将二者相继送入TDNN和CNN。然后,设置不同结构的CNN,并利用CNN处理图片的优势对语谱图进行加工。最后,结合多头注意力机制对网络处理后的特征进行加权,并采用EER和DCF来评价说话人识别系统的综合性能。本论文在说话人识别TIMIT评测集验证了第一阶段所提算法的有效性,与单特征i-vector模型相比,EER最佳取得了90.0%的相对降低(8.33%降至0.833%),在区分性别差异的模型中,男性和女性的EER最佳分别取得了85.6%的相对降低(11.67%降至1.38%)和92.3%的相对降低(9.72%降至0.69%)。在说话人识别Vox Celeb1评测集验证了第二阶段所提算法的有效性,与x-vector基线模型相比,添加了注意力机制的统计层模型在EER上最佳取得了24.4%的相对降低(2.01%降至1.52%),在此基础上引入多任务学习并采用拼接层后,在EER上最佳取得了29.0%的相对降低(1.38%降至0.98%)。在说话人识别Vox Celeb2评测集验证了最后阶段所提算法的有效性,与x-vector基线模型相比,采用语谱图和CNN结合的方式在EER上最佳取得了6.69%的相对降低(6.58%降至6.14%),在此基础上引入多头注意力机制后,在EER上最佳取得了26.14%的相对降低(6.58%降至4.36%)。
邹博[3](2020)在《基于融合特征的说话人识别技术研究》文中研究表明语音是人类日常生活中获取和传递消息最为便捷的一种主要媒介,它携带着丰富的信息。由于每个人的声道结构在出生时就被决定,并且每个人都是独一无二的,这使得利用说话人的声音来辨别身份的生物技术成为了现实。在生物识别领域中,影响识别结果的两个重要因素分别是分类模型和特征参数,一旦选定了所用的模型,识别性能主要依赖于特征参数的选择。高质量的特征参数不仅可以减少系统的误判概率,并且还能够缩短训练模型和分类所用的时间。因此,从语音信号中提炼出与说话人身份具有高度相关性的特征是一个重要的研究课题。针对上述问题,本文提出了基于深浅层融合特征的说话人识别系统以及基于优化权系数融合特征的说话人识别系统。本文开展的研究如下:(1)首先对说话人识别相关的研究背景以及工作意义进行充分了解,然后阐述了说话人识别的基本知识,主要包括本文所用到的语音预处理技术、声学特征参数MFCC提取的具体流程、SVM分类器的原理。另外,为了去除特征中可能包含的冗余信息,引入了两种特征筛选策略,为后续展开的研究提供技术基础。(2)为了找到一种鲁棒性更强并能够全面对说话人身份信息进行表征的特征,本文在对GMM和DNN深入研究后,提出了一种基于深浅层融合特征的说话人识别系统。传统特征表示的是有关声道结构方面的物理信息,它是一种浅层的表述,而DNN挖掘的是更深层的特征,是一种更为抽象的描述,将它们融合能够使得性能互补。该方法首先提取MFCC参数然后分别利用两个不同分支进行进一步处理。一方面输入到DNN中来提取深度特征并进一步通过GMM获取深度高斯超矢量,另一方面直接通过GMM获得传统高斯超矢量。最后将二者水平拼接组成一种新的特征,基于该特征对SVM进行训练和对说话人身份进行辨认。通过实验仿真发现,所提出的融合特征能够有效地提升识别率。(3)当说话人的个数增加时,系统的识别率将会降低。另外,在基于融合特征的说话人识别系统中,不同特征对最后的识别结果贡献程度不同。为了更加准确对其进行衡量,通过对两种寻优算法进行研究,提出了基于优化权系数融合特征的说话人识别系统。在对三种特征进行融合前,先利用GA或者SA算法对各自的权重系数进行寻优,然后乘以对应的系数进行融合来构建一种新的说话人识别系统。通过实验结果表明,对特征进行加权再进行融合的识别性能要优于直接进行融合时的特征性能。
刘中越[4](2021)在《野外环境下的声目标识别技术研究》文中认为在边防区域的野外环境下,通过对入侵目标声音信号的分析处理,完成入侵目标的探测识别,以实现边防区域的智能化实时监控。传统的目标探测识别方法是使用多传感器进行组合探测,其中,声音传感器易受噪声和其它声源的干扰,导致声目标识别的准确率下降。针对上述问题,本文设计了一个野外环境下的人车识别方案,并对其中的端点检测算法进行优化改进。本文主要围绕基于声音传感器的声目标识别技术进行重点研究,并从以下四部分展开讨论:(1)在野外环境下,采集到的声目标信号难免会受背景噪声的干扰,使目标信号失去原有的特性。因此,需要对采集到的信号进行降噪处理,以提高目标信号信噪比。由于野外环境下的背景噪声复杂多变,所以采用基于RLS与LMS的自适应噪声抵消算法进行降噪处理,并通过仿真实验结果进行对比分析,最终选取收敛速度与收敛精度都更好的RLS算法完成对信号的降噪处理。(2)把采集到的声音信号进行降噪处理后,对出现的声目标信号进行端点检测。当有入侵的声目标出现时,采用基于短时能量的改进端点检测算法对其进行端点检测,通过一次长帧粗检测与一次短帧细检测,精确地定位出目标信号的起止点,进而排除掉无效的背景噪声段。另外,设计一个基于短时平均幅度的门限判决方案,在完成端点检测之后对是否有入侵目标出现做一次预判断。(3)对时频域特征参数提取的基本原理及提取步骤进行简要叙述,并对不同特征参数在声目标识别中的适用性进行对比分析。通过对不同特征参数的分析及后续的实验结果对比,选取梅尔频率倒谱系数作为人车识别的特征参数。(4)为声目标识别系统选取一个合适的分类器,完成野外环境下的人车目标识别。本文根据运动目标的声音信号与说话人类似的特点,以人车声信号的MFCC作为特征,采用基于高斯混合模型(GMM)的分类器完成人车目标识别。最后通过对实验结果和野外环境下的现场测试结果进行综合分析,证明本文设计的识别方案可以完成野外环境下的人车识别,且识别率与识别速度均可满足实际需求。
杨晶[5](2020)在《面向高噪声场景的低功耗关键词识别特征提取模块设计》文中研究指明近年来,越来越多的语音识别应用进入到大家的日常生活中,其中关键词识别是语音识别应用领域必不可少的关键技术之一,而这些应用设备对低功耗和噪声场景下的识别精度要求很严苛,因此本文将提出一种面向高噪声场景的低功耗关键词识别特征提取的专用集成电路模块。本文主要从算法、电路两方面去优化设计,尽可能在保证识别精度的情况下降低关键词识别特征提取的功耗,主要工作包括:(1)基于传统梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征提取算法设计了精简矩形梅尔频率倒谱系数(Simple Rectangular Mel Frequency Cepstrum Coefficient,SRMFCC)特征提取算法架构,相比传统的MFCC,本文的工作在不同信噪比的噪声场景中都能保持良好的识别精度。(2)实现了不同信噪比噪声的模式切换设计和其中快速傅里叶变换(Fast Fourier Transform,FFT)模块乘法计算的多阶量化共享乘法器可适应不同的计算精度要求,与标准乘法计算相比,可显着降低功耗。本文基于TSMC 22nm工艺,完成了面向高噪声场景的低功耗关键词识别特征提取模块的设计,实验结果表明,本文SRMFCC算法使总体数据量减少50%,相比传统特征提取算法MFCC,SRMFCC的乘法计算量降低了77.8%。本文验证系统是二值化权重网络(Binarized Weight Network,BWN),布局布线后的总面积是0.72mm2,其中特征提取的面积为0.195mm2,工作主频率为250k Hz,延时为12ms,低功耗模式下功耗为2.81u W、高精度模式下功耗为5.32u W,相比主流设计方案,功耗降低了74%,在信噪比为-5dB的时候识别准确率达到91.3%,信噪比5dB时识别精度为95.47%。
王小标[6](2020)在《噪声环境下的语音基频检测算法研究》文中指出语音基频是语音信号中比较重要的特征信息,主要应用到语音合成系统和声纹识别系统。目前,语音基频检测算法的研究一直是研究的重点和难点,并且现有的语音基频检测算法都是估计算法,对于纯净语音信号来说,其准确性较好,但对于噪声环境下的语音信号,其准确性仍有待提高。因此,本文采用谱减法、自适应滤波法、自相关函数法和平均幅度差函数法来解决噪声环境下语音基频检测算法准确性低的问题。首先分析了语音信号的产生流程与数学模型,对语音信号基音频率的数学模型进行研究,分析语音基频的特性,建立相应的语音库,对语音信号的预处理各个流程进行分析,并且通过大量的仿真实验确定语音预加重、分帧、加窗、端点检测所使用的方法。对语音增强基本理论和算法进行研究,并且指出谱减算法在语音增强实际应用中存在的问题,使用自适应滤波算法对谱减算法进行改进,提出了后置自适应滤波器谱减算法。后置自适应滤波器谱减算法不仅解决了使用谱减算法过程中残留的“音乐噪声”问题,并且输出更高信噪比的语音信号,同时,后置自适应滤波器谱减算法也适用于噪声环境下的语音增强。本文对语音基频检测算法中的自相关函数法(Auto Correlation Function,ACF)和平均幅度差函数法(Average Magnitude Different Function,AMDF)进行仿真实现,并且指出它们在实际应用中存在的问题。使用自相关函数法和平均幅度差函数法相结合进行算法的改进,改进的算法增大了基音周期的边界点的峰值,提高了基音周期判断的准确性,进一步提高了语音基频检测算法的准确性。改进的语音基频检测算法保留了自相关函数法和平均幅度差函数法的优点,并且在算法流程中使用了带通滤波器、中心削波算法和平滑滤波算法,降低了部分共振峰、倍频和半频、野点的干扰。为了验证改进的语音基频检测算法在噪声环境下语音基频检测的有效性和准确性,采用含有噪声背景的语音库数据集进行语音基频检测算法验证,统计语音基频检测算法的错误率参数PTE、UE、VE。对于含有babble噪声语音库数据集来说,改进的语音基频检测算法的PTE相对于自相关函数法和平均幅度差函数法分别减少了 6.50%和11.89%,对于含有pink噪声、factory 1噪声、white噪声语音库数据集来说,改进的语音基频检测算法的错误率都小于自相关函数法和平均幅度差函数法的错误率,结果表明在噪声环境下,改进的语音基频检测算法准确性要高于自相关函数法和平均幅度差函数法,并且改进的语音基频检测算法可以对真实环境下的语音基频进行检测。
汤琛[7](2020)在《车载噪声背景下声纹识别关键技术研究》文中研究说明近些年来,声纹识别技术随着人工智能的飞速发展日益受到重视。汽车落入家家户户后,随着人们对车载娱乐的需求和电子元件的迅速发展,车载语音设备成为了当今研究热点之一。因为声纹特征易受复杂环境和非稳定因素影响,所以车载噪声背景下声纹识别系统就成为了一个重要课题。声纹识别是指在语音信号中提取出说话者个人信息以区分说话者身份。声纹识别系统主要分为前端处理、特征提取和识别模型三个部分。前端处理后的语音质量直接影响着下一步提取特征参数的质量,而特征参数提取的质量又进一步关系着识别的准确性,因此前端处理和特征提取是声纹识别系统两个非常重要的部分。本文首先阐述了声纹识别、语音端点检测、声纹特征提取等关键技术的基本原理,接着对车载噪声背景下声纹识别系统的一些关键技术进行了研究。论文主要工作有:1.在分析传统双门限端点检测算法的优势与不足的基础上,将遗传模拟退火(GASA)、模糊C均值(FCM)和贝叶斯准则(BIC)相结合,提出了一种基于GASA优化FCM-BIC算法的语音端点检测方法。该方法选用短时能量和谱熵作为门限参数,并融入了遗传模拟退火算法,将得到的聚类中心赋给FCM-BIC以确定信号特征的门限值,最后根据门限检测出语音端点。实验结果表明,该方法端点检测加权错误测度小于传统双门限法方法,在白噪声下算法改善效果更明显,在车载噪声下端点检测效果最好。2.针对传统瓶颈特征(Bottle-neck Feature,BN)提取方法抗噪性不强、冗杂信息较多导致识别率不高,提出了一种基于TCL和稀疏DNN网络的瓶颈特征提取方法。引入TCL对训练语料进行时间结构分类,对基于交叉熵的目标函数引入合适的重叠组稀疏正则项来构建稀疏DNN网络。最后实验表明,改进方法相较于传统声纹特征(MFCC、LPCC)和基于稀疏深度神经网络的瓶颈特征的等错误率(EER)有一定的降低,能有效地提高说话人识别的准确性。3.在研究了声纹识别技术中的端点检测方法和特征提取方法的基础上,将这些声纹识别技术应用到车载噪声背景下说话人识别系统中,通过对比实验分别研究了高斯混合阶数、端点检测和信噪比对声纹识别系统性能的影响。最后实验表明,基于GMM-UBM声学模型识别率要高于GMM模型,且GMM-UBM模型系统识别率会随着混合阶数的增加而增加;端点检测能有效减少噪声对识别系统的影响,在识别语音长度较短的识别系统中,基于GASA优化FCM-BIC的语音端点检测方法对系统识别率提升更明显;基于TCL和稀疏DNN网络的瓶颈特征相较于传统声纹参数在低信噪比环境下识别率有明显提升。
周晶[8](2020)在《回放语音攻击检测中特征参数的研究》文中研究指明说话人识别技术因与其他生物特征识别技术相比,具有无须身体接触、无须记忆、获取过程快捷等优点,成为目前人们常选用的验证方法。但是,随着各种录音设备的出现,攻击者使用录音回放语音侵入认证系统更为简单。因此,如何防止回放语音的攻击已成为说话人识别技术研究的重点。本文基于ASVspoof 2017挑战赛的数据库,对不同类型的录音设备、回放设备产生的回放语音进行分析,重点对语音特征参数提取进行研究。传统特征提取方法中,语音频谱的特征信息没有得到充分提取和利用,采用了强化低频层频谱信息的方法,影响了攻击检测性能。而实际上,原始语音和回放语音的主要差异体现在高频层上,针对现有技术的不足,提出基于Fisher准则的融合特征检测算法和基于多层滤波的倒谱特征检测算法,从而更好地检测回放语音。本文主要工作内容如下:1.详细分析了预处理对信号的影响,对当前主流的语音特征参数MFCC、LFCC、LPC、IMFCC、CQCC等进行研究和算法实现,为改进特征参数打下基础。研究了三种经典的分类模型:高斯混合模型、支持向量机和高斯混合模型—通用背景模型,并对多种模型进行测试,结果表明GMM模型的识别性能最高。2.从波形、语谱图、频率信息量等多个角度探究两种语音的区分性特征,进一步了解录音产生的语音跟原始语音间的本质性差异,通过实验分析,发现两种语音的差异更多的表现在高频层,低频层差异小,且易受设备类型的影响。3.结合MFCC、LFCC、IMFCC特征参数的特性与Fisher准则,选取区分能力较好的特征分量,提出了一种基于Fisher准则的融合特征检测算法。从不同高斯阶数、不同特征参数及其组合、时间复杂度的角度进行实验对比,证明了该算法对提高系统检测效果与运行效率是有效的。4.针对频谱上的差异,在高频层采用逆梅尔滤波增强说话人信息的提取,突出差异,在低频层采用线性滤波与梅尔滤波组合,避免特征参数的叠加。多层融合,获得L-M-I滤波器组,从而形成新的倒谱特征。探究预加重系数、动态特征、CMVN、高斯阶数对检测结果的影响,证明了算法的可行性和有效性。实验结果表明,分类器为GMM时,多层滤波检测算法检测效果最优,在测试集上,等错误率为2.57%,相比MFCC、CQCC、LFCC、IMFCC、L-I,分别降低12.86%、9.66%、4.51%、3.33%、1.63%。并在SVM、Ada Boost分类器中均有稳定的检测效果。最后与说话人确认系统结合,能够有效抵抗回放语音攻击。
李黎晗[9](2020)在《基于互补模型评分融合的语音关键词检测方法研究》文中研究表明近几年随着计算机和智能手机的发展,当今社会已经逐渐步入人工智能时代。语音是人类最便捷的交流方式,这使得人机语音交互成为研究热点,许多科学家开始关注人机语音交互,实现人机的顺畅沟通,彻底解放人类的双手,方便人类的生活。语音关键词检测技术是语音识别方向的一个研究热点,它不需要将所有的语音内容识别出来,只需要从一段连续语音中检测出若干个设定的关键词,在电话监控、智能家居和智能音箱等多个领域被广泛应用。本文提供了一种低数据资源场景下基于互补模型评分融合的语音关键词检测方法,在利用音频经验轨迹对关键词进行建模的基础上,借鉴说话人识别的i-vector(Identity Vector)技术引入w-vector(Word Vector)的关键词建模方法,用具有一定信息表达互补的模型解决单一模型信息表达不充分的问题。对两种算法的评分进行融合,获得区分信息的互补性,从而解决单一模型判决不可靠的问题。本文的主要工作如下:1.实现了一种基于音频经验轨迹的关键词检测方法。该算法主要包括三个步骤:利用高斯分布构建语音特征空间、计算每个关键词的音频特征在语音特征空间上的类属性分布以及音频样本的标识子间转移概率。进行了一系列的算法性能实验,探究窗长、特征空间标识子的个数、标记数据量、相似度计算方法这些参数对算法性能的影响。2.实现了一种基于w-vector的关键词检测方法。将说话人识别中的i-vector方法应用在语音关键词检测中,为每个关键词构建代表关键词身份的矢量特征,本文称之为w-vector。通过计算每个关键词的高斯超矢量并利用因子分析对高斯超矢量降维得到每个关键词的w-vector,在检测时通过计算音频段与每个关键词的w-vector的PLDA(Probabilistic Linear Discriminant Analysis,PLDA)评分得到检测结果。3.实现了一种基于互补模型评分融合的关键词检测方法。提出关键词候选点的概念,主要依据是两种算法所得评分曲线的极大值位置。对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。对10个关键词进行检测,得到错误拒绝率和错误接受率分别是0.195和0.197。将基于互补模型评分融合的方法与仅基于音频经验轨迹的方法或仅基于w-vector的方法进行比较,验证互补模型评分融合方法的有效性,并与现有算法进行了性能对比,验证了在低数据资源场景下,基于互补模型评分融合的关键词检测方法实现的效果比基于隐马尔可夫模型的方法和基于神经网络的方法好。
郭晓晨[10](2020)在《面向短时语音的维吾尔语-汉语语种识别方法研究》文中研究指明语音是人们效率最高的沟通交流方式,也是社会交际的载体。语音也是是各个国家和各个民族之间的纽带,让人们交流更快捷方便。近年来,语种识别技术广泛应用在各个领域,例如:作为混合语音识别系统的前端区分混合语音,作为机器翻译中的前端处理,应用于多语种信息服务等。同时,随着一带一路倡议的提出,新疆越来越多的得到各地的关注。因此,本文的研究目标为:面向维吾尔语与汉语的语音,利用底层声学特征对语种识别任务开展相关研究,旨在建立一个能在短时语音条件下具有良好性能的语种识别模型。首先,由于目前还没有一个公用的基于维吾尔语-汉语的语种识别数据集,因此本文构建了一个用于维吾尔语-汉语语种识别的数据集,并对数据集的来源与基本信息、数据集的数据清洗和预处理过程做了介绍。并且提出了一种最大限度的保留语种区分性信息的静音检测处理方法。基于音调扰动方法,提出了一种可以弥补说话人数量过少、说话人男女分布不平衡的数据增强方法,并结合噪声扰动对数据集进行了增强。其次,如何从底层声学信息中更有效的提取语种可区分性特征是语种识别课题中的关键。基于此问题,本文开展了基于GMM-ivector框架的维吾尔语汉语语种识别研究,搭建了基于GMM-ivector的维吾尔语-汉语语种识别系统,通过实验的方式确定了模型的参数以及实现细节。最后基于搭建的GMM-ivector系统,验证了WCCN噪声补偿技术对系统的性能影响,并通过实验的方式对比了CDS、SVM、LDA等主流后端分类方法在短时语音的语种识别系统上的性能优劣。再次,基于GMM-ivector系统在短时条件下的性能不佳问题,开展了基于深度学习的维吾尔语-汉语语种识别系统研究。搭建了基于Resnet-50的深度学习语种识别系统,并通过对比的方式验证了深度学习下的语种识别系统在短时长条件下的性能要优于GMM-ivector系统。针对Resnet-50基线系统存在的问题对模型进行了改进,提出了Resnet-LSTM与Resnet-Attention两个改进模型,并综合不同时长下的测试语音片段对改进模型进行了评估,实验结果表明,改进的Resnet模型提高了短时语种识别任务的分类性能。最后,本文从语音的不同声学特征入手,开展了基于MFCC特征与基音周期特征的组合模型研究。将基音周期特征与MFCC特征直接进行拼接后训练了Resnet语种识别模型,证明了基音周期特征在语种识别任务中的有效性。然后对MFCC特征与基音周期特征分别进行建模,并在后端使用融合分类网络对模型进行了融合,得到了基于多特征的组合模型。实验结果表明,多特征的组合模型可以大大提高短时语音下的维吾尔语-汉语语种识别任务的分类性能。
二、自适应帧长特征提取对语音识别系统性能的影响(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、自适应帧长特征提取对语音识别系统性能的影响(论文提纲范文)
(1)复杂环境下中文语音识别系统的设计优化(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 选题意义和背景 |
1.2 语音增强算法国内外研究现状 |
1.3 语音识别国内外研究现状 |
1.4 本文创新点 |
1.5 本文结构 |
第二章 语音信号处理技术介绍 |
2.1 语音预处理 |
2.1.1 预加重 |
2.1.2 分帧加窗 |
2.1.3 端点检测 |
2.2 语音特征提取 |
2.3 语音增强 |
2.3.1 谱减法 |
2.3.2 Berouti谱减法 |
2.3.3 基于深度学习的语音增强算法 |
2.4 语音质量的评价指标 |
2.4.1 主观评价 |
2.4.2 客观评价 |
2.5 本章小结 |
第三章 基于噪声谱估计的自适应IBM算法 |
3.1 IBM语音增强模型 |
3.1.1 特征提取 |
3.1.2 波形重构 |
3.1.3 模型训练 |
3.2 经典语音增强算法的仿真实验 |
3.2.1 数据集 |
3.2.2 仿真实验 |
3.3 改进的IBM语音增强算法 |
3.4 改进的IBM算法仿真实验 |
3.5 基于噪声谱估计的自适应IBM语音增强算法 |
3.5.1 算法评价指标 |
3.5.2 仿真实验 |
3.6 本章小结 |
第四章 基于噪声谱估计的自适应中文语音识别系统 |
4.1 语音识别系统介绍 |
4.1.1 数据集 |
4.1.2 声学模型网络结构 |
4.1.3 损失函数 |
4.1.4 模型训练 |
4.1.5 词典 |
4.1.6 评价指标 |
4.2 仿真实验 |
4.2.1 原始语音数据集下的仿真实验 |
4.2.2 混合语音数据集下的仿真实验 |
4.2.3 拼音识别误差率与汉字识别误差率比较仿真实验 |
4.3 本章小结 |
第五章 基于Self-attention机制的神经网络语言模型 |
5.1 Attention机制 |
5.1.1 Encoder-Decoder框架 |
5.1.2 Self-attention原理 |
5.2 Self-attention语言模型结构 |
5.2.1 多头Attention机制 |
5.2.2 位置前向反馈神经网络 |
5.2.3 嵌入和Softmax函数 |
5.2.4 位置编码 |
5.3 基于Self-attention机制的语言模型仿真实验 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
(2)基于Kaldi的说话人识别技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 说话人识别技术面临的问题 |
1.4 研究内容与结构组织 |
1.4.1 研究内容 |
1.4.2 结构组织 |
第2章 说话人识别原理和技术 |
2.1 引言 |
2.2 说话人识别分类 |
2.3 说话人识别流程 |
2.4 前端声学特征的提取与处理 |
2.5 后端说话人识别模型 |
2.5.1 高斯混合模型 |
2.5.2 i-vector模型 |
2.5.3 d-vector模型 |
2.5.4 x-vector模型 |
2.5.5 端到端识别模型 |
2.6 评测算法分析 |
2.6.1 线性判别分析 |
2.6.2 概率性判别分析 |
2.7 评价标准 |
2.7.1 等错误率 |
2.7.2 检测代价函数 |
2.7.3 实时因子 |
2.8 Kaldi平台介绍 |
2.9 本章小结 |
第3章 基于多特征i-vector的说话人识别算法 |
3.1 引言 |
3.2 识别流程设计 |
3.2.1 算法总体架构 |
3.2.2 数据预处理 |
3.2.3 特征提取 |
3.3 实验及结果分析 |
3.3.1 实验环境 |
3.3.2 数据集 |
3.3.3 参数选择 |
3.3.4 实验结果分析 |
3.4 本章小结 |
第4章 基于多任务学习和注意力机制的x-vector说话人识别算法 |
4.1 引言 |
4.2 识别流程设计 |
4.2.1 算法总体架构 |
4.2.2 数据预处理 |
4.2.3 特征构造 |
4.3 实验及结果分析 |
4.3.1 数据集 |
4.3.2 参数选择 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第5章 基于语谱图和多头注意力机制的说话人识别算法 |
5.1 引言 |
5.2 识别流程设计 |
5.2.1 算法总体架构 |
5.2.2 数据预处理 |
5.2.3 特征构造 |
5.3 实验及结果分析 |
5.3.1 数据集 |
5.3.2 参数选择 |
5.3.3 实验结果分析 |
5.4 本章小结 |
总结与展望 |
参考文献 |
致谢 |
附录 A 攻读学位期间发表的学术论文和获奖情况 |
附录 B 攻读学位期间参与的科研项目 |
(3)基于融合特征的说话人识别技术研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的研究现状与发展 |
1.3 说话人识别技术现存问题 |
1.4 论文研究内容与结构安排 |
1.4.1 论文研究内容 |
1.4.2 论文结构安排 |
第二章 说话人识别基本理论 |
2.1 说话人识别的基本结构 |
2.2 语音信号的预处理技术 |
2.2.1 语音信号的采样 |
2.2.2 预加重 |
2.2.3 分帧和加窗 |
2.2.4 端点检测 |
2.3 语音特征参数的提取 |
2.4 支持向量机 |
2.5 常用特征降维策略 |
2.5.1 主成分分析 |
2.5.2 Fisher系数特征筛选 |
2.6 本章小结 |
第三章 基于深浅层融合特征的说话人识别 |
3.1 引言 |
3.2 传统语音特征 |
3.2.1 高斯混合模型 |
3.2.2 传统重组高斯超矢量 |
3.3 深度语音特征 |
3.3.1 深度神经网络相关理论 |
3.3.2 深度重组高斯超矢量 |
3.4 基于深浅层融合特征的说话人识别系统构建 |
3.5 实验结果仿真分析 |
3.5.1 实验环境与语料库 |
3.5.2 不同网络参数对系统性能的影响 |
3.5.3 高斯分量数对系统性能的影响 |
3.5.4 基于深度瓶颈特征和传统特征说话人性能对比 |
3.5.5 所提系统与其他方法性能的对比 |
3.5.6 不同特征降维方法对比实验 |
3.6 本章小结 |
第四章 基于优化权系数融合特征的说话人识别 |
4.1 引言 |
4.2 常用寻优算法 |
4.2.1 遗传算法 |
4.2.2 模拟退火算法 |
4.3 基于寻优算法融合特征的说话人识别系统构建 |
4.4 实验仿真与结果分析 |
4.4.1 不同算法参数对系统性能的影响 |
4.4.2 不同权值说话人识别性能对比 |
4.4.3 不同特征的性能对比 |
4.4.4 不同特征降维方法的性能对比 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(4)野外环境下的声目标识别技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 声目标识别技术应用国内外研究现状 |
1.2.2 信号降噪技术国内外研究现状 |
1.2.3 特征参数提取实际应用现状 |
1.3 本文主要工作内容 |
1.4 技术路线 |
第2章 自适应噪声抵消算法研究 |
2.1 自适应噪声抵消系统 |
2.1.1 自适应噪声抵消系统概述 |
2.1.2 自适应噪声抵消系统基本原理 |
2.2 自适应滤波算法 |
2.2.1 最佳滤波准则 |
2.2.2 基于LMS的自适应噪声抵消算法 |
2.2.3 归一化LMS(NLMS)算法 |
2.2.4 基于RLS的自适应噪声抵消算法 |
2.3 仿真结果对比分析 |
2.4 本章小结 |
第3章 端点检测与预判断 |
3.1 端点检测 |
3.2 预处理 |
3.3 双门限端点检测 |
3.3.1 双门限端点检测基本原理 |
3.3.2 双门限端点检测实现步骤 |
3.4 基于短时能量的改进端点检测算法 |
3.4.1 检测流程设计 |
3.4.2 端点检测结果分析 |
3.5 基于短时平均幅度的预判断 |
3.5.1 预判断的门限设置思路 |
3.5.2 预判断的门限判决方案设计 |
3.6 本章小结 |
第4章 声目标信号特征提取 |
4.1 时域特征分析 |
4.2 频域特征分析 |
4.2.1 短时傅里叶变换(STFT) |
4.2.2 快速傅里叶变换(FFT) |
4.2.3 频域特征参数提取 |
4.3 本章小结 |
第5章 声目标识别方法研究与结果分析 |
5.1 常用的声音目标识别方法 |
5.2 基于高斯混合模型(GMM)的声目标识别 |
5.2.1 基于高斯混合模型的分类算法设计 |
5.2.2 数据采集 |
5.2.3 实验方案设计 |
5.3 仿真实验与结果分析 |
5.3.1 不同特征参数下的目标识别结果分析 |
5.3.2 端点检测对识别结果的影响 |
5.3.3 自适应消噪对识别结果的影响 |
5.3.4 基于短时平均幅值的预判断结果分析 |
5.3.5 现场实验结果分析 |
5.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(5)面向高噪声场景的低功耗关键词识别特征提取模块设计(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景与意义 |
1.1.1 语音识别技术的定义与分类 |
1.1.2 语音识别技术的发展 |
1.1.3 语音识别技术的应用与课题意义 |
1.2 国内外研究现状 |
1.2.1 语音特征提取的算法研究现状 |
1.2.2 语音特征提取的硬件研究现状 |
1.3 研究内容与设计指标 |
1.4 论文组织 |
第二章 关键词识别总系统的算法分析 |
2.1 基于关键词识别的语音库的处理分析 |
2.2 关键词识别系统中常用的特征提取算法 |
2.2.1 语音信号的预处理 |
2.2.2 典型MFCC特征提取算法的分析 |
2.2.3 主流特征提取算法的评估与分析 |
2.3 基于MFCC的低功耗语音识别验证系统 |
2.3.1 关键词识别的神经网络模型 |
2.3.2 语音关键词识别系统中的训练与识别 |
2.4 本章小结 |
第三章 面向高噪声场景的低功耗MFCC特征提取算法的优化 |
3.1 特征提取总体架构设计流程 |
3.2 精简算法SMFCC方案的设计与分析 |
3.2.1 SMFCC特征提取方案的设计 |
3.2.2 SMFCC中求能量模块(cordic)的设计 |
3.3 SRMFCC_T子模块优化设计分析 |
3.3.1 预加重模块的设计优化与结果分析 |
3.3.2 梅尔滤波器组的优化设计与分析 |
3.4 基于分帧的FFT模块的优化设计与分析 |
3.4.1 复杂模块FFT的设计与分析 |
3.4.2 分帧模块与FFT结合的优化处理与分析 |
3.5 面向高噪声场景低功耗的SRMFCC总体结构和优化结果分析 |
3.5.1 SRMFCC的总体结构确定 |
3.5.2 识别精度对比分析 |
3.5.3 特征提取优化前后计算量对比分析 |
3.6 本章小结 |
第四章 面向高噪声场景的低功耗SRMFCC特征提取的硬件设计 |
4.1 SRMFCC特征提取的定点化分析 |
4.2 SRMFCC特征提取子模块的硬件设计 |
4.3 SRMFCC中高精度低功耗自适应的FFT模块的设计与优化 |
4.3.1 高精度低功耗的FFT的算法架构分析 |
4.3.2 低功耗FFT的硬件架构的设计与实现 |
4.3.3 低功耗FFT中的共享乘法器的设计 |
4.3.4 高精度低功耗自适应的FFT的硬件实现 |
4.4 SRMFCC特征提取的整体硬件架构 |
4.5 本章小结 |
第五章 面向高噪声场景的低功耗SRMFCC的验证与结果分析 |
5.1 面向高噪声场景的低功耗语音识别特征提取系统的验证方法流程 |
5.2 SRMFCC特征提取的子模块的功能验证结果分析和系统性能分析 |
5.2.1 SRMFCC子模块的功能验证 |
5.2.2 基于ASIC方案设计的SRMFCC硬件能效分析 |
5.3 SRMFCC的语音识别系统性能的对比分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
作者简介 |
(6)噪声环境下的语音基频检测算法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 语音基频检测算法的研究现状 |
1.2.1 语音基频检测算法的国外研究现状 |
1.2.2 语音基频检测算法的国内研究现状 |
1.3 本文的主要研究内容 |
2 语音基频的基本理论及语音库建立 |
2.1 语音信号的时域模型 |
2.1.1 语音信号的产生 |
2.1.2 语音信号的时域模型 |
2.1.3 语音信号的特征 |
2.2 语音基频基本理论 |
2.3 语音库的建立 |
2.3.1 纯净语音库的建立 |
2.3.2 噪声语音库的建立 |
2.3.3 真实环境语音库的建立 |
2.4 语音信号预处理 |
2.4.1 采集量化 |
2.4.2 预加重 |
2.4.3 分帧加窗 |
2.4.4 端点识别 |
2.5 小结 |
3 语音增强算法的改进 |
3.1 语音增强概述 |
3.2 噪声对语音信号处理系统的影响 |
3.2.1 噪声对语音端点检测的影响 |
3.2.2 噪声对语音信号基频检测的影响 |
3.3 后置自适应滤波器谱减算法实现 |
3.3.1 谱减算法原理及问题分析 |
3.3.2 自适应滤波法语音增强原理 |
3.3.3 后置自适应滤波器谱减算法的原理 |
3.4 后置自适应滤波器谱减算法的性能评估 |
3.4.1 语音增强算法性能评估方法 |
3.4.2 时域波形图及频域语谱图分析 |
3.4.3 仿真语音环境下的实验与分析 |
3.4.4 真实语音环境下实验及分析 |
3.5 小结 |
4 语音基频检测算法的研究与改进 |
4.1 语音基频检测算法综述 |
4.2 语音基频检测算法存在问题分析及改进措施 |
4.2.1 自相关函数法 |
4.2.2 平均幅度差函数法 |
4.2.3 语音基频检测算法的改进 |
4.2.4 提高语音基音周期检测准确性的措施 |
4.3 小结 |
5 实验与结论 |
5.1 语音数据的信息分布情况 |
5.2 语音基频检测算法的软件设计 |
5.3 改进的语音基频检测算法的语谱图分析 |
5.4 改进的语音基频检测算法的错误率参数分析 |
5.5 真实环境下的语音基频检测 |
5.6 小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读学位期间发表的论文、软着 |
(7)车载噪声背景下声纹识别关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 发展历史与研究现状 |
1.3 声纹识别研究的难点 |
1.4 论文主要内容安排 |
第二章 声纹识别相关原理 |
2.1 声纹识别系统 |
2.2 语音信号与噪声 |
2.2.1 语音信号的产生 |
2.2.2 车载噪声的来源 |
2.3 语音信号的预处理 |
2.4 声学模型 |
2.4.1 HMM模型 |
2.4.2 GMM-HMM模型 |
2.4.3 GMM-UBM模型 |
2.5 本章小结 |
第三章 语音信号端点检测方法研究 |
3.1 端点检测原理 |
3.2 端点检测常用算法 |
3.2.1 基于卷积神经网络的端点检测算法 |
3.2.2 基于谱熵的端点检测算法 |
3.2.3 基于频带方差的端点检测算法 |
3.2.4 基于双门限的端点检测算法 |
3.2.5 问题分析 |
3.3 基于GASA优化FCM-BIC的语音端点检测方法 |
3.3.1 GASA |
3.3.2 FCM |
3.3.3 BIC |
3.3.4 实现步骤 |
3.3.5 算法仿真 |
3.4 本章小结 |
第四章 声纹特征参数提取方法研究 |
4.1 声纹特征参数 |
4.1.1 线性预测倒谱系数 |
4.1.2 梅尔倒谱系数 |
4.1.3 瓶颈特征 |
4.2 基于TCL和稀疏DNN的瓶颈特征提取方法 |
4.2.1 TCL |
4.2.2 稀疏深度神经网络 |
4.2.3 方法流程 |
4.2.4 实验分析 |
4.3 本章小结 |
第五章 车载噪声背景下声纹识别系统实验与分析 |
5.1 系统设置 |
5.2 实验设计与结果分析 |
5.2.1 高斯混合阶数对系统的影响 |
5.2.2 端点检测对系统的影响 |
5.2.3 信噪比对系统的影响 |
5.3 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 1 攻读硕士学位期间主要研究成果 |
致谢 |
(8)回放语音攻击检测中特征参数的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 回放语音检测技术的研究历史与现状 |
1.2.1 研究发展状况 |
1.2.2 小结 |
1.3 论文的研究内容和章节安排 |
第二章 回放语音特征参数研究 |
2.1 说话人识别系统的框架 |
2.2 回放语音的预处理 |
2.3 回放语音的特征提取 |
2.3.1 基于听觉模型的特征参数 |
2.3.2 基于线性模型的特征参数 |
2.3.3 基于声门特性的特征 |
2.3.4 常数Q变换倒谱系数 |
2.4 本章小结 |
第三章 回放语音识别模型研究 |
3.1 高斯混合模型 |
3.1.1 GMM模型定义 |
3.1.2 GMM的训练 |
3.1.3 GMM的识别算法 |
3.2 高斯混合模型—通用背景模型 |
3.2.1 GMM-UBM模型定义 |
3.2.2 MAP自适应算法 |
3.3 支持向量机 |
3.3.1 SVM算法原理 |
3.3.2 LIBSVM |
3.4 本章小结 |
第四章 回放语音与原始语音特征对比分析 |
4.1 回放语音和原始语音的比较 |
4.2 实验样本设置 |
4.3 时域波形分析 |
4.4 语谱图分析 |
4.5 频率信息量分析 |
4.6 实验结果分析 |
4.7 本章小结 |
第五章 基于特征参数的回放语音检测算法 |
5.1 实验语音库与评判标准 |
5.2 选取实验特征 |
5.2.1 梅尔滤波器设计 |
5.2.2 逆梅尔滤波器与线性滤波器设计 |
5.3 基于Fisher准则的融合特征检测算法 |
5.3.1 Fisher准则 |
5.3.2 基于Fisher准则的融合特征提取算法 |
5.3.3 实验结果分析 |
5.3.3.1 高斯阶数对检测结果的影响 |
5.3.3.2 不同特征参数及其组合的对比实验 |
5.3.3.3 时间复杂度的对比实验 |
5.4 基于多层滤波的倒谱特征检测算法 |
5.4.1 多层滤波器组设计 |
5.4.2 实验结果分析 |
5.4.2.1 预加重系数对检测结果的影响 |
5.4.2.2 动态特征对检测结果的影响 |
5.4.2.3 特征规整对检测结果的影响 |
5.4.2.4 不同特征参数的对比实验 |
5.4.2.5 不同检测方法的对比实验 |
5.5 防回放语音攻击的说话人确认系统 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间发表的论文 |
(9)基于互补模型评分融合的语音关键词检测方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要工作及章节安排 |
第二章 语音关键词检测技术概述 |
2.1 语音关键词检测技术 |
2.2 本文算法研究方案 |
2.2.1 本文算法概述 |
2.2.2 声学建模基元选择 |
2.3 语音关键词检测系统的性能指标 |
2.4 本章小结 |
第三章 基于音频经验轨迹的语音关键词检测算法研究 |
3.1 基于音频经验轨迹的语音关键词检测算法框架 |
3.2 基于音频经验轨迹的关键词建模方法 |
3.2.1 语音特征分布空间构建 |
3.2.2 语音特征空间标识子的关键词类属性 |
3.2.3 关键词类内标识子转移概率 |
3.3 语音关键词检测方法 |
3.4 算法性能实验 |
3.4.1 实验设置 |
3.4.2 窗长大小的研究 |
3.4.3 特征空间标识子个数的选择 |
3.4.4 标记数据量对性能的影响 |
3.4.5 相似度计算方法探究 |
3.5 本章小结 |
第四章 基于互补模型评分融合的关键词检测算法研究 |
4.1 基于w-vector的语音关键词检测算法 |
4.1.1 语音关键词w-vector建模 |
4.1.2 语音关键词检测算法 |
4.2 基于互补模型评分融合的算法 |
4.2.1 基于互补模型评分融合算法框架设计 |
4.2.2 改进的分段方式探究 |
4.2.3 关键词候选点的定义 |
4.2.4 评分融合 |
4.3 算法性能实验 |
4.3.1 权重系数的取值 |
4.3.2 不同分段方式的检测时长 |
4.3.3 互补模型评分融合算法的性能 |
4.3.4 互补模型评分融合算法和现有算法的性能对比 |
4.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(10)面向短时语音的维吾尔语-汉语语种识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语种识别简介 |
1.1.1 语种识别概述 |
1.1.2 语种识别的研究意义 |
1.2 语种识别的研究现状 |
1.2.1 不同层次的语种区分性信息 |
1.2.2 语种识别的国内外相关研究概况 |
1.3 本文研究背景 |
1.4 本文的主要研究内容与章节安排 |
第2章 基于维吾尔语汉语的语种识别特征工程 |
2.1 数据来源 |
2.2 数据清洗 |
2.2.1 采样率转换 |
2.2.2 数据筛选与音量标准化 |
2.2.3 端点检测 |
2.2.4 划分数据集 |
2.3 数据增强 |
2.3.1 语音处理中常用的数据增强技术 |
2.3.2 本文采取的数据增强策略 |
2.4 声学特征提取 |
2.4.1 fbank特征 |
2.4.2 MFCC特征 |
2.5 本章小结 |
第3章 基于GMM-ivector的语音语种识别方法研究 |
3.1 GMM-ivector的模型架构 |
3.1.1 通用背景模型UBM |
3.1.2 最大后验概率准则MAP |
3.1.3 基于因子分析法的i-vector提取 |
3.2 后端判别模型 |
3.2.1 余弦距离判别CDS |
3.2.2 支持向量机SVM |
3.2.3 线性鉴别分析LDA |
3.3 基于类内协方差规整的噪声补偿技术 |
3.4 实验分析 |
3.4.1 UBM模型中高斯分量的个数的确定 |
3.4.2 噪声补偿补偿性能分析 |
3.4.3 后端分类模型构建实验 |
3.4.4 实验结果对比 |
3.5 本章小结 |
第4章 基于深度学习的语音语种识别方法研究 |
4.1 卷积神经网络概述 |
4.1.1 卷积层 |
4.1.2 池化层 |
4.1.3 全连接层 |
4.1.4 激活函数 |
4.2 基于Resnet网络的语种识别基线系统 |
4.2.1 Resnet网络结构简介 |
4.2.2 基于Resnet的基线系统构建 |
4.2.3 Resnet基线系统的层次结构改进 |
4.3 面向语句级向量编码层的Resnet网络改进 |
4.3.1 Resnet结合LSTM的语种识别 |
4.3.2 Restnet结合Attention的语种识别 |
4.4 实验分析 |
4.4.1 实验配置 |
4.4.2 Resnet的基线系统搭建实验 |
4.4.3 语句级向量编码的Resnet改进实验 |
4.4.4 各模型在测试集中的性能对比分析 |
4.5 本章小结 |
第5章 基于特征融合的语种识别方法研究 |
5.1 基音周期特征的提取 |
5.2 基于MFCC特征与基音周期特征的语种识别融合模型 |
5.3 实验分析 |
5.3.1 MFCC+pitch融合特征实验分析 |
5.3.2 改进的端点检测方法性能分析 |
5.3.3 基于MFCC与 pitch特征的组合模型实验分析 |
5.3.4 实验结果对比 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 研究总结 |
6.2 研究展望 |
参考文献 |
致谢 |
个人简历 |
在学期间研究成果 |
四、自适应帧长特征提取对语音识别系统性能的影响(论文参考文献)
- [1]复杂环境下中文语音识别系统的设计优化[D]. 梁涛. 西安电子科技大学, 2021
- [2]基于Kaldi的说话人识别技术研究[D]. 岳鲁鹏. 兰州理工大学, 2021(01)
- [3]基于融合特征的说话人识别技术研究[D]. 邹博. 南京邮电大学, 2020(03)
- [4]野外环境下的声目标识别技术研究[D]. 刘中越. 沈阳理工大学, 2021(01)
- [5]面向高噪声场景的低功耗关键词识别特征提取模块设计[D]. 杨晶. 东南大学, 2020
- [6]噪声环境下的语音基频检测算法研究[D]. 王小标. 西安理工大学, 2020(01)
- [7]车载噪声背景下声纹识别关键技术研究[D]. 汤琛. 湖南师范大学, 2020(01)
- [8]回放语音攻击检测中特征参数的研究[D]. 周晶. 南京财经大学, 2020(04)
- [9]基于互补模型评分融合的语音关键词检测方法研究[D]. 李黎晗. 华南理工大学, 2020(02)
- [10]面向短时语音的维吾尔语-汉语语种识别方法研究[D]. 郭晓晨. 新疆大学, 2020(07)
标签:自然语言处理论文; 特征提取论文; 语音识别技术论文; 自适应算法论文; kaldi语音识别论文;