Page 83 - 蒙古语科尔沁土语研究体
P. 83
第三章 实验语音学对科尔沁土语的分析与研究
的科尔沁土语语音数据,其中噪声成分在中高频段(1-4kHz)较为突出且与语音
信号相互交织,维纳滤波去噪方法能够根据信号与噪声的统计规律,在该频段内
对语音信号进行精细的分离与提纯,使得语音信号在中高频部分的音质和可懂度
得到明显改善。
除上述两种方法外,还有基于小波变换的去噪技术。小波变换能够将语音信
号分解为不同尺度和频率的小波系数,通过对小波系数进行阈值处理,将小于阈
值的小波系数视为噪声并置零,然后再进行小波重构得到去噪后的语音信号。这
种方法在处理非平稳噪声和保留语音信号的细节特征方面具有一定优势,适用于
噪声特性较为复杂多变的科尔沁土语语音数据去噪处理场景。
(三)语音分帧
语音信号从宏观时间尺度上看是动态变化的,但在较短的局部时间段内,具
有相对稳定的特性,即所谓的短时平稳性。基于这一特性,为了深入细致地分析
语音信号的时变特征,需要对语音数据进行分帧处理,将连续的语音流切割成一
系列短时段的语音帧,以便逐帧进行精准的特征分析。
在确定帧长和帧移参数时,通常综合考虑语音信号的特性以及计算复杂度等
因素。一般而言,帧长取值范围多在 20~30,如 25ms 的帧长较为常用。帧移则
通常设置为帧长的 0.4~0.6 倍,如对于 25ms 的帧长,帧移可设为 10~15ms,常
见取值为 10ms。这样的帧长与帧移设置既能保证在每一帧内语音信号的特征相
对稳定,又能确保相邻帧之间存在一定的重叠部分,从而完整地覆盖整个语音信
号,避免信息遗漏。
在分帧操作过程中,为了减少吉布斯现象对语音信号分析的不良影响,需要
对每一帧语音信号进行加窗处理。常用的窗函数包括汉明窗(Hamming window)
和汉宁窗(Hanning window)等。以汉明窗为例,其窗函数表达式为:在实际操
作中,将每一帧的语音信号与相应的窗函数逐点相乘,得到加窗后的语音帧。加
窗处理使得语音信号在帧与帧之间的过渡更加平滑自然,有效避免了频谱泄露现
象的发生,确保了语音特征分析的准确性。例如,在对科尔沁土语的元音发音进
行频谱分析时,经过加窗处理后的语音帧能够更准确地反映元音在不同频率段的
能量分布特征,为后续深入研究元音的共振峰结构、音色特点等提供可靠的数据
基础。
完成语音分帧后,便可针对每一帧语音开展多种语音特征的提取工作,如短
71

