您的当前位置:首页正文

一种语音降噪方法[发明专利]

来源:客趣旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 109378013 A(43)申请公布日 2019.02.22

(21)申请号 201811379108.0(22)申请日 2018.11.19

(71)申请人 南瑞集团有限公司

地址 211100 江苏省南京市江宁区诚信大

道19号

申请人 南京南瑞信息通信科技有限公司(72)发明人 郝小龙 韩斌 樊强 彭启伟 

薛依铭 王学广 贾政 张铁勋 崔漾 (74)专利代理机构 成都弘毅天承知识产权代理

有限公司 51230

代理人 马林中(51)Int.Cl.

G10L 21/0264(2013.01)G10L 21/0232(2013.01)

权利要求书1页 说明书4页 附图1页

G10L 25/21(2013.01)G10L 25/87(2013.01)

(54)发明名称

一种语音降噪方法(57)摘要

本发明公开了一种语音降噪方法,结合传统的信号处理方法和神经网络模型,二者取长补短,先使用传统的信号处理方法对音频信号进行处理,能够滤除一部分均匀的环境噪声,如白噪声,使得后续的神经网络模型能够主要处理其他噪声,如汽车鸣笛,其他人声音等,同时,本方法对带噪语音样本执行VAD操作,去掉了非必要的信号,能够一定程度训练和降噪的效果,解决了传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本的问题。

CN 109378013 ACN 109378013 A

权 利 要 求 书

1/1页

1.一种语音降噪方法,包括基于神经网络模型的深度降噪模型,其特征在于:还包括以下步骤:

A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;

C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号。

2.根据权利要求1所述的一种语音降噪方法,其特征在于:所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:

A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;

A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。3.根据权利要求1所述的一种语音降噪方法,其特征在于:所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。

4.根据权利要求1所述的一种语音降噪方法,其特征在于:所述基于神经网络模型的深度降噪模型的训练包括以下步骤:

G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;

G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;

G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,训练神经网络得到基于神经网络模型的深度降噪模型。

5.根据权利要求4所述的一种语音降噪方法,其特征在于:本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。

6.根据权利要求4所述的一种语音降噪方法,其特征在于:本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。

2

CN 109378013 A

说 明 书一种语音降噪方法

1/4页

技术领域

[0001]本发明涉及音频处理领域,特别涉及一种语音降噪方法。

背景技术

[0002]现实生活中,语音信号一般都带有噪声,在进一步处理信号前,往往要对信号进行降噪,随着信噪比的减小,降噪方法处理的效果也随之变差,也经常使得语音丢字或者波形失真。如何在低信噪比情况下,达到不错的降噪效果,是一个值得探究的问题。现在的语音降噪一般分为,传统信号处理方式:如最小均方算法、谱减法、维纳滤波法;以及神经网络方式,使用深度学习网络直接在时域处理,使用带噪声语音以及干净语音样本训练降噪模型,使用模型对输入语音进行降噪处理。

[0003]上述两种语音降噪分别的缺陷如下:传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本。发明内容

[0004]本发明的目的在于:提供了一种语音降噪方法,解决了传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本的问题。

[0005]本发明采用的技术方案如下:[0006]一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:[0007]A、对带噪语音信号进行预处理得到预处理过的语音信号;[0008]B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;[0009]C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;[0010]D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;[0011]E、将步骤D中预定格式的带噪语音信号切片成固定长度;[0012]F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;[0013]进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:[0014]A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;[0015]A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;[0016]A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;[0017]A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;[0018]A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。

[0019]进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。

3

CN 109378013 A[0020]

说 明 书

2/4页

基于神经网络的深度降噪模型设计如图所示。共包含编码网络和解码网络。在编

码网络,采用全卷积网络实现信号卷积处理,采用Pooling层实现信号缩放。在解码网络,采用反Pooling层和卷积层,实现信号的解码,其中反Pooling层用到解码网络中对应层的Pooling信息,最终输出增强或去噪语音。[0021]进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:[0022]G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;[0023]G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;[0024]G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,采用随机梯度下降法训练神经网络,得到基于神经网络模型的深度降噪模型。

[0025]进一步的,本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。[0026]进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。[0027]综上所述,由于采用了上述技术方案,本发明的有益效果是:[0028]1.本发明一种语音降噪方法,本方法对带噪信号先进行降噪预处理,能够滤除一部分均匀的环境噪声,如白噪声,使得后续的神经网络模型能够主要处理其他噪声,如汽车鸣笛,其他人声音等。

[0029]2.本发明一种语音降噪方法,本方法对带噪语音样本执行VAD操作,去掉了非必要的信号,能够缩短音频降噪处理的时间。附图说明

[0030]本发明将通过例子并参照附图的方式说明,其中:[0031]图1是本发明的流程图;

[0032]图2是本发明所采用的深度卷积降噪网络的示意图;

具体实施方式

[0033]本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。[0034]下面结合图1、图2对本发明作详细说明。[0035]实施例1

[0036]一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:[0037]A、对带噪语音信号进行预处理得到预处理过的语音信号;[0038]B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;[0039]C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;[0040]D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;

4

CN 109378013 A[0041]

说 明 书

3/4页

E、将步骤D中预定格式的带噪语音信号切片成固定长度;

[0042]F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;[0043]实施例2

[0044]本实施例与实施例1的区别在于所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:[0045]A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;[0046]A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;[0047]A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;[0048]A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;[0049]A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。

[0050]进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。[0051]进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:[0052]G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;[0053]G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;[0054]G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,训练神经网络得到基于神经网络模型的深度降噪模型。[0055]实施例3

[0056]本实施例与实施2的区别在于本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。[0057]实施例4

[0058]一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:[0059]A、对带噪语音信号进行预处理得到预处理过的语音信号;[0060]B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;[0061]C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;[0062]D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;该格式采用16000Hz,16位量化,单通道的脉冲编码调制;[0063]E、将步骤D中预定格式的带噪语音信号切片成固定长度,如1s;[0064]F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;[0065]进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:[0066]A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;[0067]A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;

5

CN 109378013 A[0068]

说 明 书

4/4页

A3、使用最小均方算法LMS对每一帧频域信号进去噪处理;

[0069]A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;[0070]A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。

[0071]实施例5

[0072]本实施例是比较噪声信号和Wiener方法的增强信号的客观评估结果,结果如表1所示,各行分别代表不同的测度。

[0073]

MetricPESQCSIGCBAKCOVLSSNR

[0074]

Noisy1.973.352.442.631.68Wiener2.223.232.682.675.07本文方法2.203.643.152.968.29

表1

[0075]以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

6

CN 109378013 A

说 明 书 附 图

1/1页

图1

图2

7

因篇幅问题不能全部显示,请点此查看更多更全内容