首页
基于扩散网的瞬态噪声环境语音活动检测
返回

基于扩散网的瞬态噪声环境语音活动检测

2022-12-19 科技信息 By:佚名
最佳答案语音活动检测是一项必须将音频信号分割为语音和静音部分的任务。当前的方法在嘈杂的环境中难以完成任务,尤其是瞬态噪声。最近在 arXiv.org 上的一项研究提出了一种新算法,可以解决以前方法的局限性。语音和非语音音频帧的空间模式是通过 Diffusion Maps 方法独立学习的。它通过将高维数据点映射到...

语音活动检测是一项必须将音频信号分割为语音和静音部分的任务。当前的方法在嘈杂的环境中难以完成任务,尤其是瞬态噪声。最近在 arXiv.org 上的一项研究提出了一种新算法,可以解决以前方法的局限性。

语音和非语音音频帧的空间模式是通过 Diffusion Maps 方法独立学习的。它通过将高维数据点映射到嵌入低维空间的流形来执行非线性降维。这让语音的内在结构与瞬态和背景噪声的结构不同。五个对比实验证实,所提出的算法增强了语音活动检测性能,并且比竞争方法具有更好的泛化能力。

我们在瞬态和静态噪声的声学环境中解决语音活动检测问题,这在现实生活中经常发生。我们通过独立学习语音和非语音音频帧的底层几何结构来利用其独特的空间模式。这个过程是通过一个基于深度编码器-解码器的神经网络架构来完成的。这种结构涉及一个编码器,它将具有时间信息的光谱特征映射到它们的低维表示,这些表示是通过应用扩散图方法生成的。编码器馈送解码器,将嵌入的数据映射回高维空间。通过将解码器连接到编码器来获得一个深度神经网络,该网络被训练为将语音与非语音帧分离,类似于已知的扩散网络架构。实验结果表明,与竞争的语音活动检测方法相比,性能有所提高。在准确性、鲁棒性和泛化能力方面都实现了改进。我们的模型以实时方式执行,并且可以集成到基于音频的通信系统中。我们还提出了一种批处理算法,它为离线应用程序获得了更高的准确性。

猜你喜欢
苹果5和苹果4s哪个好(苹果5和苹果4s的区别)

苹果5和苹果4s哪个好(苹果5和苹果4s的区别)

12-18 0 阅读
英雄联盟制造商已确认其新FPS游戏的称号 并称为勇

英雄联盟制造商已确认其新FPS游戏的称号 并称为勇

12-18 0 阅读
怪谈新耳袋完整版(怪谈新耳袋全集)

怪谈新耳袋完整版(怪谈新耳袋全集)

12-18 0 阅读
多多益善是哪位人物的典故(多多益善)

多多益善是哪位人物的典故(多多益善)

12-19 0 阅读
丝瓜怎么做好吃丝瓜汤(丝瓜怎么做好吃)

丝瓜怎么做好吃丝瓜汤(丝瓜怎么做好吃)

12-18 0 阅读
基因突变一般发生在几岁(基因突变一般发生在)

基因突变一般发生在几岁(基因突变一般发生在)

12-18 0 阅读
热门推荐
苹果5和苹果4s哪个好(苹果5和苹果4s的区别)

苹果5和苹果4s哪个好(苹果5和苹果4s的区别)

12-18 0 阅读
英雄联盟制造商已确认其新FPS游戏的称号 并称为勇

英雄联盟制造商已确认其新FPS游戏的称号 并称为勇

12-18 0 阅读
怪谈新耳袋完整版(怪谈新耳袋全集)

怪谈新耳袋完整版(怪谈新耳袋全集)

12-18 0 阅读
多多益善是哪位人物的典故(多多益善)

多多益善是哪位人物的典故(多多益善)

12-19 0 阅读
丝瓜怎么做好吃丝瓜汤(丝瓜怎么做好吃)

丝瓜怎么做好吃丝瓜汤(丝瓜怎么做好吃)

12-18 0 阅读
基因突变一般发生在几岁(基因突变一般发生在)

基因突变一般发生在几岁(基因突变一般发生在)

12-18 0 阅读
动漫(dp接口)

动漫(dp接口)

12-18 0 阅读
斯里兰卡旅游攻略大全(斯里兰卡旅游攻略)

斯里兰卡旅游攻略大全(斯里兰卡旅游攻略)

12-19 0 阅读
鼻侧痒痒是不是有螨虫(鼻子两侧痒是有螨虫吗)

鼻侧痒痒是不是有螨虫(鼻子两侧痒是有螨虫吗)

12-19 0 阅读
55度杯使用说明(55度杯怎么用)

55度杯使用说明(55度杯怎么用)

12-18 0 阅读