完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN限制了助听器硬件(hearing aid hardware,HW)的实际部署,这些硬件是电池供电的,运行在资源受限的微控制器单元(microcontroller units,MCU)上,内存和计算能力有限。在这项工作中,我们使用模型压缩技术来弥补这一差距。我们在HW上对RNN施加约束,并描述了一种方法来满足它们。虽然模型压缩技术是一个活跃的研究领域,但我们是第一个证明其有效性的RNN语音增强,使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃,它可以减少计算负载。最后,我们对压缩模型进行感知评估,人类评分员对语音进行打分。结果显示,与基线相比,压缩模型的模型size和operation(操作)分别减少了11.9和2.9,在听力偏好上没有统计差异,只损失了0.55dB SDR。我们的模型实现了2.39ms的计算延迟,在10 ms的目标范围内,比之前的工作好351倍。 健康的耳朵是一个复杂的非线性系统,能够在大的动态范围内工作。当耳朵受损时,听觉系统可以用助听器(HA)增强,它可以执行一些耳朵不再能做的放大和过滤功能。语音增强(SE)可以缓解嘈杂环境中的听力困难,这是HA用户最关注的问题之一。最近的SE方法通常由循环神经网络(RNN)体现。SE模型必须实现低音频延迟,以确保测听者舒适。音频延迟被定义为噪声到达HA和助听器产生的纯净语音之间的延迟。可以容忍的延迟量取决于HA类型和如何处理用户自己的语音。使用之前的工作作为指导方针,我们的目标是最大音频延迟为30 ms。对于我们使用的基于帧的方法,由于帧和因果模型之间有50%的重叠,处理每帧的计算延迟约束为10ms。 HA形式因素强加了另一组约束,特别是在结合帧处理需求时。由于其体积小,采用了单片机(MCU)硬件平台。MCU实现了廉价、低功耗的计算,但代价是严重的内存和计算约束[10]。MCU Flash内存限制了最大允许模型尺寸(maximum allowed model size,MS),而SRAM内存限制了模型工作内存(upper bounds model working memory,WM),即用于存储中间结果的内存。为了实现高效的计算,SE模型必须量化为整型数据类型,我们必须最小化每秒所需的操作(ops)数量(ops/s),其中op表示单个加法或乘法。本文以STM32F746VE MCU[4]作为典型的HW平台,该MCU包含一个216MHz Arm Cortex-M7 [11],512KB Flash内存,320KB SRAM。我们使用Mbed OS[12]和CMSIS内核[13,14]。表1总结了SE模型约束。 |
|
|
|
5274 浏览 1 评论
【⌈嵌入式机电一体化系统设计与实现⌋阅读体验】+《智能化技术在船舶维护中的应用探索》
2734 浏览 0 评论
2557 浏览 0 评论
2267 浏览 0 评论
1680 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-11-21 19:58 , Processed in 0.607847 second(s), Total 63, Slave 47 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号