使用便宜的开源计算模块实时检测海洋哺乳动物,以实现主动管理解决方案。
[]()
(浮标照片和视频版权归于 Cetaware )
公司规模 :1-10名员工
公司行业: 环境科学与服务
网址 :www.cetaware.nz
[]()
功能和技术规格列表
实时信号处理和推理,用于对鲸类发声进行分类。
96kHz采样率(最高可达384kHz)
水听器灵敏度 -165 dB re 1V µPa
LTE Cat M-1 用于遥测/连接。
用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。
项目背景
[]()
通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线数据,从而确认未来动物因环境变化而发生的变化。例如,通过检测不同栖息地中发声物种的发声情况,研究人员可以调查种群数量,并绘制其丰度、栖息地利用和生物多样性的趋势。这些数据集对于建立基线至关重要,这样才能量化并更好地管理人类活动(例如建筑施工)的影响。生态声学(例如生物声学)令人兴奋的一点是,发声动物非常适合被动声学监测 (PAM) 技术。PAM 的优势在于其可扩展性。许多自主记录器(实时记录或记录到存储卡)可以部署在难以通过基于视觉的方法(例如视觉调查,例如摄像机、航拍或样线)进行研究的偏远栖息地。
海洋就是这样一个成本高昂且难以大规模采样的地方。在研究海洋哺乳动物的栖息地利用/存在情况时,天气和能见度始终是制约因素,因为目视调查需要晴朗的天气和白天的光照时间。这必然会导致某些数据集出现采样偏差,其中海洋哺乳动物的“热点”往往与人类活动较多的区域重叠。然而,鲸鱼和海豚在夜间活动,并且可以移动到与白天不同的区域。因此,对鲸鱼和海豚的叫声,甚至鱼类和无脊椎动物的叫声进行被动声学监测 (PAM) 可以揭示大量关于其生态环境的信息,并为研究人员提供更全面的了解。此外,通过检测船只的噪音,可以使用相同的设备来监测人类在海洋栖息地的存在或活动。
面临的挑战
由于声波记录仪 (PAM) 具有提供难以研究物种的连续生态数据的潜力,且不受天气或光照条件的限制,声学记录仪在保护科学中的应用越来越广泛。在海洋中,水听器用于监听珊瑚礁、深海、河口和海岸线。全球最常用的技术仍然是自主记录仪,它是一种深度额定设备,由连接到前置放大器的水听器、数模转换器 (DAC)、控制器和存储设备组成。记录仪部署在所有深度(取决于所使用的设备),通常每次部署数月(在许多情况下长达一年)。一些 PAM 系统配备通过电缆连接到岸站的水听器,并可长期稳定运行。这些技术使研究人员能够整理数十万小时的记录,这些记录需要进行自动化分析才能从中获得有意义的信息。而这正是深度学习改变游戏规则的地方。
深度学习模型和人工智能加速硬件释放了PAM真正的可扩展潜力,使科学家能够在合理的时间内分析数TB的记录。迁移学习意味着研究人员可以使用自己职业生涯中收集的带注释数据集,根据自身目的微调高效的深度学习模型。人工智能加速硬件的出现意味着这些模型能够以前所未有的速度运行,相比之下,在CPU上运行的算法(包括更传统的基于机器学习的分类器,例如随机森林模型)的速度更快。然而,当自动记录仪被回收时,尤其是在记录了几个月后从多个栖息地回收时,存在一些瓶颈问题,会延迟数据分析(假设仪器已被成功找到并回收)。此外,自动记录仪还面临进水(即洪水)和存储卡损坏的风险(所有浸入水中的技术设备都是如此),这意味着数据可能会在不知不觉中丢失,而基线数据集的后续缺口可能会妨碍科学家得出具有统计意义的可靠结论。
在边缘部署深度学习模型可以规避自主记录器数据分析的瓶颈,为使用“大数据”研究生态系统的研究人员带来巨大优势。在边缘部署深度学习模型并实时传输处理后的数据,可以规避数据安全问题,因为数据可以立即被检索、存档和备份。
然而,海洋噪音很大,海洋哺乳动物的监测通常也发生在人类活动频繁的区域。例如,港口、建筑工地、航道、城市化河口和海港都是存在大量人为噪声源的区域。此外,天气、洋流(潮汐)、生物污损和其他动物的声音(例如鱼类和无脊椎动物)也会产生大量需要“滤除”(即去除)的声音,以免掩盖目标声音或导致误报(即报告检测到声音,而实际上这些声音来自其他来源,例如天气或船舶声纳)。因此,定期更新模型非常重要,这样在经过训练有素的生物声学专家验证初始数据后,船上的人工智能系统才能继续进行训练(即人机协同训练流程)。无线更新意味着先进的技术(例如使用 Google DeepResearch 敏捷建模框架训练的移动友好型模型架构)可以在没有设备检索的情况下推向大海。
CM5 解决方案(为什么选择 ArmSoM CM5?)
自适应边缘处理和多线程边缘处理适用于多种声源,需要计算能力强大且极其高效的硬件和软件。ARMSoM 的系统级模块 (SoM) 在 AIoT 的计算能力和功耗之间实现了完美平衡(运行 Armbian 时,空闲功耗为 0.5-1W)。RK3576 SoC 配备 4 个 Cortex A72 和 4 个 A55 处理器,可实现资源的定制化利用,而 NPU 和 LPDDR5 RAM 则为实时音频流分类提供了极低的延迟。
集成 ARM 处理器的 NPU 的出现,为生物声学领域的边缘机器学习带来了真正的优势。使用 ESP32-S3 等微控制器仍然具有重要意义,但 ARMSoM 在其开发板上采用 RK35xx SoC,实现了并行处理流水线和音频分类的并发推理。这非常强大,因为这意味着可以使用单个水听器进行不同的声学分析,同时监听多种鲸鱼、海豚以及其他声源的声音。
然后,使用ARMSoM CM5等开源 SoM 具有成本效益等开源 SoM 还有成本效益使用科学级硬件和仪器监测海洋成本高昂。实时声学监测和生物声学信号检测器/分类器也非常昂贵。这意味着被动声学监测成本过高,尤其对于发展中国家或非营利组织而言。 2024年的一项调查发现, 90%的受访者表示需要低成本的自主录音设备,这催生了国际低成本水听器项目。该调查涵盖了来自世界各地政府、大学和非政府组织的研究人员。通过使用开源计算硬件,实时声学监测的构建成本可以低于使用专用微控制器的系统。
实施过程
为了展示开源硬件在生物声学边缘处理方面的优势,我们需要一个演示浮标。我们专注于开发和部署用于海洋科学的实时声学监测系统,但要使我们的技术发挥作用,需要一个平台。ARMSoM CM5 及其外围硬件与 Northport Limited 合作,安装在新西兰北部旺格雷港内的一个 Nexsens 浮标内。水听器安装在浮标下方,连接到 24 位、96kHz DAC,然后连接到计算模块。使用 4G 蜂窝网络连接到 AWS 进行实时数据传输。检测数据(音频数据、声谱图和元数据)被发送到 AWS,以便岸上进行进一步分析。
[]()
(虎鲸照片需注明来源:Ingrid Visser)
成果和效益
RK3576 是一款功能强大的 SoC,能够轻松运行我们整个实时 AI 流程,同时还配备了 LPDDR5 RAM,功耗也比以往更低。它目前安装在旺格雷的浮标内,并已成功将多种海豚的数据实时传输到我们的在线仪表板,确保数据准确无误。在过去 13 个月中,该浮标已提供 219 次进出港口的海洋哺乳动物遭遇的声学数据。在这 219 次遭遇中,有 24 次是虎鲸,其余大部分是宽吻海豚(其中 3 次是新西兰海狗)。