这个项目是一款创新的智能手语翻译眼镜,它能够实时地将手语转换为听得见的语音。这款眼镜采用了VIAM平台和树莓派Zero 2 W,能够帮助聋人或听力受损的人士更自由、独立地与他人交流,减少对第三方手语翻译的依赖。
这款眼镜的设计既实用又低调,方便日常佩戴,能够无缝融入用户的日常生活中,让使用者能够轻松地与不懂手语的人士沟通。它的亮点在于利用人工智能技术检测手势并进行实时翻译,不仅打破了交流障碍,还促进了不同能力者之间的理解和共情。
硬件方面,项目选择了树莓派Zero 2 W作为核心计算单元,结合了高性能的摄像头模块来捕捉精确的手势动作。软件方面,通过VIAM平台集成了智能机器的管理和机器学习功能,使得设备能够识别手语并将其转换为语音输出。项目还包括了音频放大模块和3D打印的眼镜框架,整体装配简洁高效。
未来,项目将致力于提升设备的解释能力,包括更复杂的手势和方向识别,以实现更丰富和精确的手语翻译。这款智能手语翻译眼镜不仅是一个技术突破,更是通向无障碍沟通世界的一大步。
本项目中,需要一台功能强大的单板计算机(SBC)来处理手语翻译中涉及的复杂任务。虽然最初考虑使用Raspberry Pi 5,但其尺寸限制导致我们选择Raspberry Pi Zero 2 W,它提供了性能和紧凑性的良好平衡。
Raspberry Pi Zero 2 W正面
Raspberry Pi Zero 2 W背面
Raspberry Pi Zero 2 W 性能十分强大。它采用四核64位Arm Cortex-A53 CPU,主频为1GHz,由Raspberry Pi RP 3A 0系统级封装(SiP)提供动力。凭借512 MB的LPDDR 2 SDRAM,这款升级后的处理器与原始的Raspberry Pi Zero相比,单线程性能显著提高了40%,多线程性能提高了五倍。
为了在项目中捕捉准确的手势,我们选择了Raspberry Pi Camera Module 3(v3)。这个更新版本的相机模块提供了几个改进比其前辈。它具有16:9的宽高比和固定的自动对焦透镜,沿着更大的相机透镜和新的1190万像素传感器。这些增强功能确保了精确的图像捕获,这对于可靠的手语翻译非常重要。
相机模块
VIAM是一个软件平台,旨在简化智能机器的开发和管理。这些机器本质上是配备传感器和计算能力的机器人或设备,使它们能够与环境进行交互。VIAM通过提供一致的界面来控制这些机器、收集数据,甚至整合机器学习功能,从而简化了开发人员的任务。
所以我们可以开始创造我们的智能机器。这个过程很简单。首先,我们登录VIAM应用程序并创建一台新机器。然后,我们通过运行下面图像中给出的这些命令安装VIAM服务器。
一旦Viam服务器成功开始在Pi Zero 2 W上运行,就可以在仪表板上看到设备的在线状态。
接下来是添加摄像头组件捕捉图像。这里使用csi-pi模块来完成这项工作。
此模块使用此相机模块轻松将CSI相机集成到Viam项目中。
像机工作时显示从控制选项卡中访问的摄像机的实时过程。
现在是通过为机器设置视觉服务将计算机视觉集成到系统中的时候了。
虽然Viam的默认mlmodel视觉服务与Tensor Flow Lite模型兼容,但该项目采用YOLOv8模型。为了实现这一点,我们将利用模块化资源注册表中的一个模块来增强Viam与YOLOv8的集成。通过YOLOv8模块,我们能够将任何YOLOv8模型无缝地用于Viam机器,YOLOv8模型可以轻松识别26个字母的手语表达。
添加YOLOv8模块:
在视觉 attributes字 段中,只需放置模型位置。
测试视觉服务:当字母b显示在相机上时,控制显示可以检测出手语字母。
接下来,需要添加一个语音服务来朗读这些字母。使用VIAM的语音服务,为在Viam平台上运行的机器提供文本到语音(TTS)和语音到文本(STT)功能。
Raspberry Pi 没有音频输出插孔,我们需要使用micro USB适配器的屏蔽或声卡。
去掉外壳和不必要的部分,留下最后一个模块:
接下来使用一个16欧姆0.25瓦的扬声器来播放输出音频,音频性能不是那么好。
音频部分比较微弱,使用PAM8043放大器模块来增强。
该项目是在Fusion 360上设计的,并使用PLA长丝进行3D打印。
接下来安装组件:
安装完成:
更多回帖