不同应用市场对嵌入式AI的综合性能指标

我们以Imagination新发布的两款内核产品为例，来分析不同应用市场对嵌入式AI的综合性能指标。

徐敏

2021-1-14 14:27:51

　　现在，我们每天使用的很多设备都利用了神经网络技术：在智能手机中它们为照片搜索功能提供支持，还用于人脸识别帮助大家使用人脸解锁手机；它们可以通过识别车牌了解你驾车驶入或离开拥堵区。它们足够的“聪明”，能够检测一个人的肢体语言——这对监控系统非常的有用，它们也被应用到带摄像头的AV系统中，可以识别每个人并让系统提供个性化的内容服务，在汽车上涉及的应用包括车道偏离预警、司机状态监控等，此外，通过大量实验和应用证明神经网络比人类更擅长检测皮肤癌——可见神经网络的应用既广泛又多样。
　　区别于“传统”一切都基于云的人工智能（AI），这些基于现场应用设备的神经网络计算，可以被称为嵌入式AI；这是一个快速发展但也渴求技术创新的市场，也是众多SoC设计公司正在以创新产品去开拓的市场。随着Imagination在去年9月推出Series2NX神经网络加速器（NNA），嵌入式AI加速领域内的游戏规则正在被改变。现在，我们以Imagination新发布的两款内核产品为例，来分析不同应用市场对嵌入式AI的综合性能指标。这两款产品是面向高端市场的PowerVR AX2185，以及面向中档市场的AX2145。

王官君

2021-1-14 14:28:10

　　神经网络作为解决问题以及驱动多领域新型应用的工具正变得越来越流行，下图分别说明了在移动设备和智能监控摄像机等领域内快速发展的嵌入式AI应用。
　　

　　虽然神经网络可以进行离线训练，但是在进行推断处理时——运行神经网络实时识别和处理对象——有必要将这些技术转移到终端设备中，而不是将这些任务放在云端进行处理。举一个例子：无人机，它们的飞行速度可以超过150mph（英里每小时），神经网络可以驱动碰撞检测系统，然而如果没有专门的硬件来进行图像处理，无人机将需要看到前方10-15米的物体才能避开障碍物。由于发送和接收信息所需的延迟和带宽，云服务器并不是合适的解决方案。搭建专用PowerVR NNA的无人机能够以每小时150英里的速度飞行，并且避开1米以内的障碍物，这大大提高了响应能力和安全性，并增强这类应用的创造性。
　　

　　专用神经网络硬件往往被视为SoC集成中的下一步，在20世纪80年代除了早期的桌面CPU之外还集成了数字协同处理器，而且很快就成为了这类设计的标准。虽然很多计算任务已经从CPU转移到GPU上来，但这对于工作来说仍然不是最有效的设计工具，将它们转移到专用的本地硬件才是符合逻辑的解决方案，性能优势是显而易见的，采用高端GPU检索1000张图片需要60秒，但是使用我们的NNA只需要2秒，之前的方案对这些图片进行分类要消耗1%的电量，但是NNA消耗1%的电量可以处理42万8千张图片，这是非常具有说服力的。
　　

　　去年9月，Imagination推出的Series2NX加速器是基于神经网络推理而构建的，是目前业界性能最好的解决方案，同时这些加速器还对所有的主要卷积神经网络层提供支持，比如Inception、ResNet，框架包括Tensorflow、Caffe2和PyTorch等。
　　该解决方案一个关键的差异化因素在于它提供了灵活的精度，使用由16位数据组成的经过训练的网络可以达到非常高的准确度，然而使用较低的精度训练网络意味着仍然可以保持较高的精度，而且其优势是可以显著降低功耗和带宽。在实际情况中这使得将NNA集成到智能相机、智能手机等嵌入式设备中可以花费较低的成本同时保持较高的实用性。针对这些已经被验证过的创新，查看Imagination网站上相关博客，可以了解更多关于采用高效推理训练神经网络的处理过程和好处。
　　下表展示了精度灵活性的好处，简而言之采用4位精度你可以大幅度降低功耗和带宽（内存）需求，精确度仅下降1%，这在大多数实际情况下对于设备的效率没有明显的影响。下面，我们以Imagination的两款神经网络加速器为例，来说明不同市场对性能指标和其他因素的考量：
　　

　　PowerVR AX2185
　　Imagination的Series2NX已经在市场上取得了成功并且已经授权给多家厂商，今天它们正在不断扩大市场的选择范围。首先，通过增强原始内核推出了PowerVR AX2185，其次发布另一个版本即PowerVR AX2145。一个关键的新特性是这两款核心都增加了对Android NN API的硬件支持，使得开发人员能够开发更多基于深度学习的应用，大大丰富了安卓市场应用。
　　

　　从性能角度来看，PowerVR AX2185面向的是高端嵌入式市场，它集成了8个全位宽计算引擎，能够提供每秒最多可达4.1兆赫的运算，在目前市场上其每平方毫米性能参数是最高的。实际上这个水平是最新的桌面GPU性能的3.5倍。对于那些正在使用功耗较高的GPU进行神经网络训练的公司来说，这是非常具有吸引力的，尤其是汽车领域。与友商提供的硬件解决方案相比，基于4位数据的网络AX2185仅需要50%的带宽，而与基于DSP的竞争厂商的方案相比则降低了75%。
　　

　　虽然高端设备已经具备了人脸解锁等诸多功能，但是这些功能正在迅速地更新迭代，设备制造商希望以更低的价格提供这些功能，当然消费者也想为他们的手机支付更少的钱但同时还能拥有相同甚至更好的功能，比如智能相机确保家庭安全、智能手机的人脸解锁等。是的，消费者也想分享这个蛋糕。

　　神经网络作为解决问题以及驱动多领域新型应用的工具正变得越来越流行，下图分别说明了在移动设备和智能监控摄像机等领域内快速发展的嵌入式AI应用。
　　

　　虽然神经网络可以进行离线训练，但是在进行推断处理时——运行神经网络实时识别和处理对象——有必要将这些技术转移到终端设备中，而不是将这些任务放在云端进行处理。举一个例子：无人机，它们的飞行速度可以超过150mph（英里每小时），神经网络可以驱动碰撞检测系统，然而如果没有专门的硬件来进行图像处理，无人机将需要看到前方10-15米的物体才能避开障碍物。由于发送和接收信息所需的延迟和带宽，云服务器并不是合适的解决方案。搭建专用PowerVR NNA的无人机能够以每小时150英里的速度飞行，并且避开1米以内的障碍物，这大大提高了响应能力和安全性，并增强这类应用的创造性。
　　

　　专用神经网络硬件往往被视为SoC集成中的下一步，在20世纪80年代除了早期的桌面CPU之外还集成了数字协同处理器，而且很快就成为了这类设计的标准。虽然很多计算任务已经从CPU转移到GPU上来，但这对于工作来说仍然不是最有效的设计工具，将它们转移到专用的本地硬件才是符合逻辑的解决方案，性能优势是显而易见的，采用高端GPU检索1000张图片需要60秒，但是使用我们的NNA只需要2秒，之前的方案对这些图片进行分类要消耗1%的电量，但是NNA消耗1%的电量可以处理42万8千张图片，这是非常具有说服力的。
　　

　　去年9月，Imagination推出的Series2NX加速器是基于神经网络推理而构建的，是目前业界性能最好的解决方案，同时这些加速器还对所有的主要卷积神经网络层提供支持，比如Inception、ResNet，框架包括Tensorflow、Caffe2和PyTorch等。
　　该解决方案一个关键的差异化因素在于它提供了灵活的精度，使用由16位数据组成的经过训练的网络可以达到非常高的准确度，然而使用较低的精度训练网络意味着仍然可以保持较高的精度，而且其优势是可以显著降低功耗和带宽。在实际情况中这使得将NNA集成到智能相机、智能手机等嵌入式设备中可以花费较低的成本同时保持较高的实用性。针对这些已经被验证过的创新，查看Imagination网站上相关博客，可以了解更多关于采用高效推理训练神经网络的处理过程和好处。
　　下表展示了精度灵活性的好处，简而言之采用4位精度你可以大幅度降低功耗和带宽（内存）需求，精确度仅下降1%，这在大多数实际情况下对于设备的效率没有明显的影响。下面，我们以Imagination的两款神经网络加速器为例，来说明不同市场对性能指标和其他因素的考量：
　　

　　PowerVR AX2185
　　Imagination的Series2NX已经在市场上取得了成功并且已经授权给多家厂商，今天它们正在不断扩大市场的选择范围。首先，通过增强原始内核推出了PowerVR AX2185，其次发布另一个版本即PowerVR AX2145。一个关键的新特性是这两款核心都增加了对Android NN API的硬件支持，使得开发人员能够开发更多基于深度学习的应用，大大丰富了安卓市场应用。
　　

　　从性能角度来看，PowerVR AX2185面向的是高端嵌入式市场，它集成了8个全位宽计算引擎，能够提供每秒最多可达4.1兆赫的运算，在目前市场上其每平方毫米性能参数是最高的。实际上这个水平是最新的桌面GPU性能的3.5倍。对于那些正在使用功耗较高的GPU进行神经网络训练的公司来说，这是非常具有吸引力的，尤其是汽车领域。与友商提供的硬件解决方案相比，基于4位数据的网络AX2185仅需要50%的带宽，而与基于DSP的竞争厂商的方案相比则降低了75%。
　　

　　虽然高端设备已经具备了人脸解锁等诸多功能，但是这些功能正在迅速地更新迭代，设备制造商希望以更低的价格提供这些功能，当然消费者也想为他们的手机支付更少的钱但同时还能拥有相同甚至更好的功能，比如智能相机确保家庭安全、智能手机的人脸解锁等。是的，消费者也想分享这个蛋糕。

谭军红

2021-1-14 14:28:20

　　PowerVR AX2145
　　如何在内存有限的设备上保持这种用户体验呢？答案是PowerVR AX2145。它为性能效率而调整了整体性能，此外它高度调优了矢量计算，卷积引擎结合了优化的内核存储结构，能够提供明显的最大性能参数，而且与AX2185相比每平方毫米面积的推理性能提升了50%，同时降低了系统峰值内存带宽（以GB/s计算）。我们为其实现的性能和效率之间的平衡而感到骄傲，我们认为这对于成本敏感的设备是非常理想的选择。
　　

　　开发工具包也是值得去考量的另一个因素，这是因为硬件本身并不能算是解决方案。Imagination这样的领先厂商提供了PowerVR AI工具包，这大大简化了用户的部署流程，调试和网络分析都非常的简单，此外，它还支持对训练后的网络进行优化，其中的API支持包括IMG DNN和Android DNN，提供GPU和NNA之间无缝的互操作性。
　　

易静帜

回帖（3）

徐敏

王官君

谭军红

相关问答

为什么需要嵌入式AI？

参数变化和电路结构的改变对稳压电源性能指标有什么影响？

Sigma-Delta ADC的基本原理及性能指标是什么？

任意波形发生器有哪些性能指标？

影响示波器的主要性能指标包括哪些？

氧化铁应满足的性能指标要求有哪些？

嵌入式计算机性能怎么评测？

从嵌入式系统到嵌入式操作系统需要经历什么？

嵌入式计算机性能怎么评测？

PLC的特点及其性能指标有哪些

20万+工程师都在用，免费PCB检查工具