[经验]

详解天线系统解决方案中的FP16格式点积级联运算

elecfans小能手

2020-9-4 16:12:34

1829 FPGA 天线系统级联

Ookla 在美国和英国的测速结果显示，2020 年上半年推出的速度最快、性能最好的 5G 智能手机使用高通 (Qualcomm) 无线电芯片组和完整的调制解调器到天线系统解决方案，其中毫米波智能手机处于领先地位。

神经网络架构中的核心之一就是卷积层，卷积的最基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起，通常称之为点积。此向量乘法如下所示：

图 1 点积操作

该总和 S 由每个矢量元素的总和相乘而成，因此本文讲述的是使用 FP16 格式的点积运算实例，展示了 MLP72 支持的数字类型和乘数的范围。

此设计实现了同时处理 8 对 FP16 输入的点积。该设计包含四个 MLP72，使用 MLP 内部的级联路径连接。每个 MLP72 将两个并行乘法的结果相加（即），每个乘法都是 i_a 输入乘以 i_b 输入（均为 FP16 格式）的结果。来自每个 MLP72 的总和沿着 MLP72 的列级联到上面的下一个 MLP72 块。在最后一个 MLP72 中，在每个周期上，计算八个并行 FP16 乘法的总和。

最终结果是多个输入周期内的累加总和，其中累加由 i_first 和 i_last 输入控制。 i_first 输入信号指示累加和归零的第一组输入。 i_last 信号指示要累加和加到累加的最后一组输入。最终的 i_last 值可在之后的六个周期使用，并使用 i_last o_valid 进行限定。两次运算之间可以无空拍。

· 配置说明

表 1 FP16 点积配置表

端口说明

表 2 FP16 点积端口说明表

· 时序图

图 2 FP16 点积时序图

其中，

那么，以上运算功能如何对应到 MLP 内部呢？其后的细节已分为 MLP72 中的多个功能阶段进行说明。

· 进位链

首先请看下图，MLP 之间的进位链结构，这是 MLP 内部的专用走线，可以保证级联的高效执行。

图 3 MLP 进位链

· 乘法阶段