向量和浮点数相关增强
通用矩阵乘(GEMM)
矩阵乘是神经网络的Convolution Layer的关键部分。 Weights放在一个矩阵,activations 放在另一个矩阵。
图1 weights和activation的矩阵乘, Arm Compute Library Layout
为了做矩阵乘,一个简单的算法通常使用3个嵌套循环,每次计算一个输出。
总共的数据取需要:2MN*K
Armv8.6-A在SVE和NEON里引进了新的矩阵乘指令。这通过减少内存访问的次数优化这个过程。这是通过一次计算多个元素来实现的,比如
图2 一次计算2x2个元素
这里我们每次从A和B取两个操作数(2xfetches)但是每次计算4个结果(一次loop 4次计算;4倍减少循环次数)。总的来说,相较于每次计算一个元素,数据取的数量减半。
区域越大好处越多,比如 4x4的数组,每个循环深度需要8个操作数,但是进行16个乘。
图3 计算4x4 块的结果
NEON和SVE里加入BF16和有符号/无符号 8-bit整型矩阵乘指令。SVE额外加入了对单精度和双精度矩阵乘的支持。
BFloat16
BFloat16(BF16)是最近特别针对神经网络高性能处理引进的浮点数格式。Armv8.6-A增加了利用BF16浮点数格式加速特定运算的指令。
更多有关arm BF16支持的信息可以在这个神经网络的帖子找到。
虚拟化和系统管理相关的增强
虚拟化:细化的trap
从Armv7-A开始引入虚拟化以来,arm持续改进虚拟化的支持。一个虚拟化关键的支持是trap虚拟机执行的一些操作。目的是为了虚拟化这些操作或是让hypervisor充当Guest OS的哨兵。
Armv8.6-A改进了第二个使用场景的支持(让hypervisor当着Guest OS的哨兵), 通过细化的trap控制,包括各个系统寄存器,来实现。
WFE traps
Wait-for-Event (WFE)指令让在等待一个事件,比如等一个锁释放,的CPU进入低功耗状态,当WFE在一个虚拟机中执行时,hypervisor通常trap这个WFE指令,让CPU运行其他的workload.
通常wait-for-event的事件会比较快到来,意味着推迟trap WFE可能有利于性能。Arm的研究表明引进延迟可以提高一个未超载系统的吞吐量。为了支持这个功能,Armv8.6-A引进了可配置的trap延迟时间的可选功能。
通用定时器Generic Timer:高精度时间
从Armv7-A开始,arm提供了标准的定时器框架,Generic Timer构架。Armv8.6-A引进了一序列Generic Timer的改进。
Generic Timer提供了一个CNTFREQ_EL0寄存器,用来报告system count的频率,但是给予系统设计选择其频率值的自由。这可能造成在不同频率系统上软件迁移workload的挑战。Armv8.6-A将这个频率标准化为1GHz, 这提供了一致的时间基础。 1GHz也远比Armv8.6-A之前构架的指导频率(译者:1-50MHz)高,因此可以提供更高的精度。
另外,增加了自同步(self-synchronizing)的物理和虚拟system count寄存器,这可以简化代码序列,比如,为了保证在一个内存操作之后的读当前count值的代码。
安全
在Armv8.3-A和Armv8.5-A中,我们引进了指针鉴权(Pointer Authentication, PAC)和 Branch Target Indicators (BTI)的支持。它们一起可以帮助抵抗如ROP和JOP攻击((Return- and Jump-Oriented Programming))技术,明显减少系统中可用的gadget数目。
Armv8.6-A在此基础上改进了指针鉴权(Pointer Authentication)的支持。
在Armv8.3-A中,当鉴权失败时,返回一个无效地址。在很多情况下,这个地址在鉴权指令(AUT*)之后很快会被使用,或做跳转或数据访问。使用这样的指针会导致一个异常。
在有限的情况下,AUT*指令返回的地址不会马上使用,Armv8.6-A引入了2个功能来处理这些情况。
EnhancedPAC2
EnhancedPAC2改变了增加PAC到指针的方式。在Armv8.3-A 中, PAC替换部分指针高bits。而在EnhancedPAC2中,PAC是与指针的高bits进行XOR操作。
FPAC
当一个攻击者可以获取AUT*指令返回的地址时,他们可能采用重复猜测的方式得到这个地址的正确的PAC。
为了对付这种攻击,在Armv8.6-A中加入了一个新扩展(FPAC )。 如果有FPAC功能,当PAC不正确时,AUT*指令会导致异常,从而阻止攻击者重复尝试猜测一个地址的正确PAC。
其他功能
Armv8.6-A也包含一些小功能:
数据gathering hint, 用来表示写merging可能对性能优化没有好处
额外的PMU events
增加Activity Monitor Units (AMU)的虚拟化支持
总结
这篇博文简要介绍了Armv8-A构架中Armv8.6-A 引进的最新功能。这些功能提供了未来CPU在机器学习神经网络,虚拟化这些领域的增强,和改进处理效能的矩阵乘和改进的安全功能。下一步是和我们包括Linaro在内的生态伙伴一起使能开源软件,保证当包含这些功能的硬件可用时,软件已经准备好了。
原作者:Nigel Stephens
更多回帖