步骤A并行度:1000;FPGA吞吐量 vs CPU吞吐量:33.3倍;FPGA延时vs CPU延时:3%;步骤B:CPU需要20000个时钟周期输出B的计算结果。 耗时20us,吞吐量:5万;FPGA可由2000个计算单元并行计算,30个时钟周期来输出A的计算结果。耗时0.3us:吞吐量333万;步骤B并行度:2000;FPGA吞吐量 vs CPU吞吐量:66.6倍;FPGA延时vs CPU延时:1.5%;步骤A、B联合起来看整个算法:CPU需要30000个时钟周期输出A、B的计算结果。 耗时30us,吞吐量:3.3万;FPGA总共有3000个计算单元在并行完成算法ALG0的计算, A、B步骤流水执行,算法ALG0 30个周期可以输出一个计算结果,吞吐量仍然333万,延时60个时钟周期,0.6us;算法ALG0的并行度:3000;(同一个时钟周期,有3000个计算单元在并行完成计算)FPGA吞吐量 vs CPU吞吐量:100倍;FPGA延时vs CPU延时:2%;如果只考虑单核性能:FPGA是CPU吞吐量的100倍,延时是CPU的2%;