FPGA 类高性能可编程逻辑器件,正是多模无线基站的最佳构建平台之一。Xilinx率先发布和量产的65nm平台FPGA,则以大量先进技术和全新的设计有效增加了系统产品的生命周期并满足了3G、LTE、IMT-Advanced等移动通信标准和高性能处理设备对更多功能、性能、功耗和综合成本的苛刻要求。
更大容量、更高性能
尽管DSP的工作时钟频率已经提升到GHz量级,但还是无法满足高端应用系统对实时性的要求。换句话说,算法复杂度与传统DSP的性能之间一直存在着落差。而且,随着3G及LTE、IMT-Advanced等未来移动通信技术的出台,通信系统中的MIMO、OFDM、LDPC等无线算法和AVS等实时视频编译码算法的复杂度直线上升,使得这种落差呈进一步扩大态势。
传统上,这一落差是由专用信号处理芯片(ASIC或ASSP)来进行弥补。不过,FPGA凭借高度的灵活性和近些年来性能的提升以及功耗的改善,特别是近两年的时间内采用65nm工艺的高性能FPGA的推出,加快了自身向这块 DSP无法覆盖的信号细分市场渗透的速度。笔者以Xilinx的Virtex 5为例进行阐述。
Virtex-5系列所采用的6输入 LUT ExpressFabric技术在将性能提升了2个速度级别同时使动态功耗降低了35%,面积缩小 45%,总逻辑单元数多达 330,000个。同时,Virtex 5高达11.6 Mbit 的灵活嵌入式 Block RAM,可以以高达 550 MHz的工作速率运行。每个Block RAM模块最高可存储 36 Kbit 数据,可以配置成工作频率为 550 MHz的FIFO而无需消耗逻辑资源,或配置为双端口 RAM以增加带宽,还可以级联增加实现更大存储器。
为了满足设计师对多通道、高性能DSP算法加速的需要,所有 Virtex-5 系列都提供大量增强嵌入式型DSP48E slice块,在更大的动态范围内实现48位全精度结果而无需消耗逻辑结构资源;DSP48E Slice 支持专门的布线所实现的加法链结构突破了加法树的性能瓶颈。特别在面向信号处理的SXT 平台上的 Slice更多达 6?0 个,可以工作在550 MHz,实现 352 GMACS 的性能。同时每个 DSP48E Slice 在翻转率为 38% 的情况下,功耗仅为 1.38 mW/100 MHz,比90nm器件降低了40%。
更高的I/O速率,支持更多I/O标准
虽然现代电子系统互连越来越趋向于串行交换式互连网络,但对差分或单端并行I/O也有越来越高的性能要求。如LTE通信系统中采用的MIMO技术可能需要系统FPGA同TI公司串行LVDS输出的 4通道14bit 125 MSPs ADC芯片互连,单差分对最高数据率可能高达1.04Gbps,对FPGA提出了很高的要求;通信系统中大量采用DDR2、DDR3、QDR2等高时钟速率存储器实现对高速信号和分组数据的缓存处理,也需要FPGA提供有效的互连接口。
可靠的源同步数据采集是构建高性能并行接口时所面临的最为关键、困难的挑战,需要妥善处理时钟、数据线间的Skew以及信号间的噪声和串扰。如果一款器件能实现:1.25 Gbps的差分I/O 或 800 Mbps 单端 I/O 互连;能在宽电压、速度范围内支持40多种高性能I/O标准协议和定制电气标准协议;能够确保时钟和数据对齐时序要求,简化源同步接口设计,轻松做到高性能源同步并行或存储器接口,则将是非常理想的。Xilinx的Virtex 5是通过利用增强型SelectIO块、ChipSync 技术和Sparse chevron 封装技术、接地管脚的分配方法实现上述性能指标:在确保时钟位于数据有效窗口的中央,实现可靠的读数据采集的同时更好的控制同步开关输出(SSO)噪声。 Virtex 5 的推出为设计师实现系统互连最大带宽提供了足够的设计灵活性。例如使用DDR2 SDRAM实现高达384 Gbps的存储器带宽。
在传统无线基站和嵌入式信号处理系统中,多个FPGA及信号处理器件主要通过总线或用户专用互连结构。但总线结构存在性能限制,难以满足高性能系统的需要;而专用系统则难以满足互连互通的需要。因此,基于串行交换互连,以Serial RapidIO、PCI Express、GE为代表的嵌入式互连网络逐步进入无线基站和高性能处理系统。而处于多模基站和系统集成平台中心位置的FPGA,需要直面高速串行互连的需求。
Virtex 5所采用的全新 RocketIO GTP 千兆位级串行收发器设计和SelectIO并行I/O技术实现了新兴串行标准和现有并行标准间的灵活桥接,支持操作范围介于100Mbps 到 3.75Gbps之间的所有常见串行互连接口标准协议并可在单个 FPGA 中实现多个标准或定制协议(如sRIO、PCIe、FE/GE、FC、SAS、SATA等)。RocketIO GTP的可调整发送预加重和接收均衡技术,可以驱动超出40” 的背板,在恶劣通道上实现可靠的接收。
Virtex 5采用嵌入式PCIe模块将多种功能集成到单个65nm FPGA的方式来实现。Virtex-5 FPGA平台内置增强型PCI Express端点模块,可以实现处理层、数据链路层和物理层功能,支持 1、2、4 或 8通道。
Xilinx在对硬IP和软IP进行比较之后,在Virtex 5系列中采用了嵌入提升用户有效逻辑使用率和降低系统功耗的硬IP的方式来实现GE、PCIe等串行互连标准。例如×8模式的PCIe硬核可以比其他厂商FPGA以软核形式实现的降低至少1.5W的功耗。
Xilinx 65nm 平台FPGA包含多个符合IEEE 802.3标准的嵌入式10/100/1000 Mbps以太网MAC模块:内置式硬IP为每个以太网MAC释放大约1800个逻辑单元;所提供的可编程PHY接口同时支持标准的MII/GMII和使用 RocketIO收发器时的SGMII接口;当使用RocketIO收发器时,可以实现1000 Base-X的单芯片解决方案并广泛应用于AMC、ATCA和MicroTCA等新兴系统结构标准;由于已经通过UNH测试认证的兼容性和互操作能力,因此减少了系统的设计和验证工作量。
Xilinx的Virtex 5系列具有低歪斜、低抖动的差分时钟结构,可以达到550MHz的工作频率,再加上更加灵活的时钟管理管道结合了新型 PLL 和DCM(数字时钟管理器),使得该器件在保证了去Skew实现低时钟抖动的前提下同时确保了高精度和控制灵活性,极大地提高了时钟系统的性能。
Xilinx 利用65nm工艺的100Mbps–3.75Gbps收发器、集成式接口模块和通过预验证PCI Express、三模以太网模块及其他IP,不仅可以轻松快速满足创建板级、背板级和系统级的互连需要,也满足新一代通信、信号处理、图形、存储、网络交换和I/O器件上的需要,而且还将设计风险降至最低,节省了在早期的ASSP和ASIC中的投资。
更低功耗 更低成本
Xilinx 通过对Virtex-5系列采用新工艺、新技术、新封装和大量集成硬IP等方式,使得工程师在使用65nm工艺FPGA进行设计,可以大幅降低设计风险的同时显著降低功耗同时提升系统性能,实现性能和功耗的最佳均衡,并提升设计速度。这其中包括:采用ExpressFabric 技术将性能提升30%的同时使动态功耗降低35%;利用 65nm 三栅极氧化层技术降低以漏电流为主的静态功耗;采用新的RocketIO GTP收发器,使功耗比上一代器件降低77%;更小的散热系统进一步降低系统功耗;嵌入式 Block RAM 和分布式 RAM/FIFO减少了对外部RAM的需求;ChipSync 电路可以将时钟调整到数据正中,从而保证存储器接口的可靠性;SelectIO 电路可以灵活支持各种片上 I/O接口标准;DSP48E slices 为嵌入式乘法器提供了可选的加法器和累加器;RocketIO GTP 收发器提供内置式串行 I/O 性能和业内最低的功耗;PCI Express 端点模块设计用于和 RocketIO GTP 收发器一起使用,以便提供用于兼容的 PCIe 连接功能;10/100/1000 以太网 MAC 模块和 RocketIO GTP 收发器一起使用,提供内置式以太网连接功能以上种种基于65nm工艺器件的优势,大大降低了系统综合成本,例如实现x8模式的PCI Express,使用Xilinx的Virtex-5 FPGA可以比其他厂商的相同档次器件节约近10,000个LUT。
另外,Virtex-5 的 Sparse chevron 封装技术的独特的管脚排列降低了串扰改善了信号完整性,有助于去除成本高昂的板级调试和重设计过程。基片旁路电容去除了数百个外部电容,可以简化 PCB 布局和布线,缩小 PCB 尺寸,使系统成本再次降低。
如果FPGA的用量达到一定规模,还可以使用 Xilinx 的65nm EasyPath技术,在保证器件质量的同时将批量生产成本降低 30-75%,而且大幅缩短交货时间。
实例与结论
早在2006年2月,Mercury Computer Systems、VMETRO等公司就已经开始实际使用*估Virtex-5 系列FPGA,而*估结果促使更多的厂商迅速转向65nm的Virtex-5 FPGA。
得益于Virtex-5 LX系列的超大逻辑和存储容量,DiNI的DN9000K10PCIe板采用6片Virtex-5 LX330和1片LX50T可实现高达1100万门级的ASIC验证任务。Nallatech 和Alpha Data采用LX110T实现高性能PMC计算子板。VMETRO采用Virtex-5 LX110T实现高性能CPCI接口处理模块,采用V5LX110T 和V5SX95T实现高性能VXS信号处理平台。Curtiss-Wright 以LX330T为核心构建CHAMP-FX2高性能信号处理平台。Sundance则采用Virtex-5 LXT或SXT构建灵活的嵌入式处理模块。
65nm工艺FPGA 已经逐步蚕食 ASIC 和 ASSP的传统市场,广泛应用到网络、电信、存储、服务器、计算、无线、广播、视频、成像、医疗、工业和军用等诸多高性能领域,尤其是在以多模无线基站为代表的高端市场成为理想系统集成平台。
FPGA 类高性能可编程逻辑器件,正是多模无线基站的最佳构建平台之一。Xilinx率先发布和量产的65nm平台FPGA,则以大量先进技术和全新的设计有效增加了系统产品的生命周期并满足了3G、LTE、IMT-Advanced等移动通信标准和高性能处理设备对更多功能、性能、功耗和综合成本的苛刻要求。
更大容量、更高性能
尽管DSP的工作时钟频率已经提升到GHz量级,但还是无法满足高端应用系统对实时性的要求。换句话说,算法复杂度与传统DSP的性能之间一直存在着落差。而且,随着3G及LTE、IMT-Advanced等未来移动通信技术的出台,通信系统中的MIMO、OFDM、LDPC等无线算法和AVS等实时视频编译码算法的复杂度直线上升,使得这种落差呈进一步扩大态势。
传统上,这一落差是由专用信号处理芯片(ASIC或ASSP)来进行弥补。不过,FPGA凭借高度的灵活性和近些年来性能的提升以及功耗的改善,特别是近两年的时间内采用65nm工艺的高性能FPGA的推出,加快了自身向这块 DSP无法覆盖的信号细分市场渗透的速度。笔者以Xilinx的Virtex 5为例进行阐述。
Virtex-5系列所采用的6输入 LUT ExpressFabric技术在将性能提升了2个速度级别同时使动态功耗降低了35%,面积缩小 45%,总逻辑单元数多达 330,000个。同时,Virtex 5高达11.6 Mbit 的灵活嵌入式 Block RAM,可以以高达 550 MHz的工作速率运行。每个Block RAM模块最高可存储 36 Kbit 数据,可以配置成工作频率为 550 MHz的FIFO而无需消耗逻辑资源,或配置为双端口 RAM以增加带宽,还可以级联增加实现更大存储器。
为了满足设计师对多通道、高性能DSP算法加速的需要,所有 Virtex-5 系列都提供大量增强嵌入式型DSP48E slice块,在更大的动态范围内实现48位全精度结果而无需消耗逻辑结构资源;DSP48E Slice 支持专门的布线所实现的加法链结构突破了加法树的性能瓶颈。特别在面向信号处理的SXT 平台上的 Slice更多达 6?0 个,可以工作在550 MHz,实现 352 GMACS 的性能。同时每个 DSP48E Slice 在翻转率为 38% 的情况下,功耗仅为 1.38 mW/100 MHz,比90nm器件降低了40%。
更高的I/O速率,支持更多I/O标准
虽然现代电子系统互连越来越趋向于串行交换式互连网络,但对差分或单端并行I/O也有越来越高的性能要求。如LTE通信系统中采用的MIMO技术可能需要系统FPGA同TI公司串行LVDS输出的 4通道14bit 125 MSPs ADC芯片互连,单差分对最高数据率可能高达1.04Gbps,对FPGA提出了很高的要求;通信系统中大量采用DDR2、DDR3、QDR2等高时钟速率存储器实现对高速信号和分组数据的缓存处理,也需要FPGA提供有效的互连接口。
可靠的源同步数据采集是构建高性能并行接口时所面临的最为关键、困难的挑战,需要妥善处理时钟、数据线间的Skew以及信号间的噪声和串扰。如果一款器件能实现:1.25 Gbps的差分I/O 或 800 Mbps 单端 I/O 互连;能在宽电压、速度范围内支持40多种高性能I/O标准协议和定制电气标准协议;能够确保时钟和数据对齐时序要求,简化源同步接口设计,轻松做到高性能源同步并行或存储器接口,则将是非常理想的。Xilinx的Virtex 5是通过利用增强型SelectIO块、ChipSync 技术和Sparse chevron 封装技术、接地管脚的分配方法实现上述性能指标:在确保时钟位于数据有效窗口的中央,实现可靠的读数据采集的同时更好的控制同步开关输出(SSO)噪声。 Virtex 5 的推出为设计师实现系统互连最大带宽提供了足够的设计灵活性。例如使用DDR2 SDRAM实现高达384 Gbps的存储器带宽。
在传统无线基站和嵌入式信号处理系统中,多个FPGA及信号处理器件主要通过总线或用户专用互连结构。但总线结构存在性能限制,难以满足高性能系统的需要;而专用系统则难以满足互连互通的需要。因此,基于串行交换互连,以Serial RapidIO、PCI Express、GE为代表的嵌入式互连网络逐步进入无线基站和高性能处理系统。而处于多模基站和系统集成平台中心位置的FPGA,需要直面高速串行互连的需求。
Virtex 5所采用的全新 RocketIO GTP 千兆位级串行收发器设计和SelectIO并行I/O技术实现了新兴串行标准和现有并行标准间的灵活桥接,支持操作范围介于100Mbps 到 3.75Gbps之间的所有常见串行互连接口标准协议并可在单个 FPGA 中实现多个标准或定制协议(如sRIO、PCIe、FE/GE、FC、SAS、SATA等)。RocketIO GTP的可调整发送预加重和接收均衡技术,可以驱动超出40” 的背板,在恶劣通道上实现可靠的接收。
Virtex 5采用嵌入式PCIe模块将多种功能集成到单个65nm FPGA的方式来实现。Virtex-5 FPGA平台内置增强型PCI Express端点模块,可以实现处理层、数据链路层和物理层功能,支持 1、2、4 或 8通道。
Xilinx在对硬IP和软IP进行比较之后,在Virtex 5系列中采用了嵌入提升用户有效逻辑使用率和降低系统功耗的硬IP的方式来实现GE、PCIe等串行互连标准。例如×8模式的PCIe硬核可以比其他厂商FPGA以软核形式实现的降低至少1.5W的功耗。
Xilinx 65nm 平台FPGA包含多个符合IEEE 802.3标准的嵌入式10/100/1000 Mbps以太网MAC模块:内置式硬IP为每个以太网MAC释放大约1800个逻辑单元;所提供的可编程PHY接口同时支持标准的MII/GMII和使用 RocketIO收发器时的SGMII接口;当使用RocketIO收发器时,可以实现1000 Base-X的单芯片解决方案并广泛应用于AMC、ATCA和MicroTCA等新兴系统结构标准;由于已经通过UNH测试认证的兼容性和互操作能力,因此减少了系统的设计和验证工作量。
Xilinx的Virtex 5系列具有低歪斜、低抖动的差分时钟结构,可以达到550MHz的工作频率,再加上更加灵活的时钟管理管道结合了新型 PLL 和DCM(数字时钟管理器),使得该器件在保证了去Skew实现低时钟抖动的前提下同时确保了高精度和控制灵活性,极大地提高了时钟系统的性能。
Xilinx 利用65nm工艺的100Mbps–3.75Gbps收发器、集成式接口模块和通过预验证PCI Express、三模以太网模块及其他IP,不仅可以轻松快速满足创建板级、背板级和系统级的互连需要,也满足新一代通信、信号处理、图形、存储、网络交换和I/O器件上的需要,而且还将设计风险降至最低,节省了在早期的ASSP和ASIC中的投资。
更低功耗 更低成本
Xilinx 通过对Virtex-5系列采用新工艺、新技术、新封装和大量集成硬IP等方式,使得工程师在使用65nm工艺FPGA进行设计,可以大幅降低设计风险的同时显著降低功耗同时提升系统性能,实现性能和功耗的最佳均衡,并提升设计速度。这其中包括:采用ExpressFabric 技术将性能提升30%的同时使动态功耗降低35%;利用 65nm 三栅极氧化层技术降低以漏电流为主的静态功耗;采用新的RocketIO GTP收发器,使功耗比上一代器件降低77%;更小的散热系统进一步降低系统功耗;嵌入式 Block RAM 和分布式 RAM/FIFO减少了对外部RAM的需求;ChipSync 电路可以将时钟调整到数据正中,从而保证存储器接口的可靠性;SelectIO 电路可以灵活支持各种片上 I/O接口标准;DSP48E slices 为嵌入式乘法器提供了可选的加法器和累加器;RocketIO GTP 收发器提供内置式串行 I/O 性能和业内最低的功耗;PCI Express 端点模块设计用于和 RocketIO GTP 收发器一起使用,以便提供用于兼容的 PCIe 连接功能;10/100/1000 以太网 MAC 模块和 RocketIO GTP 收发器一起使用,提供内置式以太网连接功能以上种种基于65nm工艺器件的优势,大大降低了系统综合成本,例如实现x8模式的PCI Express,使用Xilinx的Virtex-5 FPGA可以比其他厂商的相同档次器件节约近10,000个LUT。
另外,Virtex-5 的 Sparse chevron 封装技术的独特的管脚排列降低了串扰改善了信号完整性,有助于去除成本高昂的板级调试和重设计过程。基片旁路电容去除了数百个外部电容,可以简化 PCB 布局和布线,缩小 PCB 尺寸,使系统成本再次降低。
如果FPGA的用量达到一定规模,还可以使用 Xilinx 的65nm EasyPath技术,在保证器件质量的同时将批量生产成本降低 30-75%,而且大幅缩短交货时间。
实例与结论
早在2006年2月,Mercury Computer Systems、VMETRO等公司就已经开始实际使用*估Virtex-5 系列FPGA,而*估结果促使更多的厂商迅速转向65nm的Virtex-5 FPGA。
得益于Virtex-5 LX系列的超大逻辑和存储容量,DiNI的DN9000K10PCIe板采用6片Virtex-5 LX330和1片LX50T可实现高达1100万门级的ASIC验证任务。Nallatech 和Alpha Data采用LX110T实现高性能PMC计算子板。VMETRO采用Virtex-5 LX110T实现高性能CPCI接口处理模块,采用V5LX110T 和V5SX95T实现高性能VXS信号处理平台。Curtiss-Wright 以LX330T为核心构建CHAMP-FX2高性能信号处理平台。Sundance则采用Virtex-5 LXT或SXT构建灵活的嵌入式处理模块。
65nm工艺FPGA 已经逐步蚕食 ASIC 和 ASSP的传统市场,广泛应用到网络、电信、存储、服务器、计算、无线、广播、视频、成像、医疗、工业和军用等诸多高性能领域,尤其是在以多模无线基站为代表的高端市场成为理想系统集成平台。
举报