有许多因素会影响器件的功效,功效可以用电池两次充电之间可用小时数来衡量。在如今这个高清移动屏时代,电池耗费最大的主要因素有两个——显示器亮度和视频与图形子系统的功耗。在这篇文章中,我们将讨论后者——系统级芯片中的智能视频和显示流水线(Display Pipeline)。智能,意味着提供与竞争性解决方案类似的性能,但要求低得多的功耗。
视频与图形子系统面临的挑战
现代图形SoC要求以高帧速率渲染高分辨率图像,并且在此基础之上执行多个图像后处理任务,如缩放、旋转、像素格式转换等等。应对这种挑战的典型方法是采用图形处理单元(GPU),然而,由于其通用性架构,在具体显示处理操作期间的功效并不是最优的。
针对这种情况,Evatronix公司开发出了PANTA DP IP内核——系列显示处理器,旨在从GPU接管这些特殊显示任务,进而显著降低功耗。PANTA处理器专门针对一些执行任务进行了优化,如多层组合、YUVRGB转换、旋转、阿尔法混合、伽玛校正以及在将帧缓冲内容提交给显示器之前的其它任务。这样可以通过部分或全部卸载GPU任务而显著降低总的SoC动态功耗。由于通过减少对视频和图形帧缓冲器的访问次数而保留了最小的系统内存带宽,因此可以进一步降低PANTA DP辅助SoC的功耗。
增强现有架构
我们以一个处理多个显示器输出的GPU处理显示流水线为例。该系统要在两个具有不同分辨率的屏幕上显示图形帧——外部全高清(1920x1080像素)和本地高清(1280x720像素)显示器。每个帧由3个层组成。第一层是由以前设备相机记录的经过译码的全高清视频。这个帧以YUV 4:2:0格式存储在帧缓冲器内。另外两层是音量控制和记录速率,由GPU以RGB格式产生。在组合层可以被显示之前必须执行许多操作,包括YUV到RGB视频层转换、三帧阿尔法混合、缩放和旋转。在如图1所示的系统中,显示控制器只需传送帧缓冲器中由GPU准备好的最终数据。
图1:典型的多显示器系统。
在这个案例中,能量被GPU中执行的特殊显示任务浪费了,而GPU专门针对执行不同图形运算操作——本例中是2D图形渲染进行过优化。
为了提高能效,可以使用PANTA系列元件。图2显示了一个图形子系统架构例子,其中使用了两个配置有PANTA CP20缩放协处理器的PANTA DP30显示处理器。在这个例子中,GPU只负责渲染图形层像素,并将结果发送到帧缓冲器。因此GPU任务量得到了很大程度地卸载,因为YUV到RGB转换、阿尔法混合、缩放和旋转交给了PANTA DP30和PANTA CP20单元来完成。
图2:采用PANTA元件的多显示器子系统。
在这个系统中,由PANTA DP30转换到RGB格式的视频层会与其它图形层组合在一起,并在外部屏幕上直接显示。与此同时,组合帧被PANTA CP20模块从1080p缩小到720p,并返回到帧缓冲器。第2个PANTA显示处理器取回缩小后的帧并旋转90度,然后将它发送给本地显示器。由于PANTA IP的缩放和旋转功能,这两个额外操作不需要在GPU中执行,因此图形子系统中的总体功耗会有显著降低。另外,由于帧缓冲器中存储的图形数据大小取决于帧分辨率和格式,因此与图1所示的典型多显示器解决方案相比,PANTA元件的使用可以将系统内存带宽最多减少40%。在这个用例中描述并用40nm LP工艺实现的PANTA元件总功耗不到30mW。
PANTA显示处理器还能降低更多的功耗。在有些情况下,所有视频和图形处理任务都可以由PANTA元件执行,因而允许完全关闭GPU。图3显示了一种用例,其中PANTA IP显示由视频译码器传送至帧缓冲器的译码视频。这样的数据流只要求旋转以及YUV至RGB转换,因此完全不需要GPU参与。在这种情况下,采用40nm LP工艺实现的PANTA DP30功耗不会超过6mW。
图3:没有GPU的PANTA DP辅助显示子系统。
小结
因为三维游戏和高清视频回放正在成为移动设备的基本功能,因此上述视频流水线在SoC等级得到功耗最优化非常重要。用户期望智能手机和平板电脑能够提供超长电池寿命,在多媒体应用期间也不例外。
Evatronix PANTA处理器可以在不牺牲任何性能的前提下帮助用户提高显示子系统的功效,这要归功于代替GPU执行特殊显示任务、最大限度减少视频/图形子系统内存带宽的内部IP。
有许多因素会影响器件的功效,功效可以用电池两次充电之间可用小时数来衡量。在如今这个高清移动屏时代,电池耗费最大的主要因素有两个——显示器亮度和视频与图形子系统的功耗。在这篇文章中,我们将讨论后者——系统级芯片中的智能视频和显示流水线(Display Pipeline)。智能,意味着提供与竞争性解决方案类似的性能,但要求低得多的功耗。
视频与图形子系统面临的挑战
现代图形SoC要求以高帧速率渲染高分辨率图像,并且在此基础之上执行多个图像后处理任务,如缩放、旋转、像素格式转换等等。应对这种挑战的典型方法是采用图形处理单元(GPU),然而,由于其通用性架构,在具体显示处理操作期间的功效并不是最优的。
针对这种情况,Evatronix公司开发出了PANTA DP IP内核——系列显示处理器,旨在从GPU接管这些特殊显示任务,进而显著降低功耗。PANTA处理器专门针对一些执行任务进行了优化,如多层组合、YUVRGB转换、旋转、阿尔法混合、伽玛校正以及在将帧缓冲内容提交给显示器之前的其它任务。这样可以通过部分或全部卸载GPU任务而显著降低总的SoC动态功耗。由于通过减少对视频和图形帧缓冲器的访问次数而保留了最小的系统内存带宽,因此可以进一步降低PANTA DP辅助SoC的功耗。
增强现有架构
我们以一个处理多个显示器输出的GPU处理显示流水线为例。该系统要在两个具有不同分辨率的屏幕上显示图形帧——外部全高清(1920x1080像素)和本地高清(1280x720像素)显示器。每个帧由3个层组成。第一层是由以前设备相机记录的经过译码的全高清视频。这个帧以YUV 4:2:0格式存储在帧缓冲器内。另外两层是音量控制和记录速率,由GPU以RGB格式产生。在组合层可以被显示之前必须执行许多操作,包括YUV到RGB视频层转换、三帧阿尔法混合、缩放和旋转。在如图1所示的系统中,显示控制器只需传送帧缓冲器中由GPU准备好的最终数据。
图1:典型的多显示器系统。
在这个案例中,能量被GPU中执行的特殊显示任务浪费了,而GPU专门针对执行不同图形运算操作——本例中是2D图形渲染进行过优化。
为了提高能效,可以使用PANTA系列元件。图2显示了一个图形子系统架构例子,其中使用了两个配置有PANTA CP20缩放协处理器的PANTA DP30显示处理器。在这个例子中,GPU只负责渲染图形层像素,并将结果发送到帧缓冲器。因此GPU任务量得到了很大程度地卸载,因为YUV到RGB转换、阿尔法混合、缩放和旋转交给了PANTA DP30和PANTA CP20单元来完成。
图2:采用PANTA元件的多显示器子系统。
在这个系统中,由PANTA DP30转换到RGB格式的视频层会与其它图形层组合在一起,并在外部屏幕上直接显示。与此同时,组合帧被PANTA CP20模块从1080p缩小到720p,并返回到帧缓冲器。第2个PANTA显示处理器取回缩小后的帧并旋转90度,然后将它发送给本地显示器。由于PANTA IP的缩放和旋转功能,这两个额外操作不需要在GPU中执行,因此图形子系统中的总体功耗会有显著降低。另外,由于帧缓冲器中存储的图形数据大小取决于帧分辨率和格式,因此与图1所示的典型多显示器解决方案相比,PANTA元件的使用可以将系统内存带宽最多减少40%。在这个用例中描述并用40nm LP工艺实现的PANTA元件总功耗不到30mW。
PANTA显示处理器还能降低更多的功耗。在有些情况下,所有视频和图形处理任务都可以由PANTA元件执行,因而允许完全关闭GPU。图3显示了一种用例,其中PANTA IP显示由视频译码器传送至帧缓冲器的译码视频。这样的数据流只要求旋转以及YUV至RGB转换,因此完全不需要GPU参与。在这种情况下,采用40nm LP工艺实现的PANTA DP30功耗不会超过6mW。
图3:没有GPU的PANTA DP辅助显示子系统。
小结
因为三维游戏和高清视频回放正在成为移动设备的基本功能,因此上述视频流水线在SoC等级得到功耗最优化非常重要。用户期望智能手机和平板电脑能够提供超长电池寿命,在多媒体应用期间也不例外。
Evatronix PANTA处理器可以在不牺牲任何性能的前提下帮助用户提高显示子系统的功效,这要归功于代替GPU执行特殊显示任务、最大限度减少视频/图形子系统内存带宽的内部IP。
举报