发帖

嵌入式多媒体应用的存储器分配方法

1594 片上存储器嵌入式

问答对人有帮助，内容完整，我也想知道答案 0 引言　　随着CPU速度的迅速提高，CPU与片外存储器的速度差异越来越大，匹配CPU与外部存储器的方法通常是采用Cache或者片上存储器。微处理器中片上存储器结构通常包含指令Cache ，数据Cache 或者片上存储器。　　对于嵌入式设备上的数据密集的应用，数据Cache 与片上存储器相比存在以下缺陷： (1) 片上存储器是固定的单周期访问，可在设计时而不是运行时研究数据访问模式；而Cache还要考虑击不中的情况，因而有可变的数据访问时间，执行时间的预测更加困难。 (2) 使用Cache 执行时间的不可预测性影响编译器的优化； (3) 细颗粒的Cache 对于图像编码等的规则数据访问并不合适，因而使用Cache 对于嵌入式设备可能不是最优的。文指出，对于大多数应用，使用片上存储器比使用数据Cache能量平均大约节省40 % ，芯片面积与时间的乘积仅为Cache的46%。因而对于嵌入式多媒体处理器，片上RAM作为数据Cache的替代，功耗更低。片上存储器的有效使用对于提高嵌入式应用的速度，降低功耗具有重要的意义。　　 0
2019-7-2 07:44:45　　评论淘帖0 邀请回答您可以邀请以下用户，快速回答问题 × ChristineGu 该类别下有 16 个回答。邀请回答 HengDu 该类别下有 16 个回答。邀请回答 heks 该类别下有 16 个回答。邀请回答 dfasda 该类别下有 15 个回答。邀请回答 nhonglan 该类别下有 15 个回答。邀请回答 yonglanzhang 该类别下有 15 个回答。邀请回答杀狼000 该类别下有 14 个回答。邀请回答 wenminglang 该类别下有 14 个回答。邀请回答 C880U 该类别下有 14 个回答。邀请回答 jhdfvs 该类别下有 14 个回答。邀请回答 chm5 该类别下有 14 个回答。邀请回答 muwersddg 该类别下有 14 个回答。邀请回答 thyysbk 该类别下有 13 个回答。邀请回答凡人wlj 该类别下有 13 个回答。邀请回答 kszdj113 该类别下有 13 个回答。邀请回答飞雪9366 该类别下有 13 个回答。邀请回答 billbian 该类别下有 13 个回答。邀请回答 a732538 该类别下有 13 个回答。邀请回答 hrtuoyu 该类别下有 13 个回答。邀请回答 hfgdzc 该类别下有 13 个回答。邀请回答举报冯金妮相关推荐 • 嵌入式媒体播放器怎么实现？ 2408 • 如何去实现嵌入式多媒体导游系统的设计？ 2106 • 基于嵌入式视频的多媒体集控系统实现的关键技术是什么？ 1925 • 嵌入式存储器的设计方法是什么？ 2539 • 如何去设计嵌入式Windows CE多媒体操作系统的硬件平台？ 1386 • 请问怎么设计一种面向嵌入式存储器测试和修复的IIP？ 1563 • EVERSPIN非易失性存储器嵌入式技术解析 2352 • 嵌入式系统使用的存储器是如何进行划分的 2538 • 嵌入式怎么促进数字多媒体的发展？ 1847 • 新兴存储器MRAM与ReRAM嵌入式市场分析 1661 4个回答

答案对人有帮助，有参考价值 0 本文讨论了在同时具有数据Cache和片上SRAM的处理器上标量和矩阵变量的存储器分配方法。文以摩托罗拉公司的DSP56000为平台，文以AMS Gepard DSP为平台，分别讨论了如何把数据分配到X/Y数据存储器块，以便最大限度地利用数据移动的并行性。DSP56000片上X、Y数据存储器都是单端口的，并且容量较小。与DSP56000不同，TI公司的TMS320C55x具有更多的数据总线，片上RAM容量更大，且分块多，具有访问能力更强的DARAM。　　 TMS320C55x具有极低的功耗(0.05mW/MIPS) ，非常适合手持设备，现在已经集成至TI 公司专门针对3G手机的高性能多媒体处理器上。C55x 片上除了24K字节的指令Cache外，还有64K字节的双端口存储器(DARAM)，96K字节的单端口存储器(SARAM)。DARAM和SARAM总共160K字节，分成20个块，每个块8K字节。本文以C55x的视频编码器为例，讨论片上存储器的有效使用。

2019-7-2 17:19:41 评论举报刘丽菲

答案对人有帮助，有参考价值 0 数据的片外、片上动态分配　　因为片上存储器比片外存储器具有更高的数据访问能力和更小的访问功耗，所以尽可能分配数据到片上存储器，未能分配到片上的数据可在CPU处理前转移到片上，已经转移到片上的数据，应尽可能在片上保存直到其生命期结束，以便尽可能减少数据从片外存储器到片上存储器的数据转移。在视频编码等应用中，标量、常数相对于矩阵而言，通常数量较少，可以分配到片上；若分配到片外，在运算时直接存取片外数据，CPU流水线将会停滞。直接存储器存取(DMA)可以在存储器之间，存储器与外设之间转移数据，除了DMA通道参数初始化以外，DMA转移数据和CPU处理数据可以并行进行。设置DMA通道参数需要一定的时间，采用DMA来转移单个变量或常数的开销可能比直接存取更大，因此DMA适合转移具有较多数据的矩阵，并不适合片外标量的转移。包含大量元素的矩阵可以分配到片外，处理前使用DMA转移到片上存储器。　　局部变量由编译器分配到软件栈上，C55x具有两个软件栈：数据栈和系统栈。C55x的栈有三种工作模式，可设置成双16比特快返回模式，以减少栈所占的存储器空间，并提高其运行速度。数据栈和系统栈在函数调用及返回时同时访问，可将这两个栈分配到DARAM块或者不同的SARAM块内。　　本文中数据存储器的分配，强调从实际多媒体应用处理的基本数据块出发，分析简单直观。多媒体算法总是将原始输入数据分成一定大小的块进行处理，并产生对应该输入的最后输出。如果片上没有足够的存储器，大量的输入数据和最后结果仅能可存储在片外。对于元素较多的矩阵，可以根据算法特征将矩阵分成若干数据子块，如H.263编码器中的宏块，搜索窗等，或者单纯根据可得到的片上存储器数量分成适当大小的子块逐个运算，然后分析数据子块的生命期和使用频率。我们定义数据子块的生命期为首次使用到最后一次使用之间的间隔，而通常变量的生命期为定义到最后使用之间的间隔，例如定义整型数组int MB[384]，用来存储待编码宏块的数据，图像的某个宏块的数据在该宏块编码结束后，该宏块数据的生命期也就结束，然后该数组用来存储下一宏块的数据，因而变量的生命期远比存储在该变量中的某一具体数据生命期要长。若数据子块具有不相交的生命期，则可以共享相同的片上存储器。　　很多数据子块在运算中多次使用，可在首次运算前转移到片上，并尽可能保存到生命期结束，即直到这些数据不再使用为止，因而这些数据仅需要一次转移。将程序执行时间看成是由很多连续的时间间隔组成的，若在下个时间间隔内需要转移新的数据到片上供CPU处理，而片上又没有足够的存储器存储这些数据，这时将随后需要连续频繁使用的数据保留到片上；对于随后较少使用的数据，若片外存储器还保存有该数据的备份，这些数据可直接覆盖，等到下次使用时再从片外存储器拷贝到片上；否则，在覆盖前将数据转移到片外。在片上分配一定的缓冲区，用来存储需要再次使用的数据，可有效地减少片外存储器的访问。对于中间结果，尽量在使用前分阶段计算，使用后释放，以缩减存储中间结果的存储器需求。通过数据的这种动态分配，既可以减少或避免访问片外慢速存储器所引起的指令延迟，又可以减少片外到片上的数据转移。　　在H.263视频编码器中，编码是按宏块顺序进行的，INTRA宏块编码仅需要当前的编码宏块数据，INTER宏块编码还需要以当前宏块为中心的重建图像搜索窗。因此根据算法特征将整帧输入图像划分成宏块，某个宏块数据在编码前转移到片上，这一宏块编码结束后就不再使用，这部分片上存储器就可释放，用来存储下一宏块数据。若在编码的同时采用DMA转移下一个宏块，这需要在片上分配两个宏块的存储器空间，用来存储编码的原始图像。　　在进行INTER帧编码时，运动搜索需要使用前一帧的重建图像作为参考，设搜索范围为[-16，+16]，编码该宏块需要搜索参考图像中以编码宏块位置为中心的9个宏块，即前一帧中宏块(x，y) 的的重建图像直到编码(x+1，y+1)宏块后生命期才结束。以CIF分辨率为例，不可能把一帧图像的所有重建宏块保存到生命期结束，因而部分重建图像必需暂时存储在片外，若在编码(x-1，y-1) 前将重建宏块(x，y)拷贝到片上并一直保存到编码(x+1，y+1) 宏块结束，只需要在片上分配将近3个GOB的空间用来存储参考图像，就可以保证每个宏块的重建图像数据只需要一次片外到片上的转移。　　半像素内插结果，用于在整像素运动搜索后作为半像素搜索的参考，因而可在整像素搜索后、半像素搜索前，围绕整像素运动矢量，对整像素运动矢量对应的匹配宏块进行内插，这样就没有必要在编码INTER 帧前将整帧图像进行内插，可显著减少存储内插结果的存储器数量，从而分配在片上。

2019-7-2 17:20:15 评论举报贵奂

答案对人有帮助，有参考价值 0 片上数据的存储器分配　　 TMS320C55x除了读指令的地址数据总线外，还有三条用于从存储器读操作数的地址数据总线，两条写操作数到存储器的地址数据总线。CPU在一个周期内可完成多个操作数的读写，由于每个DARAM块或SARAM块有限的访问能力，这些操作数位于适当的DARAM或SARAM块内，才能在单周期内完成多个数据的读入或者数据的同时读写，而不产生延迟。

2019-7-2 17:20:24 评论举报张秀珍

答案对人有帮助，有参考价值 0 指令代码的分配　　应用程序的指令代码可以存储在片外存储器，通过指令Cache进行访问，可以减少CPU读指令代码与CPU读写片上存储器内数据的冲突，同时将空余更多的片上存储器空间用于数据分配。若存储程序代码和数据所需的存储器总和少于片上存储器容量，将代码分配到片外存储器的性能与代码数据全部分配到片上存储器相比，性能降低大约10%。因此当代码和数据总和小于片上存储器容量时，应该全部分配到片上存储器。通常程序代码仅供CPU读取、并不修改，而数据经常需要同时读写，因而应尽量将代码存储在SARAM内，以便将访问能力更强的DARAM用来存储数据。在单个CPU周期内，SARAM仅有一次访问能力，同时读取指令和数据必然产生延迟，为了保证读取数据时不产生延迟，数据不能与访问这些数据的代码存储在同一SARAM块内。也就是说，当程序代码大小不是刚好整数个块大小时，可通过调整代码或者数据的存储器分配，以免CPU读代码与读写数据产生冲突。

2019-7-2 17:20:26 评论举报谢文婷

只有小组成员才能发言，加入小组>>

嵌入式学习小组

10352个成员聚集在这个小组

精选推荐

最新话题

热门话题

FreeRTOS任务调度及优先级问题

1025浏览 1评论
芯片封装

1852浏览 1评论
如何知道嵌入式电子控制单元（ECU）中的RAM使用情况？

1364浏览 1评论
推荐一个支持js的嵌入式设备开发平台

1855浏览 0评论
嵌入式单片机设计

1180浏览 0评论

创建小组步骤

创建小组创建自己的地盘
个性设置精心打造小组空间
邀请好友邀请好友加入我的小组
小组升级小组积分升级赢得社区推荐

创建属于自己的小组

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

返回嵌入式学习小组

回复

关闭

站长推荐 /9

快速回复 返回顶部 返回列表

- 厂商专区: 飞凌嵌入式

瑞萨单片机论坛

米尔电子

Aigtek安泰电子

斯丹麦德电子

芯佰微电子

其利天下技术小组

道生物联技术社区

视美泰

FCom富士晶振

大大通

合众恒跃

进迭时空

RT-Thread论坛

EASY-EAI灵眸科技

- 技术社区: 张飞电子技术社区

KaihongOS技术社区

FPGA开发者技术社区

RISC-V MCU技术社区

HarmonyOS技术社区

- OpenHarmony开源社区: OpenHarmony开源社区

- 嵌入式论坛: ARM技术论坛

STM32/STM8技术论坛

嵌入式技术论坛

单片机/MCU论坛

RISC-V技术论坛

瑞芯微Rockchip开发者社区

FPGA|CPLD|ASIC论坛

DSP论坛

- 电路图及DIY: 电路设计论坛

DIY及创意

电子元器件论坛

专家问答

- 电源技术论坛: 电源技术论坛

无线充电技术

- 综合技术与应用: 机器人论坛

USB论坛

电机控制

模拟技术

音视频技术

综合技术交流

上位机软件（C/Python/Java等）

- 无线通信论坛: WIFI技术

蓝牙技术

天线|RF射频|微波|雷达技术

- EDA设计论坛: PCB设计论坛

DigiPCBA论坛

Protel|AD|DXP论坛

PADS技术论坛

Allegro论坛

multisim论坛

proteus论坛|仿真论坛

KiCad EDA 中文论坛

DFM|可制造性设计论坛

- 测试测量论坛: LabVIEW论坛

Matlab论坛

测试测量技术

传感技术

- 招聘/交友/外包/交易/杂谈: 项目外包

供需及二手交易

工程师杂谈|交友

招聘|求职|工程师职场

- 官方社区: 发烧友官方/活动

华秋商城

华秋电路

+ 元器件搜索引擎: 元器件搜索引擎

time

recommend

hot

post

—
—
—

版
块
导
航