完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
以下面的代码为例: ld2 {v0.16b, v1.16b}[0], [x0] 我正在处理需要从256个16位条目表中堆放的图像数据,并且我想使用neon对其进行进一步处理。不幸的是,由于表的大小,tbl指令不是一个选项,因为它将占用所有32个寄存器。首先使用arm进行查找,然后将结果合并并传输到4个64位寄存器中,会更快吗? 如果有帮助,我的目标是Cortex-A57。 |
|
相关推荐
1个回答
|
|
您可能要使用PMU来衡量您的特定示例:
“ Cortex-A57中的性能监视器单元(PMU)可用于确定何时真正发生寄存器转发危险。已将实现定义的PMU事件编号0x12C(DISP_SWDW_STALL)分配为计算由于这些危险而停滞所花费的周期数。 ” |
|
|
|
你正在撰写答案
如果你是对答案或其他答案精选点评或询问,请使用“评论”功能。
飞凌嵌入式ElfBoard ELF 1板卡-CAN编程示例之开发板测试
852 浏览 0 评论
该问题是用APP给芯海科技的CST92F25芯片发指令是出现的
2844 浏览 1 评论
867 浏览 0 评论
1710 浏览 1 评论
2758 浏览 1 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-11-27 11:04 , Processed in 0.904116 second(s), Total 71, Slave 55 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号