完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
设计一个高性能的HLS, 可以用任何优化策略,在保持函数功能的同时尽可能提高性能。希望论坛里的大神给予具体优化的指导,最近几天调试太费劲了,希望大神给予保罗loop unroll, pipeline, dataflow, memory partition在内的多种优化策略具体怎么在这段代码里摆放优化,以及输入输出矩阵的interface, resource设置。要详细具体的策略,不是泛泛而谈的。 有重谢,多谢! void matrixmul( mat_a_t a[1024][1024], //a[1024][1024] mat_b_t b[1024][1024], //b[1024][1024] result_t res[1024][1024]) //res[1024][1024] { // Iterate over the rows of the A matrix Row: for(int i = 0; i < 1024; i++) { // Iterate over the columns of the B matrix Col: for(int j = 0; j < 1024; j++) { res[i][j] = 0; // Do the inner product of a row of A and col of B Product: for(int k = 0; k < 1024; k++) { res[i][j] += a[i][k] * b[k][j]; } } } } |
|
相关推荐
2个回答
|
|
您的这种算法用浮点运算效率来衡量已经很高了,建议加大缓冲池,并在编译时使用单进程多线程并行运行于多个处理器来提高效率
|
|
|
|
感谢分享
|
|
|
|
你正在撰写答案
如果你是对答案或其他答案精选点评或询问,请使用“评论”功能。
1213 浏览 1 评论
助力AIoT应用:在米尔FPGA开发板上实现Tiny YOLO V4
1025 浏览 0 评论
2279 浏览 1 评论
1996 浏览 0 评论
矩阵4x4个按键,如何把识别结果按编号01-16(十进制)显示在两个七段数码管上?
2249 浏览 0 评论
1771 浏览 46 评论
6000 浏览 113 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-18 11:26 , Processed in 0.607333 second(s), Total 75, Slave 57 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号