发帖

[问答]

一文详解codegen

2478 函数

问答对人有帮助，内容完整，我也想知道答案 0 codegen介绍 0
2021-2-2 06:20:40　　评论淘帖0 邀请回答您可以邀请以下用户，快速回答问题 × asd008 该类别下有 32 个回答。邀请回答 aaaa321 该类别下有 27 个回答。邀请回答 doublelove 该类别下有 26 个回答。邀请回答 vynywrwr 该类别下有 21 个回答。邀请回答 hgjhgd 该类别下有 19 个回答。邀请回答 bwerwer 该类别下有 18 个回答。邀请回答 hanyan533 该类别下有 18 个回答。邀请回答 Jaionm 该类别下有 18 个回答。邀请回答 wang2222222 该类别下有 17 个回答。邀请回答 handsomelchcpp 该类别下有 17 个回答。邀请回答 binro 该类别下有 16 个回答。邀请回答 ningee 该类别下有 16 个回答。邀请回答 wznnzw 该类别下有 15 个回答。邀请回答 myf888 该类别下有 15 个回答。邀请回答 zcy615 该类别下有 14 个回答。邀请回答 wanglinhua2627 该类别下有 14 个回答。邀请回答 guotong1984 该类别下有 14 个回答。邀请回答 yhxc 该类别下有 14 个回答。邀请回答 armortech 该类别下有 14 个回答。邀请回答 60user25 该类别下有 14 个回答。邀请回答举报贾利利相关推荐 • 如何使用LAX_CODEGEN启用动态内存分配？ 1491 • 请问LM324供电电压不同，对同一种信号放大后结果一样吗？ 2082 • F28035新装了codegen version 6.1.0编译结果出现以下问题，请问应该怎么解决？ 2776 • 求详解MP1583DP 2917 • 在学习ADI公司的ADuCM361这个芯片，看不懂示例代码。求教。 1941 • repo status有何作用，显示出来的信息怎么看？ 8092 • ds18b20详解 2296 • 请问active class and subclass各项详解是怎么样的？ 3493 • 有人可以详解一下imx6q的eim时序图吗 1540 • 一文详解DC/DC开关电源中的接地反弹 3075 3个回答

答案对人有帮助，有参考价值 0 　　在BuildRelay中会调用Codegen函数。这个函数实现在src/relay/backend/graph_runtime_codegen.cc中。Codegen实现了内存的分配，IR节点到TIR节点的转换，tir图节点的一个调度优化。内存分配由函数relay.backend.GraphPlanMemory来实现，VisitExpr对节点进行遍历并进行节点信息的记录。LowerExternalfunctions完成ir节点到tir节点的转化以及schedule的优化。

2021-2-2 16:13:07 评论举报荣春梅

答案对人有帮助，有参考价值 0 　　内存分配　　通过GetPackedFunc函数来获得注册到global map的内存分配函数GraphPlanMemory。我们看一下文件src/relay/backend/graph_plan_memory.cc中对内存的处理。　　　　在处理内存分配中主要使用了StorageAllocaBaseVisitor，StorageAllocaInit，StorageAllocator这三个类。StorageAllocaBaseVisitor是一个基类，实现了对每个节点的访问，并分配token，但是token中信息是在派生类中处理的。定义了一个StorageToken的结构体，用于表示申请到内存的大小，类型等信息。在内存处理程序中，主要就是为每个节点分配这个token，同时定义token的内部信息。内存分配结果是一个节点和token的映射表。　　　　StorageAllocator类中Plan函数为：　　　　关键是前两行代码，第一行代码初始化了storageToken，赋予了其设备类型和数据类型信息。第二行代码遍历每个节点，并且为每个节点分配内存空间。在内存初始化函数GetInitTokenMap中，首先收集每个节点的的设备信息。调用链为CollectDeviceInfo -》 GetDeviceMap（src/relay/transforms/device_annotation.cc）。在构建relay图结构的时候，每个节点是有设备号信息的，GetDeviceMap就是按照post-DFS顺序获得节点的设备号信息。当然并不是所有节点都有设备号信息，所以还需要根据节点之间的关系来推断出设备号。比如下图，add，sqrt，log节点被标注为1，2，3号设备，那么可以用两种方式来推断其它节点设备号。　　1）从一个copy节点由下而上遍历一直到遇到下一个copy，比如可以推断出add，x，y节点的设备号和copy1一样；　　2）从最后一个copy节点向下遍历，那么可以推断出substract，exp设备号和copy3一样。　　　　设备号获得后，this-》run会调用基类的run函数，基类run函数会调用派生类的CreateToken函数。CreateToken会申请StorageToken空间并且赋予设备号和数据类型，然后返回一个token_map_。和节点遍历相关函数为Run-》GetToken-》VisitExpr。VisitExpr会最终调用StorageAllocaInit类中定义的VisitExpr_函数来遍历节点。　　节点内存初始化完成后，回到StorageAllocator类中，run会调用其定义的CreateToken函数。　　　　分配内存空间会有两种情况，一种是can_realloc一种是不能can_realloc的。先看不can_realloc的，GetMemorySize是根据token中记录的数据类型和shape信息来获得数据的大小，Alloc函数就是为tok分配字节数量。现在看can_realloc的情况，Request中首先获取节点数据的大小。然后从free_中查询能够满足size的节点，如果有比该节点size大的就选择大的空闲区间分配，如果没有大的空间分配，选择最接近的空间分配。然后最终返回一个token_map_。

2021-2-2 16:13:22 评论举报任斌

答案对人有帮助，有参考价值 0 　　codegen 　　第一步是对ir节点进行遍历，转换成codegen中定义的基础节点。我们先看以下codegen中定义的节点类型，GraphNode是基础节点，GraphInputNode， GraphOpNode继承自这个基础节点。这些节点中主要提供了一些节点属性，比如name，op类型等。还提供了dmlc接口，可以实现可视化。　　遍历func的parameters，将parameters转换到graph的input节点。通过AddNode添加这些input节点，并且将转换后的graphInputNode加入var_map_中，var_map_中是expr到graphNode的映射。　　接下来是节点遍历，heads_=VisitExpr（func-》body）。节点遍历过程中会将func中的节点转换为graphNode。对于varNode，因为已经记录在var_map_中，直接返回引用。ConstantNode会转换为GraphInputNode，tuppleNode会返回每个字段的graphNode。在遍历节点过程中，会将graphNode都添加到nodes_中。　　重点看一下对CallNode的处理，只支持op是functionNode类型的。　　　　Function生成时，走两个分支，一个是外部codegen，一个是通用分支。对应外部function codegen的处理为：　　　　首先创建一个CCacheKey类型作为_CompileEngineLower函数的参数传入。具体CcacheKey有什么作用，以后再深入研究吧。_CompileEngineLower的实现在文件src/relay/backend/compile_engine.cc中。调用链为Lower -》 LowerInternal（key）-》cached_func。定义了一个cache_node并封装成cached_func返回。这块具体的操作并不是很理解，可能还需要熟悉cachedFuncNode的作用。　　　　然后通过GraphAddCallNode将其加入nodes_中。在GraphAddCallNode中还会对op-》args进行深入遍历。　　内部func处理如下：　　　　也是通过相同的pf0和pf1函数。CcacheKey的创建过程一样，但是在lowerInternal中不一样。　　　　首先创建了一个schedule，schedule的具体实现很复杂目前还不够理解。　　如果是copy节点，那么不进行lower处理，直接返回CachedFunc封装。不是copy节点，如果我们在python中自己定义了lower函数就调用python中的，如果没有就会调用TVM中的lower函数。Lower函数在src/driver/driver_api.cc文件中。在这里调用了很多tir的passes来进行一个节点转换。这块后边再详细看。

2021-2-2 16:13:38 评论举报乔亚楠

只有小组成员才能发言，加入小组>>

340个成员聚集在这个小组

精选推荐

两个FPGA编译完全相同的代码比特流会不同吗？

3141 浏览 7 评论
为什么定制zynq板的电源这么高？

3435 浏览 4 评论
Spartan 3-AN时钟和VHDL让ISE合成时出现错误该怎么办？

2897 浏览 9 评论
如何在GTP磁贴中实现每个通道的独立外部参考时钟？

4097 浏览 0 评论
如何在RTL或xilinx spartan fpga的约束文件中插入1.56ns延迟缓冲区？

3081 浏览 15 评论

最新话题

热门话题

请问vc707的电源线是如何连接的，我这边可能出现了缺失元件的情况导致无法供电

1356浏览 1评论
求一块XILINX开发板KC705，VC707，KC105和KCU1500

1194浏览 1评论

创建小组步骤

创建小组创建自己的地盘
个性设置精心打造小组空间
邀请好友邀请好友加入我的小组
小组升级小组积分升级赢得社区推荐

创建属于自己的小组

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

返回赛灵思

回复

关闭

站长推荐 /9

快速回复 返回顶部 返回列表

- 厂商专区: 飞凌嵌入式

瑞萨单片机论坛

米尔电子

Aigtek安泰电子

斯丹麦德电子

芯佰微电子

其利天下技术小组

道生物联技术社区

视美泰

FCom富士晶振

合众恒跃

进迭时空

RT-Thread论坛

EASY-EAI灵眸科技

- 技术社区: 张飞电子技术社区

KaihongOS技术社区

FPGA开发者技术社区

RISC-V MCU技术社区

HarmonyOS技术社区

- OpenHarmony开源社区: OpenHarmony开源社区

- 嵌入式论坛: ARM技术论坛

STM32/STM8技术论坛

嵌入式技术论坛

单片机/MCU论坛

RISC-V技术论坛

瑞芯微Rockchip开发者社区

FPGA|CPLD|ASIC论坛

DSP论坛

- 电路图及DIY: 电路设计论坛

DIY及创意

电子元器件论坛

专家问答

- 电源技术论坛: 电源技术论坛

无线充电技术

- 综合技术与应用: 机器人论坛

USB论坛

电机控制

模拟技术

音视频技术

综合技术交流

上位机软件（C/Python/Java等）

- 无线通信论坛: WIFI技术

蓝牙技术

天线|RF射频|微波|雷达技术

- EDA设计论坛: PCB设计论坛

DigiPCBA论坛

Protel|AD|DXP论坛

PADS技术论坛

Allegro论坛

multisim论坛

proteus论坛|仿真论坛

KiCad EDA 中文论坛

DFM|可制造性设计论坛

- 测试测量论坛: LabVIEW论坛

Matlab论坛

测试测量技术

传感技术

- 招聘/交友/外包/交易/杂谈: 项目外包

供需及二手交易

工程师杂谈|交友

招聘|求职|工程师职场

- 官方社区: 发烧友官方/活动

华秋商城

华秋电路

+ 元器件搜索引擎: 元器件搜索引擎

time

recommend

hot

post

—
—
—

版
块
导
航