1 CoreMark简介
CoreMark是由EEMBC(Embedded Microprocessor Benchmark Consortium)的Shay Gla-On于2009年提出的一项基准测试程序,CoreMark的主要目标是简化操作,并提供一套测试单核处理器核心的方法。测试标准是在配置参数的组合下单位时间内运行的CoreMark程序次数(单位:CoreMark/MHz),该数字值越大则说明测试的性能越好。
目前在嵌入式CPU行业中普遍公认的性能测试指标的标准主要使用以下三种,MIPS、Dhrystone、Coremark,而CoreMark与Dhrystone一样,拥有体积小、方便移植、易于理解、免费并且显示单个数字基准分数。与Dhrystone不同的是,Dhrystone的主要部分实际上暴露了编译器优化工作负载的能力,而不是实际MCU或CPU的能力,的性能,而CoreMark具有特定的运行和报告规则,从而可以避免由于所使用的编译库不同而导致的测试结果难以比较。
官网地址
2 CoreMark移植
2.1 CoreMark源码下载
首先去CoreMark 官网下载CoreMark源码。
CoreMark 移植所需的如下:
- core_list_join.c
- core_main.c
- core_matrix.c
- core_state.c
- core_util.c
- coremark.h
- simple/core_portme.c
- simple/core_portme.h
2.2 移植CoreMark
1)拷贝CoreMark文件到工程
准备一个基于串口通信的RA6M5_Project工程,将CoreMark所需的文件添加放到工程目录中。
2)添加文件到工程
接下来要做的就是添加 CoreMark 代码。因为 core_main.c 文件里已经包含了一个 main 函数,所以需要在工程中将默认创建的 main.c 文件删除。
完成后的工程文件结构如下:
3)修改主函数入口
由于CoreMark提供了主函数,因此最简单的就是注释掉Renesas RA Smart Configurator自动生成的主函数。
当时Renesas RA Smart Configurator重新配置后又会自动生成,因此还有一个半办法就是修改core_main.c的主函数了,只是这里就会修改得比较多,看个人喜好吧。
2.3 配置 Coremark 文件
我们需要在 core_portme.c 中添加初始化的代码,并根据不同的计时方法修改 core_portme.c 中计时相关函数和代码。
2.3.1 添加初始化代码
core_portme.c 中的 portable_init 函数在 core_main.c 的 main 函数中首先被调用, 平台的初始化的函数(时钟,GPIO,串口,缓存) 可以放在这里。
修改前:
void portable_init(core_portable *p, int *argc, char *argv[])
{
(void)argc;
(void)argv;
if (sizeof(ee_ptr_int) != sizeof(ee_u8 *))
{
ee_printf(
"ERROR! Please define ee_ptr_int to a type that holds a "
"pointer!\n");
}
if (sizeof(ee_u32) != 4)
{
ee_printf("ERROR! Please define ee_u32 to a 32b unsigned type!\n");
}
p->portable_id = 1;
}
修改后:
void portable_init(core_portable *p, int *argc, char *argv[])
{
R_SCI_UART_Open (g_uart9.p_ctrl, g_uart9.p_cfg);
printf("The CoreMark is runing,Please Wait...\r\n");
if (sizeof(ee_ptr_int) != sizeof(ee_u8 *)) {
ee_printf("ERROR! Please define ee_ptr_int to a type that holds a pointer!\n");
}
if (sizeof(ee_u32) != 4) {
ee_printf("ERROR! Please define ee_u32 to a 32b unsigned type!\n");
}
p->portable_id=1;
}
2.3.2 修改计时相关代码
start_time/ stop_time/ get_time 这几个函数是 coremark 程序运行时计算程序运行时间所用。 这里使用 system tick 进行计时, system tick 配置为 1ms 的中断间隔。 system tick 中断函数中更新 Tick 的值,每进一次中断加 1。所以还需要修改system tick 的中断处理函数。
1)在 core_portme.c 中按下表找到需要修改的地方。
修改前:
void start_time(void)
{
GETMYTIME(&start_time_val);
}
void stop_time(void)
{
GETMYTIME(&stop_time_val);
}
CORE_TICKS get_time(void)
{
CORE_TICKS elapsed
= (CORE_TICKS)(MYTIMEDIFF(stop_time_val, start_time_val));
return elapsed;
}
#define NSECS_PER_SEC CLOCKS_PER_SEC
#define CORETIMETYPE clock_t
#define GETMYTIME(_t) (*_t=clock())
#define MYTIMEDIFF(fin,ini) ((fin)-(ini))
#define TIMER_RES_DIVIDER 1
#define SAMPLE_TIME_IMPLEMENTATION 1
……
static CORETIMETYPE start_time_val,
stop_time_val;
修改后:
void start_time(void)
{
Tick = 0;
SysTick_Config(SystemCoreClock/1000);
}
void stop_time(void)
{
SysTick->CTRL &=SysTick_Counter_Disable;
SysTick->VAL = SysTick_Counter_Clear;
}
CORE_TICKS get_time(void)
{
CORE_TICKS elapsed =(CORE_TICKS)Tick;
return elapsed;
}
……
#define EE_TICKS_PER_SEC (NSECS_PER_SEC TIMER_RES_DIVIDER) #define EE_TICKS_PER_SEC 1000
2) 在 core_portme.c 文件中添加新定义的变量和函数
#define SysTick_Counter_Disable ((uint32_t)0xFFFFFFFE)
#define SysTick_Counter_Enable ((uint32_t)0x00000001)
#define SysTick_Counter_Clear ((uint32_t)0x00000000)
__IO uint32_t Tick;
system tick 的中断处理函数在 stm32f10x_it.c 中。stm32f10x_it.c 文件包含所有中断处理入口函数。根据不同的平台, 这个文件的名字稍有不同。找到 SysTick_Handler 函数进行修改。
修改前:
void SysTick_Handler(void)
{
}
修改后:
void SysTick_Handler(void)
{
extern __IO uint32_t Tick;
Tick++;
}
2.3.3 CoreMark 运行配置
1)设置迭代次数
CoreMark 要求程序运行的最短时间至少是 10s, 根据使用的系统时钟等情况,可以在 core_portme.h 中修改迭代次数。
#define ITERATIONS 12000
2)设置打印信息
根据具体所用的编译器版本,优化配置进行修改。
修改前:
#ifndef COMPILER_FLAGS
#define COMPILER_FLAGS FLAGS_STR
#endif
修改后
#ifndef COMPILER_FLAGS
#define COMPILER_FLAGS "-Ohs -
no_size_constraints"
#endif
3) 修改优化等级。
Options->C/C++ ->Optimization, 选择O3以达到最优的运行速度。
完成上面的操作步骤后,CoreMark项目就可以正常编译了。如果此时直接运行,将会发现系统复位,无法正常运行;通过断点调试,可以发现是因为栈空间不足导致的。
4) 修改栈大小
默认情况下,CoreMark使用的是栈内存进行的计算,而RASC默认的栈空间大小为1024字节(0x400)。需要增大栈内存大小,才可以正常运行CoreMark。
具体设置位于RASC菜单的BSP->Properties界面,将栈空间修改为0x2000。
3 运行结果
接上串口,复位打印信息如下:
RA6M5
RA4M2
可以看到RA6M5和RA4M2跑分差不多。
值得注意的是,不同的编译器,不同的优化等级,同一款处理器的跑分也会不一样,因此,在比较时,优化等级、编译器等参数尽量一致。