新唐MCU技术

李丹

8年用户 1495经验值

私信关注

[问答]

如何利用NuMicro® M55M1 ML MCU进行面部标志检测应用？

回帖（1）

王秀珍

2025-9-9 18:22:40

利用 NuMicro® M55M1 ML MCU（搭载 Arm Cortex-M55 内核和 Arm Ethos-U55 NPU）进行面部标志检测（Facial Landmark Detection）应用，是一个典型的边缘端嵌入式 AI 应用场景。以下是详细的实现步骤和技术要点：?

一、核心步骤概述

硬件准备

模型选择与训练

模型优化与量化

部署到 M55M1

摄像头输入与预处理

推理与输出解析

应用逻辑开发

二、详细实现流程

1. 硬件准备

开发板：选用新唐官方的 M55M1 开发板（如 NuMaker-M55M1）。

摄像头：支持 DVP 或 MIPI-CSI 接口的摄像头（如 OV5640、GC032A 等）。

软件工具：
- IDE：Keil MDK 或 IAR Embedded Workbench
- 新唐 ML SDK：包含 Ethos-U55 NPU 驱动、CMSIS-NN 库、TensorFlow Lite Micro 支持。
- 模型转换工具：TensorFlow Lite Converter 或新唐的 tflite_micro_converter。

2. 模型选择与训练

模型架构：选择轻量级模型以适应 MCU 资源：
- MobileNetV2 + SSD（人脸检测）
- Modified MobileNetV2 / Tiny-YOLO + 关键点回归头（如 68 点或 5 点检测）

训练数据集：
- 人脸检测：WIDER FACE
- 关键点检测：300W、Helen Dataset

输出层设计：
- 人脸检测：边界框（x, y, w, h）
- 关键点：[x1, y1, x2, y2, ..., x68, y68] 归一化坐标

? 建议使用 TensorFlow Lite Model Maker 或 PyTorch Mobile 进行模型训练和微调。

3. 模型优化与量化

步骤：

训练后动态量化（PTDQ）或 量化感知训练（QAT）转为 int8 模型。

使用 TensorFlow Lite Converter 生成 .tflite 文件：

converter = tf.lite.TFLiteConverter.from_saved_model(model_path)

converter.optimizations = [tf.lite.Optimize.DEFAULT]  # 量化

converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]

tflite_model = converter.convert()

编译为 C 数组：
```
xxd -i model.tflite > model_data.cc
```

4. 部署模型到 M55M1

集成 TFLite Micro：
- 将模型数据（model_data.cc）加入工程。
- 调用 TFLite Micro 解释器：
```
#include "tensorflow/lite/micro/micro_interpreter.h"
```
const tflite::Model* model = tflite::GetModel(g_model_data);
tflite::MicroInterpreter interpreter(model, resolver);
interpreter.AllocateTensors();

启用 Ethos-U55 NPU：

在 tflite_micro_configure 中激活 NPU 委托：

#include "ethosu_driver.h"

EthosuDriver ethosu_drv;

tflite::EthosuDelegate ethosu_delegate(ðosu_drv);

interpreter.ModifyGraphWithDelegate(ðosu_delegate);

5. 摄像头输入与预处理

摄像头驱动：
- 使用新唐提供的 PDMA 或 DMA 驱动捕获图像（如 CSI 接口）。

预处理流程：
1. 调整分辨率（如 96x96 或 128x128）。
2. 色彩转换：RGB565 → RGB888 → 灰度（若模型支持）。
3. 归一化：uint8 [0,255] → int8 [-128,127]。
4. 填充/裁剪：对齐模型输入尺寸。

// 示例：图像缩放 + 归一化

void preprocess(uint8_t* src, int8_t* dst) {

  for (int i = 0; i < 96*96; i++) {

    dst[i] = (int8_t)(src[i] - 128);  // 归一化到 [-128, 127]

  }

}

6. 推理与输出解析

执行推理：

TfLiteTensor* input = interpreter.input(0);

memcpy(input->data.int8, preprocessed_data, input_size);

interpreter.Invoke();

解析输出：
- 人脸检测：解析边界框（[score, x, y, w, h]）。
- 关键点检测：解析 68 个点坐标（float 或 int8 反量化）。

// 反量化关键点坐标

TfLiteTensor* output = interpreter.output(0);

float scale = output->params.scale;

int zero_point = output->params.zero_point;



for (int i = 0; i < 68; i++) {

  float x = (output->data.int8[2*i] - zero_point) * scale;

  float y = (output->data.int8[2*i+1] - zero_point) * scale;

}

7. 应用逻辑开发

功能扩展：
- 人脸识别：结合关键点做对齐 + 特征提取。
- 情绪分析：基于关键点位置计算嘴部/眉毛状态。
- 低功耗优化：唤醒词触发检测（如用 PDM 麦克风）。

三、关键优化技巧

优化方向	具体方法
模型压缩	剪枝（Pruning）、知识蒸馏（Knowledge Distillation）
内存管理	使用 SRAM 缓存帧数据，避免重复拷贝
NPU 加速	确保所有卷积层被 Ethos-U55 支持（检查 `.tflite` 算子兼容性）
多帧处理	跳帧处理（如每 3 帧处理 1 帧）

四、性能预期（参考值）

任务	模型	分辨率	帧率 (FPS)	功耗
人脸检测 + 5点关键点	MobileNetV2-0.35x	96x96	15~20	< 50mW
68点关键点检测	Custom TinyCNN	128x128	8~12	< 70mW

? 实测数据需结合摄像头延迟、系统调度等因素。

五、常见问题解决

问题1：NPU 未激活 → 检查 ethosu_driver 初始化是否成功。

问题2：输出结果异常 → 检查预处理/反量化逻辑是否与训练一致。

问题3：内存不足 → 减小输入分辨率或使用模型切片（Model Slicing）。

六、官方资源

NuMicro® M55M1 技术文档

TensorFlow Lite for Microcontrollers

Ethos-U55 NPU 指南

通过以上步骤，你可以在 M55M1 上实现实时的面部标志检测应用。关键在于模型轻量化、NPU 加速利用和内存优化。建议从新唐提供的示例代码（如人脸检测 demo）开始迭代开发！?

一、核心步骤概述

硬件准备

模型选择与训练

模型优化与量化

部署到 M55M1

摄像头输入与预处理

推理与输出解析

应用逻辑开发

二、详细实现流程

1. 硬件准备

开发板：选用新唐官方的 M55M1 开发板（如 NuMaker-M55M1）。

摄像头：支持 DVP 或 MIPI-CSI 接口的摄像头（如 OV5640、GC032A 等）。

软件工具：
- IDE：Keil MDK 或 IAR Embedded Workbench
- 新唐 ML SDK：包含 Ethos-U55 NPU 驱动、CMSIS-NN 库、TensorFlow Lite Micro 支持。
- 模型转换工具：TensorFlow Lite Converter 或新唐的 tflite_micro_converter。

2. 模型选择与训练

模型架构：选择轻量级模型以适应 MCU 资源：
- MobileNetV2 + SSD（人脸检测）
- Modified MobileNetV2 / Tiny-YOLO + 关键点回归头（如 68 点或 5 点检测）

训练数据集：
- 人脸检测：WIDER FACE
- 关键点检测：300W、Helen Dataset

输出层设计：
- 人脸检测：边界框（x, y, w, h）
- 关键点：[x1, y1, x2, y2, ..., x68, y68] 归一化坐标

? 建议使用 TensorFlow Lite Model Maker 或 PyTorch Mobile 进行模型训练和微调。

3. 模型优化与量化

步骤：

训练后动态量化（PTDQ）或 量化感知训练（QAT）转为 int8 模型。

使用 TensorFlow Lite Converter 生成 .tflite 文件：

converter = tf.lite.TFLiteConverter.from_saved_model(model_path)

converter.optimizations = [tf.lite.Optimize.DEFAULT]  # 量化

converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]

tflite_model = converter.convert()

编译为 C 数组：
```
xxd -i model.tflite > model_data.cc
```

4. 部署模型到 M55M1

集成 TFLite Micro：
- 将模型数据（model_data.cc）加入工程。
- 调用 TFLite Micro 解释器：
```
#include "tensorflow/lite/micro/micro_interpreter.h"
```
const tflite::Model* model = tflite::GetModel(g_model_data);
tflite::MicroInterpreter interpreter(model, resolver);
interpreter.AllocateTensors();

启用 Ethos-U55 NPU：

在 tflite_micro_configure 中激活 NPU 委托：

#include "ethosu_driver.h"

EthosuDriver ethosu_drv;

tflite::EthosuDelegate ethosu_delegate(ðosu_drv);

interpreter.ModifyGraphWithDelegate(ðosu_delegate);

5. 摄像头输入与预处理

摄像头驱动：
- 使用新唐提供的 PDMA 或 DMA 驱动捕获图像（如 CSI 接口）。

预处理流程：
1. 调整分辨率（如 96x96 或 128x128）。
2. 色彩转换：RGB565 → RGB888 → 灰度（若模型支持）。
3. 归一化：uint8 [0,255] → int8 [-128,127]。
4. 填充/裁剪：对齐模型输入尺寸。

// 示例：图像缩放 + 归一化

void preprocess(uint8_t* src, int8_t* dst) {

  for (int i = 0; i < 96*96; i++) {

    dst[i] = (int8_t)(src[i] - 128);  // 归一化到 [-128, 127]

  }

}

6. 推理与输出解析

执行推理：

TfLiteTensor* input = interpreter.input(0);

memcpy(input->data.int8, preprocessed_data, input_size);

interpreter.Invoke();

解析输出：
- 人脸检测：解析边界框（[score, x, y, w, h]）。
- 关键点检测：解析 68 个点坐标（float 或 int8 反量化）。

// 反量化关键点坐标

TfLiteTensor* output = interpreter.output(0);

float scale = output->params.scale;

int zero_point = output->params.zero_point;



for (int i = 0; i < 68; i++) {

  float x = (output->data.int8[2*i] - zero_point) * scale;

  float y = (output->data.int8[2*i+1] - zero_point) * scale;

}

7. 应用逻辑开发

功能扩展：
- 人脸识别：结合关键点做对齐 + 特征提取。
- 情绪分析：基于关键点位置计算嘴部/眉毛状态。
- 低功耗优化：唤醒词触发检测（如用 PDM 麦克风）。

三、关键优化技巧

优化方向	具体方法
模型压缩	剪枝（Pruning）、知识蒸馏（Knowledge Distillation）
内存管理	使用 SRAM 缓存帧数据，避免重复拷贝
NPU 加速	确保所有卷积层被 Ethos-U55 支持（检查 `.tflite` 算子兼容性）
多帧处理	跳帧处理（如每 3 帧处理 1 帧）

四、性能预期（参考值）

任务	模型	分辨率	帧率 (FPS)	功耗
人脸检测 + 5点关键点	MobileNetV2-0.35x	96x96	15~20	< 50mW
68点关键点检测	Custom TinyCNN	128x128	8~12	< 70mW

? 实测数据需结合摄像头延迟、系统调度等因素。

五、常见问题解决

问题1：NPU 未激活 → 检查 ethosu_driver 初始化是否成功。

问题2：输出结果异常 → 检查预处理/反量化逻辑是否与训练一致。

问题3：内存不足 → 减小输入分辨率或使用模型切片（Model Slicing）。

六、官方资源

NuMicro® M55M1 技术文档

TensorFlow Lite for Microcontrollers

Ethos-U55 NPU 指南

更多回帖

李丹

如何利用NuMicro® M55M1 ML MCU进行面部标志检测应用？

回帖（1）

王秀珍

一、核心步骤概述

二、详细实现流程

1. 硬件准备

2. 模型选择与训练

3. 模型优化与量化

4. 部署模型到 M55M1

5. 摄像头输入与预处理

6. 推理与输出解析

7. 应用逻辑开发

三、关键优化技巧

四、性能预期（参考值）

五、常见问题解决

六、官方资源

一、核心步骤概述

二、详细实现流程

1. 硬件准备

2. 模型选择与训练

3. 模型优化与量化

4. 部署模型到 M55M1

5. 摄像头输入与预处理

6. 推理与输出解析

7. 应用逻辑开发

三、关键优化技巧

四、性能预期（参考值）

五、常见问题解决

六、官方资源

相关问答

如何在 M55M1 系列微控制器上以低功耗模式使用运动检测功能？

M55M1如何通过 EBI 驱动同步信号 LCD 面板？

请问如何利用NuMicro®M4系列中的DSP功能进行频谱分析？

请问NuMicro® Cortex-M0/M4系列可以提供哪些USB器件示例代码？

如何将TensorFlow Lite应用程序移植到Arm Cortex-M55系统上

NuMicro M2351的Thread参考设计方案

请问所有NuMicro™Cortex-M系列是否通过USB认证？

请问ARM Cortex-M55怎么样？

请问如何为NuMicro®M451系列中的PWM设置计数器同步？

在NuMicro® Cortex-M0® 系列中，每个I/O可以承受多少电流吸收和源电流呢？

20万+工程师都在用，免费PCB检查工具