1、如何改进MobileViT-v1与MobileViT-v2?MobileViT-v3带你实验
卷积神经网络(CNNs)[如ResNet、DenseNet和effentnet]被广泛用于分类、检测和分割等视觉任务,因为它们在已建立的基准数据集(如Imagenet、COCO、PascalVOC、ADE20K和其他类似数据集)上具有很强的性能。当在移动设备等资源普遍受限的边缘设备上部署cnn时,适合这种环境的轻量cnn主要有Mobilenet (MobileNetv1、MobileNetv2、MobileNetv3)、ShuffleNet(ShuffleNetv1和ShuffleNetv2)和EfficientNet的轻量版本(EfficientNet-B0和EfficientNet-B1)系列模型。与具有大参数和FLOPs的模型相比,这些轻量级模型缺乏准确性。
最近,Vision Transformer(ViTs)已经成为替代cnn执行这些视觉任务的强有力的选择。由于其架构设计,cnn与局部相邻像素/特征相互作用,生成嵌入局部信息的特征图。相比之下,ViTs中的自注意力机制与图像/特征映射的所有部分相互作用,产生嵌入全局信息的特征。这已被证明可以产生与cnn相似的结果,但需要大量的预训练数据和数据增强。此外,这种全局处理以大参数和FLOPs为代价,以匹配ViT及其不同版本(如DeiT、SwinT、MViT、Focus-ViT、PVT、T2T-ViT、xit)中的cnn的性能。表明vit存在优化器选择、学习率、权值衰减和收敛速度慢等超参数敏感性高的问题。为了解决这些问题,有学者提出在vit中引入卷积层。
最近的许多研究在ViT体系结构中引入了卷积层,形成混合网络,以提高性能,实现高效率,并使模型在参数和flop方面更有效,如MobileViTs(MobileViTv1, MobileViTv2), CMT, CvT, PVTv2, ResT, MobileFormer),CPVT, MiniViT,
CoAtNet, CoaT。其中许多模型在ImageNet-1K上的性能(包括参数和FLOPs)如图1所示。
原作者:嵌入式AI AI学习者
更多回帖