发 帖  
  • 发布了文章 2023-1-9 10:16
    与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升...
    0
    891次阅读
    0条评论
  • 发布了文章 2023-1-8 09:23
    其中为了实现皮肤区域的平滑,同时保留图像中的边缘,传统美颜算法首先使用保边滤波器(如双边滤波、导向滤波等)来对图像进行处理。不同于常用的均值滤波、高斯滤波,保边滤波器考虑了不同区域像素值的变化...
    0
    625次阅读
    0条评论
  • 发布了文章 2023-1-8 09:16
    近年来,随着对存储和计算资源受限的移动应用程序需求的增加,涌现了非常多参数少、FLOPs 低的轻量级模型,例如 Inceptionv3 时期便提出了使用非对称卷积代替标准卷积。后来 MobileNet 提出了深度可分离卷积 depth-wi...
    0
    783次阅读
    0条评论
  • 发布了文章 2023-1-5 10:23
    ConvNeXt V2 最终在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割任务上均取得了极具竞争力的结果,其中最小的模型仅 3.7M 参数可获取 76.7% top-1 准确率,而最大的模型约 6...
    0
    4161次阅读
    0条评论
  • 发布了文章 2023-1-5 09:44
    实用AI地提出,最早可以追溯到1914年。当时Leonardo Torres y Quevedo构建了第一个工作的国际象棋机器终端游戏玩家。当时,国际象棋被认为是一种仅限于智能生物领域的活动。...
    0
    688次阅读
    0条评论
  • 发布了文章 2023-1-5 09:23
    后门攻击的目标是通过修改训练数据或者控制训练过程等方法使得模型预测正确干净样本,但是对于带有后门的样本判断为目标标签。例如,后门攻击者给图片增加固定位置的白块(即中毒图片)并且修改图片的标签为目标标签。用这些中毒数据训练模型过后,模型就会判...
    0
    814次阅读
    0条评论
  • 发布了文章 2023-1-4 14:49
    一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想,人类在学习过程中都是由简单到困难的学习知识。那么在蒸馏的过程中,我们也会希望模型一开始蒸馏是让学生容易学习的,然后难度再增加。难度是一直动态变化的。...
    0
    761次阅读
    0条评论
  • 发布了文章 2023-1-4 10:17
    实验结果表明,GMMSeg 在多种分割网络架构 (segmentation architecture) 及骨干网络 (backbone network) 上都获得了性能提升;同时,无需任何后处理或微调,GMMSeg 可以直接被应用到异常分割...
    0
    1160次阅读
    0条评论
  • 发布了文章 2023-1-3 11:12
    在自然语言处理(NLP)领域,基于 Transformer 架构的预训练模型已经成为主流,并带来诸多突破性进展。很大程度上,这些模型性能强大的原因是它们的规模很大。随着模型参数量和数据量的增长,模型的性能会不断提高。因此,NLP 领域内掀起...
    0
    1267次阅读
    0条评论
  • 发布了文章 2022-12-20 13:42
    一句话总结就是,ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到Transformer网络进行训练和推理的一种神经网络架构。...
    0
    1254次阅读
    0条评论
  • 发布了文章 2022-12-19 14:00
    既然都叫 EfficientFormerV2,那必然是在上一版的基础上改进了,如图(a)所示。没什么特别新奇的,一个很常规的 ViT 型架构。下面的图表是作者统计的实验改进结果...
    0
    1187次阅读
    0条评论
  • 发布了文章 2022-12-19 09:42
    这种现象最先由Wong等人发现,随后他们又发现使用FGSM生成对抗样本时使用随机初始化可以延缓灾难性遗忘发生的时间,但是随着训练的进行,灾难性遗忘还是无法避免。...
    0
    689次阅读
    0条评论
  • 发布了文章 2022-12-15 14:09
    来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。...
    0
    784次阅读
    0条评论
  • 发布了文章 2022-12-14 15:26
    根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本预训练和视频-文本预训练。前者从图像-文本对中学习视觉和语言表征的联合分布,后者则从视频-文本对中建立视频帧和文本之间的语义关联。...
    0
    856次阅读
    0条评论
  • 发布了文章 2022-12-12 15:01
    视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(Self-Attention)进行特征聚合,patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中,包含...
    0
    1415次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 1 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /7 下一条

返回顶部